Quiero ser científico de datos ¿Por dónde puedo empezar?

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

Esta es una de las preguntas que más me suele hacer la gente que quiere analizar datos. Usualmente son personas que quieren dedicarse a la ciencia de datos, pero que nunca han programado o no tienen conocimientos necesarios de matemáticas.

Esto no es un problema, yo suelo recomendar que no intentéis abordar los dos problemas simultáneamente. Puedes comenzar aprendiendo sobre programación con algún lenguaje amigable. También sobre estructura de datos, procesamiento con strings, algo de funciones y algoritmos, etc.
Una vez que tengas una base de programación, continua tu aprendizaje en estadística y la parte más matemática del Machine Learning.

Si haces las dos cosas a la vez (programación y matemáticas) la curva de aprendizaje es muy costosa y frustrante, en muchos casos no sabrás si el resultado está mal porque lo programaste mal o porque planteaste mal la solución.

Otra cosa que suelo recomendar es unirte a alguna comunidad de software, seguro que en tu ciudad hay alguna, ¡y sobre todo a la de Platzi! Encontrarás apoyo en otros compañeros, consejos y tú también podrás ayudar a los nuevos con lo que vayas aprendiendo.

Es importante el tema de participar en una comunidad. En Rladies Madrid hemos conseguido crear diferentes proyectos open source, desde análisis NLP (Procesamiento de lenguaje natural) del Boletín Oficial del Estado Español a proyectos en colaboración con otras comunidades de software. En esta ocasión voy a hablaros en concreto del proyecto de análisis del impacto de noticias del NYTimes en Wikipedia que realizamos en conjunto con la gente de OWS y Adalab:

  • Adalab: es un proyecto donde impulsan a mujeres jóvenes con dificultades de empleabilidad mediante un programa integral que incluye formación intensiva en perfiles del mundo web.
  • OWS: es una comunidad que se reúne una vez al mes para contribuir en código abierto. Se dan charlas, talleres y se organizan proyectos en los que todo el mundo es bienvenido, la única condición es que sea open source y sin ánimo de lucro.

Junto a ellos desde Rladies Madrid montamos un proyecto donde se recogen las noticias más relevantes desde la API del New York Times. Almacenamos el título de la noticia, un resumen de la misma y sus etiquetas. Después se analiza el sentimiento de la noticia con la librería syuzhet de R y para ver la relevancia de la noticia en las visitas a la Wikipedia, se recogen las visitas de los tags de cada noticia mediante la API de Wikipedia. ¡Puedes ver como lo hicimos aquí!.
Este proyecto fue presentado por las chicas de Adalab en diferentes empresas de charlas divulgativas donde contaban en que habían participado dentro del proyecto y les servía como presentación de currículum ante dichas empresas.

Participar en un proyecto donde se usan datos reales junto con otros profesionales del sector es una oportunidad muy interesante a la hora de formarse y tener experiencia en el sector de datos.

Este es un ejemplo de las cosas que puede aportarte una comunidad a la hora de iniciar un nuevo rumbo profesional o mejorar tu situación laboral.

Finalmente, a toda la gente que me pregunta siempre les digo lo mismo: Compartir y aportar a vuestras comunidades, por muy poco que penséis que podéis hacer, en muchas ocasiones es más interesante un post de primeros pasos en R que uno sobre una librería avanzada de análisis de datos.

Mira también cuál es la importancia de usar datos en tu empresa.

Mucho ánimo a todos los valientes que empezáis o estáis en ello. ¡Nadie dijo que sería fácil pero sí que merecerá la pena!

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

0 Comentarios

para escribir tu comentario

Artículos relacionados