44

Quiero ser científico de datos ¿Por dónde puedo empezar?

215Puntos

hace 5 años

Esta es una de las preguntas que más me suele hacer la gente que quiere analizar datos. Usualmente son personas que quieren dedicarse a la ciencia de datos, pero que nunca han programado o no tienen conocimientos necesarios de matemáticas.

Esto no es un problema, yo suelo recomendar que no intentéis abordar los dos problemas simultáneamente. Puedes comenzar aprendiendo sobre programación con algún lenguaje amigable. También sobre estructura de datos, procesamiento con strings, algo de funciones y algoritmos, etc.
Una vez que tengas una base de programación, continua tu aprendizaje en estadística y la parte más matemática del Machine Learning.

Si haces las dos cosas a la vez (programación y matemáticas) la curva de aprendizaje es muy costosa y frustrante, en muchos casos no sabrás si el resultado está mal porque lo programaste mal o porque planteaste mal la solución.

Otra cosa que suelo recomendar es unirte a alguna comunidad de software, seguro que en tu ciudad hay alguna, ¡y sobre todo a la de Platzi! Encontrarás apoyo en otros compañeros, consejos y tú también podrás ayudar a los nuevos con lo que vayas aprendiendo.

Es importante el tema de participar en una comunidad. En Rladies Madrid hemos conseguido crear diferentes proyectos open source, desde análisis NLP (Procesamiento de lenguaje natural) del Boletín Oficial del Estado Español a proyectos en colaboración con otras comunidades de software. En esta ocasión voy a hablaros en concreto del proyecto de análisis del impacto de noticias del NYTimes en Wikipedia que realizamos en conjunto con la gente de OWS y Adalab:

  • Adalab: es un proyecto donde impulsan a mujeres jóvenes con dificultades de empleabilidad mediante un programa integral que incluye formación intensiva en perfiles del mundo web.
  • OWS: es una comunidad que se reúne una vez al mes para contribuir en código abierto. Se dan charlas, talleres y se organizan proyectos en los que todo el mundo es bienvenido, la única condición es que sea open source y sin ánimo de lucro.

Junto a ellos desde Rladies Madrid montamos un proyecto donde se recogen las noticias más relevantes desde la API del New York Times. Almacenamos el título de la noticia, un resumen de la misma y sus etiquetas. Después se analiza el sentimiento de la noticia con la librería syuzhet de R y para ver la relevancia de la noticia en las visitas a la Wikipedia, se recogen las visitas de los tags de cada noticia mediante la API de Wikipedia. ¡Puedes ver como lo hicimos aquí!.
Este proyecto fue presentado por las chicas de Adalab en diferentes empresas de charlas divulgativas donde contaban en que habían participado dentro del proyecto y les servía como presentación de currículum ante dichas empresas.

Participar en un proyecto donde se usan datos reales junto con otros profesionales del sector es una oportunidad muy interesante a la hora de formarse y tener experiencia en el sector de datos.

Este es un ejemplo de las cosas que puede aportarte una comunidad a la hora de iniciar un nuevo rumbo profesional o mejorar tu situación laboral.

Finalmente, a toda la gente que me pregunta siempre les digo lo mismo: Compartir y aportar a vuestras comunidades, por muy poco que penséis que podéis hacer, en muchas ocasiones es más interesante un post de primeros pasos en R que uno sobre una librería avanzada de análisis de datos.

Mira también cuál es la importancia de usar datos en tu empresa.

Mucho ánimo a todos los valientes que empezáis o estáis en ello. ¡Nadie dijo que sería fácil pero sí que merecerá la pena!

Ines
Ines
ineshuertas

215Puntos

hace 5 años

Todas sus entradas
Escribe tu comentario
+ 2
Ordenar por:
6
305Puntos

Muy bien, Ines. Muchas gracias

Tu Recomiendas tener bases solidas en programación y despues enfocarse en estadistica y matematicas.

¿Cual seria ruta de aprendizaje en platzi me recomedarias para ser cientifica de datos?

Muchas gracias

2
11476Puntos
5 años

De acuerdo @Omega_Patrick , pero para ver ese curso, antes tienes que ver otros, como el de fundamentos de R… Creo que eso es a lo que se refiere @yadiplatx
¿Qué otros cursos son necesarios? 😃

2
215Puntos
5 años

Buenas!
Para hacer el curso es recomendable que controleis al menos la parte de R, ya que se asume que teneis conociemiento de este lenguaje, por otra parte si habeis hecho algo de webscrapping tambien esta genial!
Saludos y mucho ánimo!

3

muchas gracias por la aclaracion
se aprende mucho mejor si uno esta enfocado en un solo tema a la vez y no en muchas

1
2937Puntos

Si soy hombre ¿a qué comunidad puedo entrar?

1
215Puntos
5 años

Buenas!
Hay un monton!! La comunidad de platzi por ejemplo, tambien tienes los grupos de desarrolladores de google (GDGs) seguro hay alguno en tu ciudad!, el grupo de Usuarios de R (RUser) o el python! En Rladies Madrid los hombres son bienvenidos! Las charlas las dan chicas pero por supuesto estas invitado!
Saludos!

1

hola!!! que lenguaje recomiendan para machine learnig, Python o R ?

1
5 años

Yo recomiendo los dos tanto Python como R cuentan con muchas librerías y paquetes para ML.

1
93Puntos

Estoy muy interesada por el análisis de datos y ser una futura científica de datos y diste apuntes de páginas y proyectos que estoy segura que me seran de utilidad!! ☺️ Muchas gracias

1
305Puntos

Muy bien, Ines. Muchas gracias

Tu Recomiendas tener bases solidas en programación y despues enfocarse en estadistica y matematicas.

¿Cual seria ruta de aprendizaje en platzi me recomedarias para ser cientifica de datos?

Muchas gracias

1
215Puntos
5 años

Buenas!
En platzi tienes un curso de programacion en R que esta genial para que comenceis a familiarizaros con este lenguaje! Luego puedes ver el de curso profesional de ciencia de datos como ejemplo de desarrollo de proyecto!

1
748Puntos

Qué oportuna entrada de blog, justo estoy iniciando en la programación, ya tengo formación matemática y me gustaría ahondar por los momentos en la consulta de bases de datos, ¿alguna sugerencia si desconozco los programas que dictas en ese curso? Saludos

1
215Puntos
5 años

Buenas! Para la parte de bbdd dices? Prueba a instalarte un mysql (es software libre) y es bastante sencillo de utilizar para iniciarte!!! Hay muchos ejemplos que puedes encontrar disponibles, lo importante es que entiendas como se pueden agrupar y agregar lo datos!
Ánimo!

1
5 años

Por lo general la información con que se trabajara en proyectos de Ciencia de datos no sera estructurada, ni con tablas de bases de datos relacionales, en su mayoría
se trabajara con datos no estructurados como texto, sonido, imágenes, vídeo etc.

1
17381Puntos

Muy bien. Es muy importante integrarse a las comunidades, así mejoramos y aceleramos el aprendizaje de algo.

1
2682Puntos

Muchas gracias @ineshuertas por tu aporte! Yo me encuentro en camino a aprender sobre el Data Science, y mi ruta de Aprendizaje la hare de la siguiente manera:

  1. Carrera de Matemáticas para Programación

  2. Carrera de Bases de Datos

  3. Carrera de Data Science

  4. Complementar con: Carrera de Marketing Basado en Datos

Me podrías decir que más podría incluir o desacartar en esta ruta? O, si piensas que es una ruta óptima?

4
215Puntos
5 años

Buenas!
Wuau! esta genial! tienes razon en la parte de bbdd, es bueno que lo conozcas, sobre todo la parte de como agregar y combinar datos (joins) te va a venir geniar para la parte de procesamiento de datos.
Lo de Marketing supongo que estará orientado a lo que te vas a dedicar! Cuando estes viendo la parte de Data Science veras que existen metodos que se suelen mas aplicar en unas areas que en otras. Si te interesa la parte de marketing es bueno que conozcas tambien otros metodos de exploracion de datos con BI que se suelen utilizar como upselling o cross-selling…
Saludos!!

1
160Puntos

Hola Ines.

Muchas gracias por tu aporte. Lo leí con mucha atención y lo considero muy valioso tus ideas,tus conocimientos y experiencias.

Das luces al camino por andar de ser un científico de datos.

Saludos.