Justificación y contexto de tu proyecto

1

Cómo crear tu proyecto de ciencia de datos

2

Crea proyectos para afianzar tus conocimientos en ciencia de datos

3

Cada cuánto hacer un proyecto de datos

4

Dónde sacar ideas para proyectos de ciencia de datos

5

Generar y comunicar un proyecto de datos

6

Casos: personas que ya pasaron por este camino

Quiz: Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Plantea una pregunta interesante

8

Obteniendo los datos para tu proyecto

9

Ejecutando: obteniendo los datos

10

Limpieza de la información

11

Ejecutando: limpia tu conjunto de datos

12

Explora y encuentra patrones en la información

13

Ejecutando: exploración de la información

14

Ejecutando: completando la exploración de la información

15

Enriquecimiento de los datos para análisis profundo

16

Ejecutando: enriquecimiento de los datos

17

Aplicando un modelo de machine learning

18

Ejecutando: aplicando un modelo supervisado de machine learning

19

Ejecutando: aplicando un modelo no supervisado de machine learning

20

Ejecutando: aplicando un modelo no supervisado de anomalías

21

Prepara tu trabajo para comunicarlo con el mundo

22

Ejecutando: prepara tu trabajo para comunicarlo con el mundo

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Por qué es importante comunicar los resultados

24

Escribiendo tu primer blogpost técnico

25

Compartiendo en comunidad con tu primera presentación

26

Cómo mejorar tu repositorio en GitHub para ciencia de datos

27

Haciendo deploy de tus modelos

28

Construyendo una aplicación full stack que consuma tu proyecto

Quiz: Comunicando los resultados

Últimos pasos

29

Elige terminar: es mejor terminado que perfecto

30

Recuerda los objetivos del proyecto: practicar y carta de presentación

31

Comparte tu proyecto

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Ejecutando: obteniendo los datos

9/31
Recursos

Aportes 25

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Yo estoy comenzando con mi tesis de pregrado y la estoy haciendo sobre los sistemas de energía solar, uno de los retos que encontré fue que el consumo eléctrico no es algo público, así que he pensado en que las personas de manera autónoma tomen foto del recibo donde aparece el consumo y por medio de reconocimiento de imágenes me extraiga esta información.

Es retador pero emocionante, espero en algún momento poder compartir los resultados con la comunidad.

Encontré datos de 3 fuentes (que si las uno podré contestar mi pregunta para relacionar el covid y la educación en Ecuador) y cada uno está más interesante que el otro:

  1. UNESCO [Educación y covid]. Dataset de cierre de centros educativos (o parcialmente abiertos) a nivel global debido al covid: https://en.unesco.org/covid19/educationresponse
  2. Gobierno de Ecuador [Educación]. Dataset histórico de todos los centros educativos (hasta secundaria) que indica el número de estudiantes inscritos, reprobados y aprobados entre 2009 y 2021: https://educacion.gob.ec/base-de-datos/
  3. Repositorio de GitHub con reportes del gobierno [Covid]. Recopilación de varios datasets obtenido a partir de los informes (en PDF del Gobierno de Ecuador) de reportes de Covid 19. Se actualiza a diario: https://github.com/andrab/ecuacovid

En total saqué 6 datasets, hora de ponerse manos a la obra. 🏃‍♂️

Estoy haciendo un proyecto en el cual extraigo la información de las publicaciones que hay en mercadolibre en la sección de vehículos para mi país (Colombia), para crear una solución que extraiga las publicaciones que se hagan ese mismo día y detecte cuales se encuentran por debajo de su valor esperado el cual se calcule con un modelo de regresión

Estuve un dia entero intentando conseguir informacion sobre la red de ethereum, todos los lugares donde me metia solo me daban data historica sobre el precio, capitalizacion de mercado y poco mas, hasta que encontre que etherscan tenia una amplia variedad de datasets, por lo que tome los que yo considero mas relevantes y forme un solo dataset con toda la data necesaria para trabajar, lo adjunto aqui, quiza a alguno le pueda servir para ahorrarse los dolores de cabeza por los que pase xD.
El data set incluye los siguientes datos:

Date(UTC) UnixTimeStamp Price TxPerDay SupplyPerDay RewardPerDay Average Txn Fee (USD) BurnPerDay

https://drive.google.com/file/d/1IQ3vYW6QN3cneYu4tW_074VyIT7YCUsY/view?usp=sharing

que esta pasando con la plataforma, los videos estan muy demorados en cargar ???

Buenas noches, buen curso, resulta que para practicas estoy trabajando sobre el incremento del alza del pasaje en trasmilenio en Bogotá, que permita a las personas poder identificar las causas y consecuencias de su incremento, quería saber si usar google forms es una buena herramienta para poder obtener datos
Quiero hacer mi tesis de posgrado con esto, ya lo habia pensado pero no habia encontrado nada similar.

Hola, basado en un comentario en una clase anterior, decidí revisar esta página: https://blog.jovian.ai/7-diy-data-science-project-ideas-using-personal-data-996151825944 y pues me parece una excelente idea usar mis propios datos para este proyecto. Ahora exploraré con mi propia base de datos de Spotify, a ver que resulta. Saludos

Yo estoy trabajando sobre algunos datasets relacionados con la Diabetes en el mundo: población con esta enfermedad, mortalidad relacionada, costos promedio de tratamiento por persona y costo anual por país. Estuvo relativamente fácil obtener la información sólo que estaba seccionada por lo que hubo que combinar distintos dataframes y la parte numérica era de tipo string.

Les dejo el dataframe final, si encuentran algún consejo que me sirva para hacer mi código más limpio se los agradeceré mucho.

https://colab.research.google.com/drive/1VFjzqeAMU8jGt07y8K2DgoukMINyAXz6?usp=sharing

Llegué a donde era, no creia que nadie estuviera interesado en este tema. Seguiré a este profe

Relación entre Indicadores y Características Estudiantiles:

  • Correlación entre Indicadores y Características Estudiantiles : Examina si hay correlaciones entre los indicadores educativos y las características de los estudiantes (por ejemplo, nivel socioeconómico, ubicación geográfica, edad, etc.). ¿Hay alguna relación entre estas variables?

Proyecciones y Predicciones:

  • Proyecciones de Cobertura : Utiliza los datos anteriores a 2020 para hacer proyecciones futuras sobre cobertura bruta y neta. ¿Qué se puede prever para los próximos años basándose en los datos históricos?

Comparación entre departamentos:

  • Análisis Comparativo por Departamento : Compara los indicadores de educación entre diferentes departamentos. ¿Existen disparidades significativas entre regiones geográficas?

Impacto del Censo 2018 en las Tasas de Cobertura:

  • Evaluación del Impacto de las Proyecciones del Censo 2018 en las Tasas de Cobertura : Analiza cómo afectarán las proyecciones de población del Censo 2018 a las tasas de cobertura bruta y neta en 2019 y 2018.

Validación de Datos Preliminares de 2020:

  • Análisis de Fiabilidad de Datos Preliminares : Considere evaluar la confiabilidad y precisión de los datos preliminares de 2020 en comparación con los datos auditados. ¿Existen discrepancias significativas?

https://dev.socrata.com/foundry/www.datos.gov.co/ji8i-4anb

“¿Cómo han variado las tasas de cobertura bruta y neta en la educación preescolar, básica y media a lo largo de los años (2011-2022), y cuáles son los factores que más influyen en estas variaciones a nivel departamental en Colombia?”

  • Esta pregunta permite un análisis detallado sobre la evolución de las tasas de cobertura bruta y neta a lo largo del tiempo en los niveles educativos preescolar, básico y medio, con un enfoque específico en la variación a nivel departamental en Colombia.

Mi proyecto lo estoy realizando desde la base de datos del policlínico que estoy trabajando, por lo cual para el conjunto de datos de ventas encuentro con el problema de las cabeceras y combinaciones de celdas ya que al exportarle se exporta en un Excel, sin embargo he encontrado otra forma de encontrar a mas detalles (pero data mas cruda) los datos que ayudaran pero si lo encuentro estructurado de otra manera que dificulta el facil entendimiento.

Hola, qué tal les comparto mi proyecto de caso de estudio.

Trata acerca de la sustentabilidad en los tipos de técnicas aplicadas para la siembra y cosecha de caña de azúcar en México.

Les comparto mi proyecto en Kaggle

necesito filtrar en las tablas de nalimov el conjunto de movimientos posibles en cierta posición dada en el ajedrez, para conocer si el movimiento de un rey de ajedrez de x casilla a y casilla es posible

El problema que se me ocurrió la clase pasada fue el siguiente.
¿Existe una correlación y luego una causación entre el conocimiento en conceptos ambientales vr los indicadores de cuidado ambiental? Pienso, que una primera aproximación para resolver la pregunta problema puede ser determinar una relación rápida entre nivel educativo de lugares en mi país. (datos estadísticos en educación en ciencia, que si los hay por parte del ministerio). comparada con datos de indicadores ambientales. que la pagina de mi país la pagina esta caída. 😦 ) Seguramente estos datos estas sesgados porque abría muchas variables que no deben relacionar unas con la otro… Luego de hacer esto se me ocurre. Una **segunda aproximación ** podría ser determinar a partir de una prueba de AB/ testing dos muestras de poblaciones con un nivel de educación similar a partir de datos de marketing… realizando encuestas de conocimiento con respecto a procesos de preocupación ambiental. Se me ocurre. Pero no se. Creo que es muy abierta la pregunta todavía. Pero si alguien, a partir de la pregunta que realizo puede tener una idea mejor para enfocar esta pregunta me encantaría escucharla
??

trabajaré con una data de la compañia, uno de los problemas mas grande te puedo tener es la cantidad de datos vacios o nulos que posee.

Me gusta mucho la idea de Ciencia de Datos para hacer el bien, se puede contribuir a mejorar la vida a muchas personas 😊

http://portal.monterrey.gob.mx/transparencia/Oficial/Index_Proveedores_Contratistas.asp

Para la gente que viene de Bolivia encontré esta página que tiene algunos datasets bastante interesantes algo antiguos (2016,2015) pero con motivo de practicar se me hacen una buena opción.
https://ciudatos-bolivia.org
Estoy bastante emocionado de trabajar con datos de mi país, he estado esperando este curso desde que comencé con la carrera de Data Scientist y hasta ahora no me a decepcionado

Me encuentro investigando y haciendo un proyecto acerca del sector aeroespacial en Mexico, basado encontrar como poder tener una mayor participacion de empresas mexicanas en ese sector de la industria pero participar con innovacion para ganar terreno en el sector como una estrategia de desarrollo economico para el pais

Yo quiero saber cuantos requerimientos de atención tiene cada empleado , para eso tengo que exportar los datos en formato excel del sistema que se tiene en la empresa, ademas quiero saber cuanto demora en atender cada requerimiento, la cual tendre que buscar la fecha en que se le asigno y la fecha que esta entregando su informe final, eso tendre que buscar en el sistema para luego estar tabulandolo

Encontré un reto y es que no encontré un indice que agrupe el valor de la energía a nivel global, por lo que debo de extraer el precio por tipo de producción (Petróleo, gas, etc) de manera independiente