Justificación y contexto de tu proyecto

1

Cómo crear tu proyecto de ciencia de datos

2

Crea proyectos para afianzar tus conocimientos en ciencia de datos

3

Cada cuánto hacer un proyecto de datos

4

Dónde sacar ideas para proyectos de ciencia de datos

5

Generar y comunicar un proyecto de datos

6

Casos: personas que ya pasaron por este camino

Quiz: Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Plantea una pregunta interesante

8

Obteniendo los datos para tu proyecto

9

Ejecutando: obteniendo los datos

10

Limpieza de la información

11

Ejecutando: limpia tu conjunto de datos

12

Explora y encuentra patrones en la información

13

Ejecutando: exploración de la información

14

Ejecutando: completando la exploración de la información

15

Enriquecimiento de los datos para análisis profundo

16

Ejecutando: enriquecimiento de los datos

17

Aplicando un modelo de machine learning

18

Ejecutando: aplicando un modelo supervisado de machine learning

19

Ejecutando: aplicando un modelo no supervisado de machine learning

20

Ejecutando: aplicando un modelo no supervisado de anomalías

21

Prepara tu trabajo para comunicarlo con el mundo

22

Ejecutando: prepara tu trabajo para comunicarlo con el mundo

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Por qué es importante comunicar los resultados

24

Escribiendo tu primer blogpost técnico

25

Compartiendo en comunidad con tu primera presentación

26

Cómo mejorar tu repositorio en GitHub para ciencia de datos

27

Haciendo deploy de tus modelos

28

Construyendo una aplicación full stack que consuma tu proyecto

Quiz: Comunicando los resultados

Últimos pasos

29

Elige terminar: es mejor terminado que perfecto

30

Recuerda los objetivos del proyecto: practicar y carta de presentación

31

Comparte tu proyecto

You don't have access to this class

Keep learning! Join and start boosting your career

Aprovecha el precio especial y haz tu profesión a prueba de IA

Antes: $249

Currency
$209
Suscríbete

Termina en:

1 Días
10 Hrs
25 Min
17 Seg

Ejecutando: obteniendo los datos

9/31
Resources

How to use open data for analytics?

Data science has not only become a crucial tool for analyzing large volumes of information, but can also be used for social good. One promising area is the analysis of open data to identify anomalies in public procurement, such as the project to explore possible irregularities in the purchases of the municipality of Monterrey. In this context, we will learn how to search for appropriate data sources and face the challenges inherent in public data analysis.

Where to find the data for our project?

For projects based on government data, local government transparency pages are an excellent source of information. In the case of Monterrey, historical data can be accessed through the transparency section of its official website. Here are some additional resources for you to consider:

  • Open Government: Explore sections dedicated to transparency and accountability.
  • Open Government Data: Visit open data portals from different levels of government.
  • GEGOL: Platform that provides resources focused on open data analysis.

Remember that when downloading data from these sources, you will probably face some challenges in terms of format and structure.

What are common challenges in handling government data?

Government data, such as that found in Excel, often comes with a number of difficulties that must be addressed to prepare a useful dataset for analysis. Some of the most common challenges include:

  • Visual rather than tabular formatting: Many times the data present graphs and summaries that are not useful for analysis.
  • Aggregation of explanatory headings: The inclusion of unnecessary headings can hinder the transformation of data into tabular structures.
  • Unwanted additional information: Supplier data or other metrics that are not relevant to the purpose of the analysis.

Familiarity with these challenges will allow you to anticipate and develop strategies to handle them efficiently. An indispensable step is data set cleansing, which is estimated to consume up to 90% of the time in a data science project.

How do we prepare to meet the challenges of the data set?

First, it is important to explore and familiarize yourself with your dataset. Open the file in a data analysis tool, such as Excel or an open source platform, and carefully examine each sheet and category to identify the parts you won't need. In some cases, you will be working with data that is so large or complex that you will not be able to fully examine it in this way, but in more manageable projects, this initial review will give you a better idea of the steps needed to clean and structure your data.

Also, share your experiences and strategies in specific communities or forums. Not only will you receive valuable advice, but you will contribute to the growth of a collaborative learning environment.

In the end, remember that data cleaning and preparation is the foundation of rigorous and meaningful analysis, and although it is often time consuming, it is key to generating accurate and valuable insights. So go ahead, explore and don't be discouraged by these challenges! The ability to solve data problems will open up opportunities to uncover hidden stories that can have a significant impact on society.

Contributions 25

Questions 2

Sort by:

Want to see more contributions, questions and answers from the community?

Yo estoy comenzando con mi tesis de pregrado y la estoy haciendo sobre los sistemas de energía solar, uno de los retos que encontré fue que el consumo eléctrico no es algo público, así que he pensado en que las personas de manera autónoma tomen foto del recibo donde aparece el consumo y por medio de reconocimiento de imágenes me extraiga esta información.

Es retador pero emocionante, espero en algún momento poder compartir los resultados con la comunidad.

Encontré datos de 3 fuentes (que si las uno podré contestar mi pregunta para relacionar el covid y la educación en Ecuador) y cada uno está más interesante que el otro:

  1. UNESCO [Educación y covid]. Dataset de cierre de centros educativos (o parcialmente abiertos) a nivel global debido al covid: https://en.unesco.org/covid19/educationresponse
  2. Gobierno de Ecuador [Educación]. Dataset histórico de todos los centros educativos (hasta secundaria) que indica el número de estudiantes inscritos, reprobados y aprobados entre 2009 y 2021: https://educacion.gob.ec/base-de-datos/
  3. Repositorio de GitHub con reportes del gobierno [Covid]. Recopilación de varios datasets obtenido a partir de los informes (en PDF del Gobierno de Ecuador) de reportes de Covid 19. Se actualiza a diario: https://github.com/andrab/ecuacovid

En total saqué 6 datasets, hora de ponerse manos a la obra. 🏃‍♂️

Estoy haciendo un proyecto en el cual extraigo la información de las publicaciones que hay en mercadolibre en la sección de vehículos para mi país (Colombia), para crear una solución que extraiga las publicaciones que se hagan ese mismo día y detecte cuales se encuentran por debajo de su valor esperado el cual se calcule con un modelo de regresión

que esta pasando con la plataforma, los videos estan muy demorados en cargar ???

Hola, basado en un comentario en una clase anterior, decidí revisar esta página: https://blog.jovian.ai/7-diy-data-science-project-ideas-using-personal-data-996151825944 y pues me parece una excelente idea usar mis propios datos para este proyecto. Ahora exploraré con mi propia base de datos de Spotify, a ver que resulta. Saludos

Relación entre Indicadores y Características Estudiantiles:

  • Correlación entre Indicadores y Características Estudiantiles : Examina si hay correlaciones entre los indicadores educativos y las características de los estudiantes (por ejemplo, nivel socioeconómico, ubicación geográfica, edad, etc.). ¿Hay alguna relación entre estas variables?

Proyecciones y Predicciones:

  • Proyecciones de Cobertura : Utiliza los datos anteriores a 2020 para hacer proyecciones futuras sobre cobertura bruta y neta. ¿Qué se puede prever para los próximos años basándose en los datos históricos?

Comparación entre departamentos:

  • Análisis Comparativo por Departamento : Compara los indicadores de educación entre diferentes departamentos. ¿Existen disparidades significativas entre regiones geográficas?

Impacto del Censo 2018 en las Tasas de Cobertura:

  • Evaluación del Impacto de las Proyecciones del Censo 2018 en las Tasas de Cobertura : Analiza cómo afectarán las proyecciones de población del Censo 2018 a las tasas de cobertura bruta y neta en 2019 y 2018.

Validación de Datos Preliminares de 2020:

  • Análisis de Fiabilidad de Datos Preliminares : Considere evaluar la confiabilidad y precisión de los datos preliminares de 2020 en comparación con los datos auditados. ¿Existen discrepancias significativas?

https://dev.socrata.com/foundry/www.datos.gov.co/ji8i-4anb

“¿Cómo han variado las tasas de cobertura bruta y neta en la educación preescolar, básica y media a lo largo de los años (2011-2022), y cuáles son los factores que más influyen en estas variaciones a nivel departamental en Colombia?”

  • Esta pregunta permite un análisis detallado sobre la evolución de las tasas de cobertura bruta y neta a lo largo del tiempo en los niveles educativos preescolar, básico y medio, con un enfoque específico en la variación a nivel departamental en Colombia.
Buenas noches, buen curso, resulta que para practicas estoy trabajando sobre el incremento del alza del pasaje en trasmilenio en Bogotá, que permita a las personas poder identificar las causas y consecuencias de su incremento, quería saber si usar google forms es una buena herramienta para poder obtener datos
Quiero hacer mi tesis de posgrado con esto, ya lo habia pensado pero no habia encontrado nada similar.

Yo estoy trabajando sobre algunos datasets relacionados con la Diabetes en el mundo: población con esta enfermedad, mortalidad relacionada, costos promedio de tratamiento por persona y costo anual por país. Estuvo relativamente fácil obtener la información sólo que estaba seccionada por lo que hubo que combinar distintos dataframes y la parte numérica era de tipo string.

Les dejo el dataframe final, si encuentran algún consejo que me sirva para hacer mi código más limpio se los agradeceré mucho.

https://colab.research.google.com/drive/1VFjzqeAMU8jGt07y8K2DgoukMINyAXz6?usp=sharing

En mi proyecto voy a usar los datos de Indicadores Educativos de la Secretaría de Educación de la Nación Argentina, abarcando la Promoción Efectiva, Repitencia, Abandono Interanual, Sobreedad, Tasas de Escolarización.
Llegué a donde era, no creia que nadie estuviera interesado en este tema. Seguiré a este profe

Mi proyecto lo estoy realizando desde la base de datos del policlínico que estoy trabajando, por lo cual para el conjunto de datos de ventas encuentro con el problema de las cabeceras y combinaciones de celdas ya que al exportarle se exporta en un Excel, sin embargo he encontrado otra forma de encontrar a mas detalles (pero data mas cruda) los datos que ayudaran pero si lo encuentro estructurado de otra manera que dificulta el facil entendimiento.

Hola, qué tal les comparto mi proyecto de caso de estudio.

Trata acerca de la sustentabilidad en los tipos de técnicas aplicadas para la siembra y cosecha de caña de azúcar en México.

Les comparto mi proyecto en Kaggle

necesito filtrar en las tablas de nalimov el conjunto de movimientos posibles en cierta posición dada en el ajedrez, para conocer si el movimiento de un rey de ajedrez de x casilla a y casilla es posible

El problema que se me ocurrió la clase pasada fue el siguiente.
¿Existe una correlación y luego una causación entre el conocimiento en conceptos ambientales vr los indicadores de cuidado ambiental? Pienso, que una primera aproximación para resolver la pregunta problema puede ser determinar una relación rápida entre nivel educativo de lugares en mi país. (datos estadísticos en educación en ciencia, que si los hay por parte del ministerio). comparada con datos de indicadores ambientales. que la pagina de mi país la pagina esta caída. 😦 ) Seguramente estos datos estas sesgados porque abría muchas variables que no deben relacionar unas con la otro… Luego de hacer esto se me ocurre. Una **segunda aproximación ** podría ser determinar a partir de una prueba de AB/ testing dos muestras de poblaciones con un nivel de educación similar a partir de datos de marketing… realizando encuestas de conocimiento con respecto a procesos de preocupación ambiental. Se me ocurre. Pero no se. Creo que es muy abierta la pregunta todavía. Pero si alguien, a partir de la pregunta que realizo puede tener una idea mejor para enfocar esta pregunta me encantaría escucharla
??

trabajaré con una data de la compañia, uno de los problemas mas grande te puedo tener es la cantidad de datos vacios o nulos que posee.

Me gusta mucho la idea de Ciencia de Datos para hacer el bien, se puede contribuir a mejorar la vida a muchas personas 😊

http://portal.monterrey.gob.mx/transparencia/Oficial/Index_Proveedores_Contratistas.asp

Para la gente que viene de Bolivia encontré esta página que tiene algunos datasets bastante interesantes algo antiguos (2016,2015) pero con motivo de practicar se me hacen una buena opción.
https://ciudatos-bolivia.org
Estoy bastante emocionado de trabajar con datos de mi país, he estado esperando este curso desde que comencé con la carrera de Data Scientist y hasta ahora no me a decepcionado

Me encuentro investigando y haciendo un proyecto acerca del sector aeroespacial en Mexico, basado encontrar como poder tener una mayor participacion de empresas mexicanas en ese sector de la industria pero participar con innovacion para ganar terreno en el sector como una estrategia de desarrollo economico para el pais

Yo quiero saber cuantos requerimientos de atención tiene cada empleado , para eso tengo que exportar los datos en formato excel del sistema que se tiene en la empresa, ademas quiero saber cuanto demora en atender cada requerimiento, la cual tendre que buscar la fecha en que se le asigno y la fecha que esta entregando su informe final, eso tendre que buscar en el sistema para luego estar tabulandolo

Encontré un reto y es que no encontré un indice que agrupe el valor de la energía a nivel global, por lo que debo de extraer el precio por tipo de producción (Petróleo, gas, etc) de manera independiente

En mi caso, supongo que debo hacer encuestas de opinión, formularios, scrappear algunos informes de ventas de paneles solares en el país, y quizá mirar información institucional. Definitivamente, el paso de recolectar los datos y organizarlos es uno de los más retadores pero emocionantes porque en el proceso le puedes dar forma a tus preguntas.