Análisis de Datos para el Bienestar y la Felicidad Humana

Clase 7 de 37 • Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Resumen

Elegir los datos correctos puede transformar por completo la forma en que aprendes machine learning. En lugar de trabajar con conjuntos de datos abstractos y desconectados de la vida real, aquí se propone una visión diferente: la inteligencia artificial debe estar al servicio del bienestar humano. Con esa premisa, se seleccionaron tres datasets que permiten practicar técnicas de análisis y predicción mientras se exploran temas cercanos como la felicidad, la alimentación y la salud.

¿Qué datasets se utilizan y por qué fueron seleccionados?

La selección no es casual. Cada conjunto de datos representa un área donde el machine learning puede aportar valor tangible a las personas, más allá de la productividad empresarial.

¿Qué revela el reporte de felicidad mundial?

El primer dataset corresponde al World Happiness Report de 2019 [1:25]. Se trata de una medición que se realiza desde 2012 y que evalúa distintos aspectos de todos los países del mundo. El objetivo es clasificar un índice de felicidad considerando variables como la corrupción, el índice de desarrollo económico y otros factores socioeconómicos. Con estos datos es posible entender qué elementos de fondo contribuyen a que ciertos países reporten mayor bienestar que otros.

¿Qué información esconde un ranking de caramelos?

El segundo dataset se llama The Ultimate Halloween Candy Power Ranking [2:07]. Contiene información sobre ochenta y cinco caramelos diferentes. Se realizó una encuesta donde las personas comparaban pares de caramelos e indicaban cuál preferían. Estas preferencias se cruzaron con las características propias de cada caramelo: si contiene chocolate, avena, altas concentraciones de azúcar, entre otras. El resultado es un conjunto de datos muy informativo sobre los dulces favoritos de la gente, ideal para practicar técnicas de clasificación y análisis de preferencias.

¿Cómo evaluar factores de riesgo en salud cardíaca?

El tercer dataset se enfoca en factores de riesgo de salud cardíaca [2:52] estudiados desde 1988. La idea es explorar cómo utilizar información médica para construir un producto que ayude a predecir el estado de los pacientes a largo plazo. Es un ejemplo claro de cómo el machine learning aplicado a datos clínicos puede generar herramientas con impacto directo en la vida de las personas.

¿Qué es Kaggle y cómo aprovecharlo?

Todos los datasets mencionados fueron obtenidos de Kaggle [3:18], una plataforma social orientada a científicos de datos y profesionales del machine learning. En kaggle.com se encuentran recursos valiosos para crecer rápidamente en esta área:

Competiciones que se actualizan constantemente con retos de visión artificial y machine learning tradicional.
Una cantidad enorme de datasets de todo tipo, filtrados incluso por años.
Cuadernos de Jupyter (notebooks) con soluciones de código creadas por la comunidad para explorar y analizar los datos disponibles.
Foros de discusión donde se comparten hallazgos y enfoques sobre cada dataset.

Al buscar, por ejemplo, el reporte de felicidad mundial dentro de Kaggle, es posible acceder a discusiones, datos segmentados y notebooks listos para ejecutar [3:50].

¿Qué diferencias tienen los datasets del curso respecto a los originales?

Un detalle importante: los datasets utilizados a lo largo del curso son ligeramente diferentes a los que están alojados originalmente en Kaggle [4:18]. Se realizaron modificaciones para facilitar el manejo de los datos y de las columnas que los componen. Estos archivos modificados están disponibles en la sección de archivos del curso, listos para descargar y empezar a trabajar.

Si te interesa aplicar machine learning a problemas reales que impactan el bienestar de las personas, descargar estos datasets y explorarlos es el primer paso. ¿Con cuál te gustaría comenzar?

Comentarios

Miguel Angel Velazquez Romero

student•

Datasets que usaremos en el curso:

World Happiness Report: Es un dataset que desde el 2012 recolecta variables sobre diferentes países y las relaciona con el nivel de felicidad de sus habitantes. Nota: Este data set lo vamos a utilizar para temas de regresiones
The Ultimate Halloween Candy Power Ranking: Es un estudio online de 269 mil votos de más de 8371 IPs deferentes. Para 85 tipos de dulces diferentes se evaluaron tanto características del dulce como la opinión y satisfacción para generar comparaciones. Nota: Este dataset lo vamos a utilizar para temas de clustering
Heart disease prediction: Es un subconjunto de variables de un estudio que realizado en 1988 en diferentes regiones del planeta para predecir el riesgo a sufrir una enfermedad relacionada con el corazón. Nota: Este data set lo vamos a utilizar para temas de clasificación.

Matias Alexander Ibarra Trujillo

student•

los datasets estan geniales

Isabel Anabalon Fuentes

student•

Que hermosos los datasets!!!!!

Julián Cárdenas

student•

Así es!!

Anabel Chavez Berumen

student•

justo en época de Halloween caí aquí 🎃🦴💀

Martin Mendez

student•

Somos 2!

Anabel Chavez Berumen

student•

Mucho exito mendezmartin97 !!!

Miguel Angel Velazquez Romero

student•

Les comparto mi perfil en Kaggle compañeros:

Aun soy principiante, pero aquí esta: DataEngel

Jhon Freddy Tavera Blandon

student•

Kaggle es una plataforma en línea que ofrece una comunidad global de científicos de datos, analistas y entusiastas de la inteligencia artificial. Fue fundada en 2010 y adquirida por Google en 2017. Kaggle una plataforma donde los profesionales y entusiastas de los datos pueden acceder a conjuntos de datos, participar en competencias de aprendizaje automático, colaborar en proyectos y mejorar sus habilidades en análisis de datos y ciencia de datos.

Xavier Patricio Manzano Herdoiza

student•

les dejo este canal hay muy buen contenido aca https://www.youtube.com/channel/UC8KCb358oioQMcJ5pUfs8UQ

Carlos Ignacio Carrizo Molina

student•

Excelentes Datasets!! La IO al servicio del bienestar.

Mario Alexander Vargas Celis

student•

El análisis de datos para el bienestar y la felicidad humana es un campo emergente que combina ciencia de datos, psicología, sociología, economía y salud pública para entender qué factores contribuyen al bienestar subjetivo y cómo pueden mejorarse mediante políticas, tecnología o intervenciones sociales.

🌱 ¿Qué es el bienestar y la felicidad en términos de datos?

Bienestar subjetivo: cómo las personas evalúan sus vidas (satisfacción, emociones positivas/negativas).
Indicadores objetivos: ingresos, salud, educación, relaciones sociales, empleo, seguridad, etc.
Fuentes de datos:
- Encuestas como World Happiness Report, Gallup World Poll, Eurobarometer.
- Datos de salud pública.
- Redes sociales (análisis de sentimiento).
- Datos de comportamiento (app de bienestar, wearables, actividad física).

🔍 Ejemplos de análisis comunes

Tipo de AnálisisEjemploRegresión¿Qué tanto predice el ingreso la felicidad en distintos países?Clasificación¿Quién es más propenso a reportar altos niveles de bienestar?ClusteringAgrupar personas o regiones por perfiles de bienestar.Análisis de textoExtraer emociones o temas de diarios personales o publicaciones.

🛠️ Herramientas y tecnologías recomendadas

Python + pandas, matplotlib, seaborn, scikit-learn, statsmodels
NLP: nltk, spaCy, transformers para análisis de textos.
Encuestas: World Values Survey, Gallup, OECD datasets.
Dashboards: Power BI, Tableau o Dash para visualizar resultados.

📈 Proyecto ejemplo: “¿Qué hace feliz a una nación?”

Objetivo: Usar datos del World Happiness Report para modelar los factores más importantes en la felicidad por país.

import pandas as pd import seaborn as sns import matplotlib.pyplot as plt

# Cargar datos df = pd.read_csv("world_happiness_report.csv")

# Correlación entre felicidad y factores sns.heatmap(df.corr(), annot=True) plt.title("Correlación entre factores de bienestar") plt.show()

🧠 Aplicaciones reales

Políticas públicas basadas en bienestar (Nueva Zelanda, Bután, Finlandia).
Aplicaciones móviles de seguimiento emocional.
Programas empresariales de felicidad organizacional.
Intervenciones sociales personalizadas usando IA.

📚 Recursos para aprender más

World Happiness Report
OECD Better Life Index
Libros: “Happiness by Design”, “The How of Happiness”, “Wellbeing: The Five Essential Elements”

Salvador Cardona Noriega

student•

¿Conocen las diferencias entre los data set originales y los proporcionados?

Emanuel Anchique Pautt

student•

Donde consigo el dataset modificado?

Diego Alejandro Lesmes

student•

En el repo

Giovany samaca

student•

hola alguien sabe aparte de kaggle donde puedo conseguir datasets??

Fernando Campos

student•

Hola 👋🏼 Te comparto este artículo donde hablan de sitios web donde puedes encontrar increíbles datasets.

Miguel Antonio Rojas Martinez

student•

Hasta ahora me ha parecido un GRAN Gran profesor

y NO entiendo como solo lo he visto en este curso, (he tomado muchos)

Antonio Demarco Bonino

student•

Feliz de ya contar con el material y con la fuente de los mismos.

Gustavo Adolfo Delgado Quevedo

student•

Gracias por el material

Diego Jurado

student•

Kaggle parece ser una super herramienta para el aprendizaje de macnine learnig

Juan R. Vergara M.

student•

Es muy buena, ofrece cursos gratuitos y todo.

José Alberto Maita Fariñas

student•

Hola. El archivo PDF (readme-dataset-heart-disease.pdf) con la descripción del conjunto de datos "heart.csv" debería ser un poco más claro en el rango de valores que podemos encontrar. Por ejemplo, en la columna "sex", sólo puede tomar dos valores (0 y 1; en la descripción aparece que "Hombre" es 1 y "Mujer" es 2, lo cual es incorrecto). Algo similar ocurre con la columna "cp", cuyo rango debe ser 0 a 3, y no de 1 a 4. Por favor, corregir dicha descripción. Gracias por el curso.

Camilo Andres Leguizamón Reyes

student•

se dice gigantesca

Análisis de Datos para el Bienestar y la Felicidad Humana

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python