Elegir los datos correctos puede transformar por completo la forma en que aprendes machine learning. En lugar de trabajar con conjuntos de datos abstractos y desconectados de la vida real, aquí se propone una visión diferente: la inteligencia artificial debe estar al servicio del bienestar humano. Con esa premisa, se seleccionaron tres datasets que permiten practicar técnicas de análisis y predicción mientras se exploran temas cercanos como la felicidad, la alimentación y la salud.
¿Qué datasets se utilizan y por qué fueron seleccionados?
La selección no es casual. Cada conjunto de datos representa un área donde el machine learning puede aportar valor tangible a las personas, más allá de la productividad empresarial.
¿Qué revela el reporte de felicidad mundial?
El primer dataset corresponde al World Happiness Report de 2019 [1:25]. Se trata de una medición que se realiza desde 2012 y que evalúa distintos aspectos de todos los países del mundo. El objetivo es clasificar un índice de felicidad considerando variables como la corrupción, el índice de desarrollo económico y otros factores socioeconómicos. Con estos datos es posible entender qué elementos de fondo contribuyen a que ciertos países reporten mayor bienestar que otros.
¿Qué información esconde un ranking de caramelos?
El segundo dataset se llama The Ultimate Halloween Candy Power Ranking [2:07]. Contiene información sobre ochenta y cinco caramelos diferentes. Se realizó una encuesta donde las personas comparaban pares de caramelos e indicaban cuál preferían. Estas preferencias se cruzaron con las características propias de cada caramelo: si contiene chocolate, avena, altas concentraciones de azúcar, entre otras. El resultado es un conjunto de datos muy informativo sobre los dulces favoritos de la gente, ideal para practicar técnicas de clasificación y análisis de preferencias.
¿Cómo evaluar factores de riesgo en salud cardíaca?
El tercer dataset se enfoca en factores de riesgo de salud cardíaca [2:52] estudiados desde 1988. La idea es explorar cómo utilizar información médica para construir un producto que ayude a predecir el estado de los pacientes a largo plazo. Es un ejemplo claro de cómo el machine learning aplicado a datos clínicos puede generar herramientas con impacto directo en la vida de las personas.
¿Qué es Kaggle y cómo aprovecharlo?
Todos los datasets mencionados fueron obtenidos de Kaggle [3:18], una plataforma social orientada a científicos de datos y profesionales del machine learning. En kaggle.com se encuentran recursos valiosos para crecer rápidamente en esta área:
- Competiciones que se actualizan constantemente con retos de visión artificial y machine learning tradicional.
- Una cantidad enorme de datasets de todo tipo, filtrados incluso por años.
- Cuadernos de Jupyter (notebooks) con soluciones de código creadas por la comunidad para explorar y analizar los datos disponibles.
- Foros de discusión donde se comparten hallazgos y enfoques sobre cada dataset.
Al buscar, por ejemplo, el reporte de felicidad mundial dentro de Kaggle, es posible acceder a discusiones, datos segmentados y notebooks listos para ejecutar [3:50].
¿Qué diferencias tienen los datasets del curso respecto a los originales?
Un detalle importante: los datasets utilizados a lo largo del curso son ligeramente diferentes a los que están alojados originalmente en Kaggle [4:18]. Se realizaron modificaciones para facilitar el manejo de los datos y de las columnas que los componen. Estos archivos modificados están disponibles en la sección de archivos del curso, listos para descargar y empezar a trabajar.
Si te interesa aplicar machine learning a problemas reales que impactan el bienestar de las personas, descargar estos datasets y explorarlos es el primer paso. ¿Con cuál te gustaría comenzar?