Preparando datos para AutoML

Clase 16 de 28 • Curso de Machine Learning para Análisis Predictivo

Contenido del curso

Bienvenida e Introduccion

Machine Learning genérico

Machine Learning con tus datos

Machine Learning para Análisis de Datos

Machine Learning a la medida

Finalizando el curso

26
Conclusiones y cierre
00:45 min

Bonus meme: Machine Learning en la frontera

Tomar examen

Resumen

¿Cómo comenzar a obtener datos para un modelo de auto?

El almacenamiento y la organización de datos son esenciales para garantizar el éxito de un modelo de aprendizaje automático. Iniciar este proceso de manera estructurada puede facilitar la gestión de información y la calidad de los resultados. Aquí te ofrecemos una guía paso a paso sobre cómo establecer y gestionar tu entorno de datos.

¿Cómo organizamos nuestras carpetas y datos?

Primero, necesitas crear una estructura de carpetas para almacenar la información necesaria. Debes crear una carpeta global y dentro de ella, dos subcarpetas llamadas datos_entrenamiento y datos_predicción. Estas subcarpetas te permitirán diferenciar entre los datos que usarás para entrenar tu modelo y aquellos que usarás para hacer predicciones.

Además, es importante diferenciar entre categorías. Puedes crear carpetas adicionales para cada categoría esperada del modelo, como:

Desarrollo de negocios
Diseño
Técnicos
Sin categoría (NA)

¿Cómo extraer datos del Blog de Platzi?

Los blogs de Platzi ofrecen una estructura básica útil para nuestros experimentos. Cada blog generalmente incluye:

Título
Fecha de publicación
Autor
Contenido

Para extraer esta información, sigue estos pasos:

Título y Fecha: Copia el título y la fecha de publicación. La fecha puede ser un desafío si se muestra en términos vagos como "hace dos días"; en archivos más antiguos, necesitarás investigar para determinar fechas específicas.
Autor: Anota el autor del blog. Puedes usar nombres de usuario siempre que mantengas una consistencia de formato.
Contenido: Copia el contenido de texto, excluyendo imágenes, y guárdalo en un archivo de texto.

Repite este proceso para varios blogs hasta alcanzar un número significativo de ejemplos para cada categoría.

¿Cómo gestionar grandes volúmenes de datos?

Manejar grandes volúmenes de datos puede ser engorroso si se hace manualmente. Si tienes un gran conjunto de datos, considera automatizar el proceso mediante scripts o herramientas como cron jobs. Sin embargo, para ejemplaridad y simplicidad, este tutorial abarca la extracción manual, suficiente para obtener alrededor de 90 ejemplos, sobre unos 25 por categoría.

¿Cómo subir datos a Claude AI?

Claude AI ofrece una plataforma intuitiva para gestionar y cargar datos. Sigue estos pasos para integrar tus datos:

Compresión: Comprime tus archivos en un .zip.
Acceso y Carga: Accede a la plataforma de Claude AI y sube tus datos. Asegúrate de:
- Tener al menos 10 ejemplos si estás haciendo predicciones,
- Qué tus nombres de archivo no contengan caracteres especiales como acentos o la letra ñ.
Creación del Data Set: Inicia un nuevo set de datos en la plataforma y elige si deseas utilizar etiquetas sencillas o múltiples según tus necesidades. En este caso, solo interesa identificar una etiqueta por entrada.

Para facilitar la integración de datos almacenados en la nube, se recomienda usar un almacén adecuado como cloud storage y un archivo .csv para documentar las rutas de acceso y las categorías de cada documento.

¿Cómo asegurar la precisión de los datos?

La precisión en la clasificación de datos es esencial para asegurar que el modelo de Machine Learning funcione correctamente. Es importante:

Verificar que los datos estén completos y sean coherentes.
Proveer etiquetas claras y evitar categorías abiertamente ambiguas.
Mantener el balance entre las diferentes categorías para evitar sesgos en el modelo.

Con una estructura bien organizada y eficacia en la carga y gestión de datos, estarás listo para comenzar a construir modelos más precisos y obtener resultados significativos. ¡Ánimo con tu proyecto de aprendizaje automático!

Preparando datos para AutoML

Bienvenida e Introduccion

Qué aprenderás sobre análisis predictivo

Introducción a Cloud Machine Learning

¿Por qué correr cargas de Machine Learning en la nube?

Machine Learning genérico

Cinco increíbles APIs para diferentes usos de Machine Learning

Entendiendo las APIs de Machine Learning

Caso de Estudio: APIs de Machine Learning

Configurando el proyecto

Guardando imágenes en Cloud Storage

Guardar datos en Firebase

Generando comentarios en tu proyecto

Usando Cloud Vision para analizar imagenes

Usando el NLP API para analizar sentimiento

Analizando la respuesta del NLP en API

Deploy a Firebase

Machine Learning con tus datos

Introducción y caso de estudio: AutoML