Modelos canónicos y para que los usamos

Clase 15 de 35 • Curso Profesional de Data Science 2016

Resumen

Averiguar qué modelo funciona mejor en qué situación es 100% cuestión de práctica. Por supuesto existen criterios de orientación. Pero participar en competencias de modelos predictivos, leer publicaciones de blogs, y hacer estas cosas en el trabajo simplemente viendo cómo se desarrollan son realmente los únicos pasos para obtener esta intuición.

Regresión Lineal

Los modelos de regresión lineal deben usarse en casos en los que creemos que existe una relación lineal entre cada una de nuestras características, de nuestras entradas, las cuales son sinónimos, y nuestra salida.

Sí, que nuestros datos de hecho se ajustan a una tendencia lineal, por lo tanto: No tan poderoso Por esta razón, en casos de tareas de regresión, se supone que es uno de los primeros modelos que pruebes, sólo como un punto de partida.

Maquinas de Vectores de soporte

Este es normalmente un algoritmo de clasificación, pero también tiene varianza, de modo que puede ser usado para regresión. Lo que hacen las máquinas de vectores de soporte es hallar el llamado “hiperplano de máxima separación” para dos clases de puntos en un espacio de n dimensiones. Entonces, si graficamos nuestros puntos, si visualizamos nuestros datos y observamos una separación lineal entre estos datos entonces las máquinas de vectores de soporte probablemente son un algoritmo que querremos explorar.

Random Forest.

Random forest es en realidad nuestro primer algoritmo no lineal en este conjunto. Y lo que hace, lo que eso significa es que si existen relaciones no lineales entre cada una de nuestras entradas y nuestras salidas un random forest puede descubrir esos patrones mucho mejor de lo que lo haría un modelo de regresión.

Los random forest ajustan no sólo un árbol de decisión sino una gran cantidad de árboles de decisión. Y realmente hacen esto en una especie de forma no intuitiva, de hecho. Debido a que en lugar de ajustar cada árbol de decisión en todos los datos es decir, todas las filas, todos nuestros ejemplos, así como todas las características, lo que hacen en cambio es ajustar esos árboles de decisión, cada uno, en un subconjunto aleatorio de las filas y un subconjunto aleatorio de las columnas.

Los modelos de random forest también introducen este concepto muy interesante, muy divertido en machine learning que es el de agrupación. La idea es que, en lugar de ajustar un árbol de decisión, ajustar muchos débiles y promediar sus votos.

Redes Neuronales

Las redes neuronales no son un algoritmo nuevo. Es algo que ha existido por aproximadamente 75 años. La razón por la que ahora funcionan tan bien son las cantidades masivas de datos, con los cuales entrenar estas redes, que generamos, y también los recursos de cómputo que tenemos fácilmente disponibles con los cuales procesar los datos ya mencionados.

El otro punto para aclarar también es cuando hablamos acerca de aprendizaje profundo, El aprendizaje profundo es casi un sinónimo de redes neuronales.

Las redes neuronales son normalmente cosas que tienen capas escondidas entre ellas y aprendizaje profundo hace referencia a una red neuronal con muchas capas escondidas, que son una red profunda.

Empleamos redes neuronales profundas para entrenarse en lotes grandes de imágenes, audio, video.

Así que para hacer esto en un marco de tiempo razonable y haciendo uso de esto del hardware especializado, de nuevo, la tarea de ingeniería es bastante pesada.

Pedro Escobar

student•

Top algoritmos de predicción.

William Arevalo

Las gpus de google de las que habla Will Son llamadas TPUs(Tensor processing Unit) y estan diseñadas especificamente para hacer machine learning(Procesamiento paralelo), es mas cuenta con servicios colud para machine learning utilizando estos TPUs

Mas info aqui

😃

Michael Guzmán

Aunque también es posible acelerar el proceso utilizando GPUs que tenemos en nuestros computadores (no todas, aclaro)

Modelos canónicos y para que los usamos

Bienvenido al curso

¿Cómo activar los subtítulos para este curso?

Bienvenido al curso profesional de Data Science

Llevar tus cosas a Producción

Llevar tus cosas a producción

Bases de datos: SQL o NoSQL

ETL

Mostrar tus datos mediante dashboards

Repaso por Jupyter Notebook

Ejemplo de inferencia en twitter para producción

Creando nuestro modelo matematico

Automatización

Llevar tus cosas a producción

Machine Learning

Un poco de contexto sobre machine learning

Entrenando un modelo de Machine Learning

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad

Modelos canónicos y para que los usamos

Más modelos canonicos

Itera rápido o muere lento

Recolectando y limpiando nuestros datos

Implementando nuestros modelos de Machine Learning

Creando y ejecutando nuestro pipeline

Machine Learning

Estadística

Estadística y su aplicación en Data Science

Distribuciones de probabilidad

Inferencia estadística

Ejemplo de un modelo estadístico en un Testing A/B

Estadística

Herramientas clave que usa un data scientist

Herramientas que todos necesitamos

Servicios en la nube de Amazon: AWS / EC2

Obteniendo y explorando datos desde nuestra línea de comandos

Git

Construyendo un equipo de data science

Construyendo un equipo de Data Science

Ingenieros de datos, creadores de producto y data scientists

¿Qué sigue?

¿Qué sigue?

Cierre del curso

Contenido complementario