Introducción a Datos y Set de Datos

Clase 12 de 32Curso de Introducción a Machine Learning 2018

Resumen

Los datos son necesarios para que nuestra máquina o software aprenda directamente.

Para los Datos debemos diferenciar dos cosas principales: El entrenamiento donde haremos todos los ajustes necesarios a nuestro modelo de Machine Learning y las Pruebas porque necesitamos medir el rendimiento, todo el performance de lo desarrollado.

  • Entrenamiento: Tenemos un grupo de datos el cual debe ser divido en varias partes, algunas para el entrenamiento y otra para las pruebas de validación.

  • Prueba: Son datos que nunca ha visto nuestro algoritmo de entrenamiento, son datos independiente y los colocaremos cuando nuestro algoritmo ya este entrenado.

  • Cross Validation: Es otra técnica utilizada para dividir los datos de entrenamiento y los datos de prueba. Con esta división podemos entrenar nuestro algoritmo varias veces.