Glosario de palabras técnicas
Clase 3 de 32 • Curso de Introducción a Machine Learning 2018
Objetivo: Reunir las palabras técnicas importantes mencionadas/explicadas a lo largo de las clases y describirlas.
Módulo I
Autos autónomos (Self driving cars) Automóviles que pueden conducirse solos, a sí mismo, en las calles, sin contar con un conductor que los controle directamente.
Clasificador de Spam Clasificador de correo electrónico que analiza el contenido del correo para decidir si va a la bandeja de entrada o al spam.
Visión por computadora (Computer Vision) Aplicación de inteligencia artificial, esta disciplina científica incluye los métodos para adquirir, procesar, analizar y comprender las imágenes del mundo real para producir información que puede ser analizada por el computador.
Módulo II
Aprendizaje Automático (Machine Learning) Sistema o software o programa que entrena un modelo predictivo según los datos de entrada. Este modelo aprende con base a los datos proporcionados, y luego de ser entrenado se lo utiliza para predecir (valores numéricos o categorías) con datos totalmente nuevos.
Aprendizaje Profundo (Deep Learning) Modelo de tipo de red neuronal que contiene varias capas ocultas, este modelo es de tipo no lineal.
Capas Ocultas (Hidden Layers) Se refiere a las diferentes capas de red neuronal entre la capa de entrada y la capa de salida.
Ciencias de Datos (Data Science) Trabajo en el dominio de programación, probabilidad y estadística y dominio de negocio. Relacionado al trabajo con datos, para la comprensión y análisis de los mismos.
Ciencias de la Computación Área de estudio de la construcción de modelos matemáticos y técnicas de análisis cuantitativos, como el uso de computadoras para el análisis y resolución de problemas científicos.
Función de Activación (Activation Function) Es la función de excitación en una red neuronal, que incorpora la suma ponderada de todas las entradas de la capa anterior y genera un valor de resultado (generalmente no lineal) que pasa a la siguiente capa.
Inteligencia Artificial Aquella inteligencia exhibida por un software o máquina, simulando inteligencia humana.
Perceptrón Se refiere a la unidad básica (neurona artificial ) de inferencia.
Redes Neuronales Artificiales Modelo de aprendizaje compuesto por diferentes capas que conectan unidades (o neuronas), todo inspirado en el cerebro biológico.
Rendimiento (Performance) Correctitud sobre el modelo, que tan buenas son sus predicciones.
Módulo III
Kaggle Comunidad online para científicos de datos y personas que trabajan con Machine Learning. En esta comunidad online https://www.kaggle.com/ es posible encontrar set de datos públicos y participar de las diferentes competiciones resolviendo problemas con machine learning.
MNIST Database Set de datos con imágenes de números escritos a mano. Cuenta con un set de entrenamiento de 60000 ejemplos y un set de pruebas de 10000. Revisar los detalles aquí: http://yann.lecun.com/exdb/mnist/
Validación Cruzada (Cross Validation) Técnica utilizada para evaluar resultados de análisis estadísticos y garantizar que son independientes de la partición entre los datos de entrenamiento y prueba.
Set de Datos (Data Set) Grupo de datos de ejemplos.
Set de Entrenamiento (Training Set) Grupo de datos de ejemplos utilizados en la fase de entrenamiento de los algoritmos.
Set de Pruebas (Testing Set) Grupo de datos de ejemplos utilizados en la fase de evaluación del algoritmo ya entrenado.
Módulo IV
Aprendizaje Reforzado (Reinforcement Learning) Área de Machine Learning que se ocupa del aprendizaje del agente respecto a sus acciones basado en maximizar sus probabilidades de recibir premios y minimizar las probabilidades de recibir penalidades.
Aprendizaje Automático Supervisado (Supervised Learning) Entrenamiento de un modelo en base a un set de datos con sus etiquetas correspondientes. El aprendizaje automático supervisado es guiado y como su nombre lo dice supervisado, como cuando un alumno aprende un conjunto de preguntas con las respuestas correspondientes.
Aprendizaje Automático No Supervisado (No Supervised Learning) Entrenamiento de un modelo que va a encontrar patrones en un conjunto de datos que no cuentan con etiqueta. Es más que todo utilizado para agrupamiento de datos.
Clasificación (Model Classification) Tipo de modelo en machine learning para distinguir entre dos o más clases discretas.
Clustering (Agrupamiento de Clusters) Agrupación de valores relacionados, utilizado en el aprendizaje no supervisado.
Datos categóricos (Categorical Data) También llamados atributos discretos.
Datos numéricos (Numerical Data) Atributos de números enteros o de valores reales
Framework Entorno de trabajo que cuenta con módulos de software concretos que pueden servir de base para el desarrollo de software.
Librería Conjunto de implementaciones funcionales para ser directamente utilizadas en un lenguaje de programación.
Ordenada al origen Una intersección o un desplazamiento del origen.
Regresión (modelo de regresión) Un modelo que da como resultado valores continuos.
Segmentación de mercado Dividir el mercado en secciones más pequeñas dependiendo a la oferta y/o necesidades.
Módulo V
Área bajo la curva En la evaluación es la métrica que considera todos los umbrales de clasificación posibles
Evaluación Evaluar un modelo entrenado en Machine Learning para analizar el rendimiento del algoritmo.
Exactitud (Accuracy) Las predicciones correctas entre el número total de ejemplos
Falso Negativo Valor clasificado como de clase negativa, lo cual es incorrecto.
Falso Positivo Valor clasificado como de clase positiva, lo cual es incorrecto.
Matriz de Confusión Herramienta que permite visualizar el desempeño de un algoritmo entrenado con machine learning supervisado.
Precisión Métrica para los modelos de clasificación, cuyos valores pueden ser extraídos de la matriz de confusión.
Recuperación (Recall) También conocido como “anotador”. Es el valor que indica de todas las etiquetas positivas posibles la cantidad que fue etiquetada correctamente.
Error Cuadrático Medio (MSE, mean squared error) Promedio de la pérdida al cuadrado de cada ejemplo.
Sobreajuste (Overfitting) Cuando el modelo de Machine Learning no puede generalizar porque está sobre entrenado y no puede reconocer un nuevo ejemplo.
Underfitting Cuando el modelo de Machine Learning no puede generalizar el conocimiento, debido a las pocas muestras con las que aprende.
Verdadero Negativo Valor predecido como clase negativa, lo cual es correcto.
Verdadero Positivo Valor predecido como clase positiva, lo cual es correcto.
Módulo VI
Algebra Lineal También denominadas las matemáticas del siglo XXI. Estudia conceptos como vectores, matrices, sistemas de ecuaciones lineales, espacios vectoriales y sus transformaciones, entre otros. Conceptos relevantes para el trabajo con machine learning.
Descenso de Gradientes (Gradient Descent) Técnica para minimizar la pérdida mediante cálculo de gradientes de pérdida con respecto a los parámetros del modelo, condicionados con los datos de entrenamiento.
Verosimilitud (Likelihood) Función de los parámetros de un modelo estadístico que permite realizar inferencias acerca de su valor a partir de un conjunto de observaciones.