Clasificación de Datos con Algoritmo K-Nearest Neighbors

Clase 22 de 24 • Curso de Introducción al Pensamiento Probabilístico

Resumen

¿Qué es el algoritmo K-Nearest Neighbors?

El algoritmo K-Nearest Neighbors (KNN) es uno de los modelos más importantes y antiguos en el ámbito del machine learning. Este algoritmo se utiliza principalmente para la clasificación de objetos o vectores de datos cuyos grupos o categorías no son conocidos. KNN parte de una clasificación previa y busca encontrar la clase o etiqueta de un nuevo objeto basándose en su proximidad a otros puntos de datos clasificados.

¿Cómo funciona la clasificación en KNN?

La clave del K-Nearest Neighbors reside en el valor 'K', que representa el número de vecinos más cercanos utilizados para determinar la clasificación de un nuevo punto de datos. En resumen:

Votación por números: Se toma la mayoría de los 'K' vecinos para decidir a qué grupo pertenece el nuevo punto de datos. Por ejemplo, si K=5, el grupo con al menos 3 votos se adjudicará el nuevo punto de datos.

Este algoritmo es sencillo de implementar y tiene aplicaciones en diversos campos como finanzas y medicina. Sin embargo, es importante considerar las posibles complicaciones al usar un valor par para 'K', ya que puede llevar a votaciones empatadas.

¿Cuáles son las limitaciones del algoritmo KNN?

Aunque KNN es un algoritmo poderoso y fácil de comprender, presenta algunos desafíos, especialmente relacionados con los costos computacionales:

Costos computacionales: A medida que el tamaño del dataset aumenta, el cálculo de las distancias para clasificar cada nuevo punto se vuelve intensivo en recursos computacionales. Para mitigar este problema, se recomienda utilizar una muestra representativa y aleatoria del dataset original.

¿Cómo se puede aplicar KNN a ejemplos prácticos?

Supongamos que queremos clasificar un punto de datos desconocido perteneciente a un universo ficticio como 'Dothraki' o 'Westerosi'.

Dothraki: Generalmente musculosos, nómadas, y guerreros que dependen de sus habilidades físicas.
Westerosi: Menos musculosos, no nómadas, confían en armaduras pesadas.

Usando KNN, podemos graficar estos grupos basado en características como musculatura y uso de armadura. Posteriormente, aplicamos el algoritmo para decidir la clasificación del nuevo punto de datos en función de sus cinco vecinos más cercanos.

¿Cómo se visualiza el proceso de KNN?

Para simplificar, imaginemos un gráfico con dos grupos clasificados: Dothraki y Westerosi.

Determinación del punto a clasificar: Escogemos un nuevo punto y calculamos sus distancias a los vecinos más cercanos.
Votación de clasificación: Contamos los vecinos pertenecientes a cada grupo y utilizamos mayoría simple para decidir la clasificación.
Resultado: El nuevo punto se asigna al grupo predominante entre sus vecinos más cercanos.

El algoritmo de K-Nearest Neighbors es intuitivo y poderoso, pero exige una comprensión clara de su funcionamiento y limitaciones. Su fuerza reside en su capacidad para adaptarse a diferentes problemas de clasificación sin necesidad de complejas fórmulas matemáticas.

¡Te animamos a que compartas tus dudas, inquietudes y avances en los comentarios y continúes explorando el emocionante mundo del machine learning!