Como elijo el valor de “K”

Jhony Urbano Diaz Quispe

Jhony Urbano Diaz Quispe

Pregunta
studenthace 5 años

Como elijo el valor de “K”

5 respuestas
para escribir tu comentario
    JESUS ALBERTO CARREÑO MARTINEZ

    JESUS ALBERTO CARREÑO MARTINEZ

    studenthace 5 años

    La suma de las distancias para dos centroides 2.png

    JESUS ALBERTO CARREÑO MARTINEZ

    JESUS ALBERTO CARREÑO MARTINEZ

    studenthace 5 años

    La suma de las distancias para un centroide 1.png

    JESUS ALBERTO CARREÑO MARTINEZ

    JESUS ALBERTO CARREÑO MARTINEZ

    studenthace 5 años

    Para determinar el número óptimo de clusters que se pueden tener en una muestra de datos, existen varios métodos prácticos tanto formales como gráficos que se pueden utilizar, pero una de las técnicas más comunes y robustas, es el método del codo.

    El método del codo se basa en la suma de los cuadrados de las distancias de cada elemento de datos con su centroide correspondiente y se denota de la siguiente manera:

    wcss.png

    Donde WCSS es la suma de los cuadrados de las distancias y se refiere a Within-Cluster-Sum-of-Squares, Yi es el centroide del elemento o dato Xi y n el total de datos en la muestra.

    El proceso se lleva a cabo iniciando con un solo cluster para todos los elementos de la muestra y se obtiene la suma de todas las distancia de cada elemento con el centroide, posteriormente se crean dos centroides y se suman los elementos más cercanos a cada uno de los centroides para sumar las distancias de cada elemento con su centroide correspondiente. El proceso se repite para 3, 4, 5 … n centroides. Cuando el número de centroides es igual a la cantidad de datos de la muestra (n), las distancias son cero, dado que cada elemento es un centroide.

    Talib Gibran Amador Valencia

    Talib Gibran Amador Valencia

    studenthace 5 años

    Hola El valor óptimo de K se debe elegir con base en el "ruido" que este genere en el modelo, normalmente se una el método de el arco para determinar el número adecuado, ese número adecuado normalmente es aquel valor que minimiza el error, aquí te dejo una imagen que es bastante sencilla de entender

    Método del arco para la selección de K

    Saludos y mucho éxito, espero te haya podido ayudar

Curso de Introducción al Pensamiento Probabilístico

Curso de Introducción al Pensamiento Probabilístico

La programación probabilística es una herramienta utilizada para crear modelos estadísticos, y realizar inferencias sobre dichos modelos. Aprender las bases te permitirá desarrollar habilidades para dominar lenguajes y librerías especializadas en ejecutar cómputos, como Pyro de Uber, un lenguaje de programación para hacer Inteligencia Artificial.

Curso de Introducción al Pensamiento Probabilístico
Curso de Introducción al Pensamiento Probabilístico

Curso de Introducción al Pensamiento Probabilístico

La programación probabilística es una herramienta utilizada para crear modelos estadísticos, y realizar inferencias sobre dichos modelos. Aprender las bases te permitirá desarrollar habilidades para dominar lenguajes y librerías especializadas en ejecutar cómputos, como Pyro de Uber, un lenguaje de programación para hacer Inteligencia Artificial.