Vectores Numéricos para Modelado en Machine Learning

Clase 15 de 24 • Curso de Introducción al Pensamiento Probabilístico

Resumen

Comprender los fundamentos de los algoritmos es esencial antes de adentrarse en el análisis de los mismos. Dos conceptos clave son los vectores y la distancia, siendo los vectores el enfoque de esta discusión. Estas listas numéricas son cruciales, ya que subyacen en la base matemática de la mayoría de los algoritmos de Machine Learning. En este artículo, exploraremos la importancia de transformar características del mundo real en datos numéricos relevantes para los modelos predictivos y cómo esto se relaciona con diferentes ejemplos prácticos.

¿Cómo se transforman las características reales en datos numéricos para los algoritmos?

Los vectores son una herramienta para cuantificar atributos de objetos con el fin de suministrar datos a los modelos de Machine Learning. La intuición humana juega un papel importante en este proceso, pues como ejemplo se puede tomar las llantas de un coche y representarlas de forma binaria o como un número absoluto. Es fundamental asegurarse de que los números usados no ocasionen un sesgo indebido en el análisis.

¿Qué rol juegan la selección y la relevancia de los datos en Machine Learning?

Selección de datos es un arte que se asemeja a la cirugía. Se debe ensayar múltiples veces para determinar qué datos incluir y cuáles omitir en el modelo. Con la existencia de algoritmos en librerías, el reto para los científicos de datos y programadores es identificar qué características son cruciales y cuáles no.

¿En qué se parece la selección de características al modelado de la realidad?

El proceso de abstracción para la representación de la realidad es muy similar al de la selección de vectores. Por ejemplo, no es necesario modelar cada partícula de un gas, basta con utilizar métricas como la temperatura y la presión. Este principio también se aplica al modelar la gravedad a través de la masa y es paralelo a la importancia de elegir características relevantes en Machine Learning.

¿Cómo se aplican los vectores en diferentes campos tecnológicos?

Los vectores tienen aplicaciones directas en varias áreas especializadas como el diseño web, en donde el color puede representarse mediante un vector RGB, y también en el procesamiento de imágenes y el reconocimiento de voz. En todas estas aplicaciones, se debe elegir cuidadosamente los vectores para describir los fenómenos con eficacia.

¿Por qué es esencial la relevancia y la dimensionalidad en los vectores?

La relevancia y la dimensionalidad adecuada de los vectores son esenciales para obtener resultados útiles al aplicar algoritmos de Machine Learning. Un vector con demasiadas características irrelevantes puede llevar a resultados poco precisos. Por otra parte, un vector bien definido y específico para el problema planteado puede potenciar considerablemente el rendimiento del algoritmo.

En resumen, el uso de vectores y la selección de atributos relevantes son fundamentales en la construcción de modelos de Machine Learning eficaces. Invitando a estudiantes y profesionales a compartir sus experiencias y aprendizajes, enriquecemos colectivamente nuestro conocimiento sobre los vectores y sus diversas aplicaciones. La próxima clase promete profundizar en la importancia de la distancia en estos algoritmos, otro concepto clave a comprender en el campo del Machine Learning.

Israel Yance

student•

Recordar que para que al final se procese la información tienen que quedar números. Vector: Altura total del árbol (desde tierra). Diametro del tronco. Altura de la copa. Diametro de la copa. Diametro de la rama. Diametro de la ramita.

También podría agregarse datos de las hojas que hay en ese árbol.

Xavier Salgado

student•

El determinar que caracteristicas son relevantes creo que depende de que problema queramos estudiar y luego realizamos el modelo. El ejemplo de Israel (arbol) no seria util si lo que queremos es estudiar la cantidad de oxigeno (fotosintesis) que genera un arbol . Para esto nos bastaria, simplificando solo como ejemplo, con un vector que contenga si el arbol es de hoja caduca o peregne y el volumen, masa, de follaje.

Luis Ruiz Ramos

student•

Buen aporte, Israel.

Sergio Andrés Pachón Dotor

student•

Para complementar: Depende de la pregunta de investigación que se realicen para determinar como modelar algo. E.g. Si quiero modelar un árbol debo preguntarme ¿que es aquello que quiero modelar del árbol? ¿Quiero problema quiero resolver? ¿Quiero modelar la forma física del árbol para clasificarlo? ¿Para ello valdría la pena modelar todo el árbol o simplemente las ojas y el diametro del tronco? ¿Necesito más información para hacer el modelo?

Antes de hacer cualquier modelo, cuestionarse hasta más no poder ayuda a entender mejor como resolver el problema.

Sergio Forcen Asensio

student•

Otro ejemplo que puede ser interesante es el reconocimiento e identificación de marcas y modelos de concretos de implantes dentales en radiografías. Se deberían poder diferenciar de los dientes y entre diferentes fabricantes. El vector podría ser:

Escala de gris [0-255]: Los metales se ven mucho más blancos en las radiografías respecto a los dientes.
Longitud [micras]: distancia maxima entre dos planos paralelos (extremo y cuello)
Eje del cilindro en la imagen [0-360]: Eje en el que se ha calculado la distancia. Numero de espiras [n]: reconocimiento de los picos que corresponden a cada espira del tornillo.
Diámetro [micras]: Distancia entre picos en el eje perpendicular al eje del cilindro.
Distancia entre espiras [micras]: distancia entre los picos en el eje del cilindro.
Distancia entre el extremo superior y el primer pico.

Carolina Coronado Alderete

student•

Me gustó mucho tu ejemplo. Gracias por el aporte :D

Eber Laurente Lliuyacc

student•

Buen ejemplo.

Ramón Ruiz

student•

Feacture Vectors: Se utilizan para representar características simbólicas o numéricas. Permiten analizar un objeto desde una perspectiva matemática. Nos permite definir cuales son los elementos importantes para un algoritmo y cuales no lo son. Son usados en reconocimiento de voz, procesamiento de imagen, detección de spam, etc. Recuerda: Si tu vector tiene muchos valores "relevantes", lo más probable es que tengas basura.

JESUS ALBERTO CARREÑO MARTINEZ

student•

Aquí lo importante es evitar el Prejuicio en el muestreo

Porque para describir un objeto, debemos observar sus rasgos mas importantes y útiles para el caso que tenemos delante.

No podemos describir sus cosas menos útiles, ya que es información que esta de mas y por lo tanto habrá ruido en nuestro sistema.

Ej: Tenemos una construcción con 120 bloques de color azul y 1 bloque de color verde

Si ponemos en el sistema que la construcción tiene 2 colores sin mas parámetros, estaremos cayendo en un Prejuicio en el Muestreo ya que el bloque verde no tiene la misma representatividad frente a los 120 bloques azules, y a menos que necesitemos especificar ese bloque de diferente color, solo estaríamos metiendo "ruido" (valores inútiles que solo hacen que el resultado sea erróneo) al sistema

Jose Colmenares

student•

Si quisiera modelar un árbol buscaría describirlo por medio d:

Tipo de hojas: nervadas o no, etc
Ciclo de Floracion
Tipo de tronco
Color de tronco
Tipo de Frutos
Tipo de Flor.

Ovidio Bolivar Jaramillo J.

student•

Esta ejercicio me recuerda a las clases de dendrología que es a ciencia y el estudio de las plantas leñosas (árboles y arbustos). Se toma característica vegetativa y si conocemos la familia de nuestro especie, reducimos el número de especies posibles. Como por ejemplo: Las Hojas simples o compuesta Que tipo de márgenes tiene (entero, dentadas, crenadas, lobulada ....) Disposición de la hoja (alternas, opuestas) Con estípulas o sin estipula corteza ( Textura, coloración....) Con látex o sin látex hasta el olor entre otras observaciones sutiles como tricoma o pelos en las hojas.

JESUS ALBERTO CARREÑO MARTINEZ

student•

Abstracción de un gato

JESUS ALBERTO CARREÑO MARTINEZ

student•

nombre_gato=['Michi] color_gato=['Naranja'] peso_gato=[2.3] #kg edad_gato=[1] #años

Vectores no tan utiles en la mayoria de casos numero_de_patas_gato #Se toma en cuenta que la mayoria de gatos tienen 4 patas

numero_de_ojos_gato #Se toma en cuenta que la mayoria de los gatos tienen 2 ojos

Luis Fernando Pedroza Taborda

student•

Muy bueno Jesus, se nota que te gustan mucho los gatos.

Juan David Vergara Torres

student•

Para crear un vector considero que debe incluir información que ayude a describir el árbol sin tener en cuenta si es un árbol de 1 año o de 30 años, por lo tanto, el tamaño no lo consideraría, una característica que no cambia mucho en el tiempo es la hoja. Me concentraría en crear un vector que describa la hoja:

forma
borde
venación o nervadura

Johnatan José Torres de la Cruz

student•

Que increíble comprensión de nuestra comprensión! las representaciones son necesarias hasta la medida en que son útiles. De hecho que no es lo mismo que un adulto dibuje una oveja que un niño de 3 años dibuje la misma oveja. En una respresentación general no es necesario especificar que la oveja tiene algunos lunares en las patas o que tenga unas cuantas manchas en la lana, a no ser que queramos una representación hiperrealista, lo cual nos llevará mucho más tiempo detallar dimensiones, texturas, densidad, brillos, matices de color, etc y luego copiar todos esos detalles de una manera adecuada.

Sergio Said Alemán Martínez

student•

Árbol = [Forma, color]

Comprobación: Con esto ya puedes identificar un árbol.

Vicente Fernandez

student•

Este vector no tiene valores suficientes para poder identificar el problema.

JAVIER sanchez

student•

los colores van del 0 al 255 y las direcciones IP 0 al 255 concidencia?

Guillermo Baldán López

student•

No es realmente una coincidenia, eso te lo explican en el curso de Fundamentos de Software. IBM llegó a la conclusión en que el byte era la unidad fundamental de información para organizar la información. Con un byte, número de 8 bits, puedes representar 256 números (incluido el 0). Pero un color no es un byte, sino 3. Con un byte representas el color rojo, con otro el azul y con otro el verde (Sistema RGB, Red, Green Blue). Y es verdad, las direcciones ips se componen de bytes también. Y las tablas de representación de carácteres. Con un byte se codifican los símbolos de todos los teclados, ver sistema UTF-8.

Saul Burgos

student•

Para complementar: https://www.youtube.com/watch?v=2TQhnGmXfDI

Facundo Nicolás García Martoni

teacher•

Feature vectors para determinar que un árbol es de cierta especie:

Silueta de la hoja
Color más presente en la hoja
Número de hojas
Diámetro del tronco

Josue Noha Valdivia

student•

Feature Vectors Es la representación numérica de los aspectos relevantes del algoritmo. Es importante discernir bien los datos que son relevantes de los que no son relevantes. Recuerda que si alimentamos el programa con datos basura obtendremos basura (GIGO) Ejemplos:

Procesamiento de imágenes: [gradientes, borde, colores, etc]
Reconocimiento de voz: [distancia entre sonidos, nivel de sonido, razón ruido/señal, etc]

Jose Fernando Jaramillo Boon

student•

Carli Code

teacher•

Color, Forma, Tamaño, Hojas

Emmanuel Guerra Sánchez

student•

Yo crearía mi vector con los siguientes valores: Largo del tronco Geolocalización Altura de la copa Diámetro comprimido promedio de la copa Diámetro del tronco Color promedio de las hojas

David Gonzalez

student•

Alguien sabe a qué se refería con pesos desproporcionados en el ejemplo del número de llantas que tiene un vehículo, en el min 1:00?

Guillermo Sanchez

student•

Hola David

Muy posiblemente sea lo siguiente: cuando decides el vector (grupo) de carácteristicas puedes definir cual o cuales, van a ser más relevantes que las demas, es decir asignarle un peso a cada carácteristica. Si se tienen caracteristicas con pesos desproporcionados pueden afectar las predicciones o detecciones.

David Gonzalez

student•

gracias @datacloudgui

Mauricio Fajardo

student•

Si un vector permite analizar un objeto desde una perspectiva matemática (1:47) no debería también tener magnitud y dirección?

Ramón Ruiz

student•

Creo que va a depender. Como se dijo en esta clase tu debes evaluar que es lo importante, y cuales serán tus feactures

Christian Mahonry Colorado Bulbarela

student•

Creo que se refiere mas la forma de vectorizacion de python, mas específicamente de la librería numpy https://www.it-swarm.dev/es/python/que-es-la-vectorizacion/834957754/

Aunque por ejemplo cuando haces algoritmos de Procesamiento del Lenguaje Natural, los vectores si tienen una dirección y una magnitud.

Vectores Numéricos para Modelado en Machine Learning

Programación probabilística

Programación Probabilística: Fundamentos y Aplicaciones Prácticas

Probabilidad Condicional y Eventos Dependientes

Teorema de Bayes: Aplicaciones y Comprensión de Probabilidades

Teorema de Bayes: Intuición y Visualización Práctica

Cálculo de Probabilidad Condicional con Teorema de Bayes y Python

Aplicaciones Modernas del Teorema de Bayes

Mentiras estadísticas

Errores de Datos en Modelos Estadísticos y su Impacto

Detectar Manipulación en Gráficas Estadísticas

Correlación vs Causalidad: Evitando Errores de Razonamiento

Errores Comunes en el Muestreo Estadístico

Identificación y prevención de la falacia del francotirador

Detectar Manipulación de Datos con Porcentajes

Falacia de Regresión a la Media: Concepto y Ejemplos Prácticos

Introducción a Machine Learning

Historia y evolución del Machine Learning

Vectores Numéricos para Modelado en Machine Learning

Métricas de Distancia en Algoritmos de Machine Learning

Agrupamiento

Algoritmos de Agrupamiento: Clasificación y Aplicaciones Prácticas

Agrupamiento Jerárquico: Algoritmo y Visualización

Algoritmo K-means: Conceptos y Aplicación Práctica

Técnicas de Agrupamiento en Machine Learning

Clasificación

Técnicas de Clasificación en Aprendizaje Supervisado

Clasificación de Datos con Algoritmo K-Nearest Neighbors

Algoritmos de Clasificación en Machine Learning

Pensamiento Computacional: Fundamentos y Aplicaciones Prácticas