No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Garbage in, garbage out

7/24
Recursos

Aportes 70

Preguntas 2

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Una historia común sobre muestreo es el caso de los aviones aliados en la Segunda Guerra Mundial. Lo que pasó era que veían que los aviones de combate que regresaban, usualmente tenían muchas averías e impacto de proyectiles en las alas y otras áreas. Lo que pensó la RAF fue en contar los huecos, hacer una media de sus aviones y empezar a mandar los aviones reforzados en esas zonas. ¿El problema? su muestra eran aviones que sí regresaban de combate, por lo que Abraham Wald les hizo ver que si los aviones regresaban con huecos en esas prtes, era porque en esas partes los impactos no eran letales y al contrario de lo que decían los datos (hay mas huecos en estos puntos, por lo tanto debemos reforzarlos), había quw reforzar las otras prtes del avión, porque eran esos los que no volvían del combate

Me agrada mucho que en los nuevos cursos incluyan antecedentes históricos del tema, así como de su aplicación y evolución hasta las aplicaciones modernas, así no solo aprendemos a usar las tecnologías actuales sino que también entendemos de donde vienen las ideas y la importancia que tuvieron en su momento

Una variante reciente de GIGO lo traduce como ‘Garbage In Gospel Out’ (Entra Basura, Sale Evangelio). Esto describe la tendencia de la gente de aceptar el rendimiento de un sistema sin juzgarlo críticamente. Aun si la entrada es basura, creemos en el resultado, normalmente porque no entendemos bien cómo funciona el sistema para producirlo

Recuerdo mucho una conversación en el 2004 con un compañero que estaba muy interesado en la Inteligencia Artificial. Ya nos mencionaba los algoritmos de reconocimiento facial. En esa época, la verdad, me consideraba una persona que no podría tener acceso a la tecnología, simplemente porque no había tenido la educación y los recursos que otros compañeros de la Universidad pudieron tener.

Afortunadamente, en los últimos años logré enamorarme de la idea de que la tecnología está al alcance de todo aquel que la ame 😄

El censo de 1840 pidió a estas preguntas:

Nombre del jefe de familia
Dirección
Número de machos y hembras blancos libres
en grupos de edad de cinco años a 20 años de edad
en grupos de edad de 10 años de 20 a 100
100 años
número de esclavos y personas libres de color en seis grupos de edad
número de sordos y mudos, por raza
número de ciegos, por raza
número de loco e idiota a cargo público o privado, por la raza
número de personas en cada familia empleada en siete clases de ocupación
número de escuelas y el número de estudiosos
número de personas blancas de más de 20 que no sabían leer y escribir
número de pensionistas de servicio revolucionario o militar

Justo acababa de leer un articulo de el efecto Dunning-Kruger el cual se refiere al hecho de que exiten personas con un alto grado de confianza en actividades cuando realmente no conocen de lo que hablan.

Entonces encontré una similitud con esta clase, pues en el articulo se decía que para que una persona conozca el desempeño que tendrá en algún tema o actividad nesecita información relevante que le permita conocerlo, obteniendo información nada fructífera no hará que llegue a una predicción acertada de acuerdo al contexto y aquello me hace pensar en GIGO.

Comparto aquí el artículo
https://incansableaspersor.wordpress.com/2017/10/21/efecto-dunning-kruger/

Es Increíblemente potencial el plus de incluir historias en las clases. Nos queda mucho más al final esta.

Notas:
Existe un tercer nivel de bugs, que son aquellos que vienen de la forma en la que pensamos para llegar a conclusiones.
Garbage in-out:
Se refiere a que si nuestros datos de entrada son basura(incorrectos) obtendremos resultados basura.
Recuerda:
La calidad de nuestros datos es igual de importante que la presión de nuestro computo.
Frases:
“En dos ocasiones me han preguntado (miembros del parlamento)
'Disculpe Sr.Babbage si introducimos en la maquina números incorrectos ¿La respuesta correcta saldrá?. Me cuesta trabajo apreciar la confusión de ideas quer pueden provocar dichas preguntas” -Charles Babbage

La pregunta de la historia de Babbage me suena como cuando en la preparatoria o universidad forzabas las ecuaciones para que te diera un resultado. 😅😅😅

Calidad del input, determina la calidad del output.
Como la mayoría de las cosas en la vida.

muy probablemente es el mismo problema que pasa en muchos países con el manejo de estadísticas en relación a la pandemia del covid-19.

Mentiras Estadísticas
Podemos identificar tres niveles de errores en nuestros programas:

  • Errores de sintaxis: Errores muy recurrentes cuando estamos elaborando el código, responden a fallas de ortografía o confusiones con la sintaxis del lenguaje.
  • Errores de lógica: Se refieren al cómputo y al planteamiento del problema, se pueden corregir comparando los resultados del programa con los resultados esperados.
  • Errores de pensamiento: son los más difíciles de identificar, se identifican a través de la experiencia y estudiándolos en la literatura.

Esto explica porque es importante revisar periódicamente los sensores de los sistemas automatizados, ya que si éstos arrojan valores incorrectos las salidas de control también van a ser incorrectas.

Hay un ejemplo que no se si es real o ficticio donde se le puso a una IA a analizar twitters para hacer un bot que escribiera y resultó que terminó siendo xenófobo y misógino

El sesgo de muestreo es otro caso común

El cuerpo humano aplica lo mismo, si comes basura el cuerpo se vuelve basura

Notas: Garbage in, garbage out GIGO


Aunque tengamos un programa bien estructurado, hay veces que puede arrojar errores estos están en el 3 nivel de bugs los cuales son difíciles de encontrar ya que no están en el programa, están en el diseño de la forma en la que pensamos y llegamos a conclusiones.
GIGO es un error de pensamiento en el cual nos podemos encontrar si no aprendemos a detectar cuando estamos frente a uno de estos errores.
“Si le das basura, va a escupir basura”

  • La calidad de nuestros datos es igual de importante que la precisión de nuestros cómputos. Si le metemos datos basura vamos a tener resultados basura.
  • Cuando los datos son errados, aunque tengamos un cómputo prístino nuestros resultados serán erróneos.
  • En pocas palabras: con datos errados las conclusiones serán erradas.

En 1936 la revista Literary Digest mandó sobres con una encuesta electoral sobre la preferencia de voto para la presidencia de los EEUU a 4.000.000 de hogares norteamericanos. El resultado predecía una victoria aplastante del candidato republicano. Ocurrió justo lo contrario y Roosevelt ganó por una amplia mayoría. La encuesta, muy costosa, obtuvo un resultado totalmente erróneo.
Las direcciones postales se obtuvieron del listín telefónico y listados de socios de revistas o clubs. Lo que ocurrió es que en los EEUU de la Gran Depresión solo tenían teléfono, suscripciones a revistas y /o pertenecían a clubs los hogares mas adinerados, la gente pobre evidentemente no.
Pensaron que habían muestreado a toda la población de EEUU y solo obtuvieron una muestra del 10% mas rico de la población.

Recuerdo cuando hacia mi trabajo de tesis mi tutora me contaba. Antes la metodología en las industrias era, vamos a tomar registro de todos los parámetros del proceso que podamos y luego hacemos el trabajo estadístico a ver que encontramos. Desde hace un buen tiempo se piensa primero en lo que se busca, se determinan los datos que se requieren y en garantizar su calidad y con ellos se hacen los análisis correspondientes.

4:24… Se parece a Willem Dafoe

GPT3 y los modelos de entrenamiento de inteligencia articial es uno de estos ejemplos. Si alimentas a una AI con datos basura, su criterio va a ser basura.

O el proceso de crianza de un niño, si le enseñas a ser deshonesto, el niño será en definitiva deshonesto

Me pasa mucho con mis alumnos cuando me dicen “pero la calculadora dio mal”, como si fuese que la calculadora se maneja sola, jaja!

Da igual que crees el mejor algoritmo de machine learning, si no hace una buena transformación y limpieza de los datos y un buen feature selection, tu algoritmo arrojará basura.

Me interesa saber mas del tema del Censo de 1840 . Alguien que me diga donde puedo leer mas de esa polemica .

Una imagen muy ilustrativa de GIGO:

Escribí una entrada en medium inspirándome en este capitulo del curso. Pueden verlo en https://medium.com/analytics-vidhya/7-statistical-mistakes-you-should-avoid-at-all-costs-in-data-analysis-3a3ce5810cbe
Agradeceré cualquier comentario para mejorar
Saludos!

Recomiendo mucho el **libro Armas de destrucción matematica de Cathy O´neil **donde nos habla de los problemas de los sesgos cognitivos que llevamos al código y que nos pueden afectar como sociedad. Muy pertinente a lo expuesto por David

Una vez en mi colegio trataron de hacer un censo para tener clases especiales para aquellos estudiantes que tenian bajas calificaciones, lo que sucedió fue que varios estudiantes que necesitaban clases especiales no terminaron en esos cursos debido a que los datos que tomaron, eran los globales, no consideraron que algunos se esforzaban tanto en tareas y actividades pero sacaban bajo en los examenes, por lo que el global de esos alumnos era superior al minimo para aprobar. Después de eso simplemente encuestaron a los estudiantes para establecer una nómina de los estudiantes que necesitaban las clases.

una vez me salio un bug y para solucionarlo formatie la computadora y se arreglo no se por que

GIGO: Garbage in , Garbage out.

Charles Babbage: Inventor del motor analítico de Babbage, uno de los primeros computadores.

Me parece que esos congresistas creían que la máquina de Babbage hacía magia.

Babbage, recibió una pregunta particular acerca de su invención: ¿Si se introduce en la máquina números incorrectos, la respuesta correcta saldrá?

Casos en la historia de GIGO: Censo de 1840 en Estados Unidos, época en la que todavía se hacían cálculos manualmente. En este censo, se contó una estrepitosa cifra de negritos locos, en los estados en los que no había esclavitud al contrario de los estados en los que sí lo había. Por lo que se utilizó esta información para deprestigiar la libertad de los esclavos.

Cuando los datos son errados, aunque tengamos un cómputo excelente nuestros resultados serán erróneos. En pocas palabras: con datos errados las conclusiones serán erradas.

Los datos tienen que ser precisos y valiosos también.

GIGO, tiene que ver con: Creerse lo que siga el programa. Tenemos que tener en cuenta, de que tanto input como los procesos, tienen que ser de calidad, para que nuestros cálculos sean precisos.

Errores de conclusiones: Garbage in, Garbage out o el principio GIGO, que se refiere a que entra basura, sale basura.

El bug más grande dentro de nuestro código, no es que no funcione, si no que esté construido para que funcione de la manera incorrecta.

en análisis de elementos finitos en solidworks, es muy comun pensar que uno es un experto haciendo estos análisis, pero si uno hace las restricciones incorrectas, se generará un resultado que es incorrecto

El ejemplo perfecto seria, la política y sus repercusiones del “garbage out” son de tamaños inimaginables.

No encuentro el botón de like…

errores

che parece un zombi

Si al algoritmo ingresa datos basura entonces, saldrá basura.

Les dejo este artículo que puede ser de interés: Data Analytics, Garbage In Garbage Out

Yo encontré un artículo sobre buenas prácticas al momento de compartir los datos para evitar o disminuir la posibilidad de que existan estos errores

https://github.com/jtleek/datasharing

“Me cuesta trabajo apreciar la confusión de ideas que puede provocar dichas preguntas.”

Ja ja, que grande Babbage!!

Lo curioso es que aún en está época, muchos clientes hacen las mismas afirmaciones que le decía a Babbage, que las soluciones que diseñamos arrojen resultados correctos a pesar de que sus datos de entrada estén con errores.

He encontrado un concepto parecido el FINO “FINO funciona reteniendo las tareas puestas en cola de forma permanente. No importa cuantas tareas lleguen a la cola. Ninguna de ellas será despachada. Por ello un algoritmo, basado en FINO, es tan fácil de implementar como inútil.”

Totalmente cierto, no puedes esperar resultados correctos con inputs erroneos, muy buena analogia david!!

Interesante historia del Censo del año de 1940 sin contar con ningun tipo de tecnologia mas aun el del motor analitico, es muy problable que preguntas incorrectas den resultados incorrectos.

Aquí en ECUADOR pasó eso cuando anunciaban los datos de contagio y muertes por CoVID-19:
.
El gobierno empezó a manipular datos y dar datos basura y ellos presentaban desviaciones estándar, porcentajes, estadísticas, pero NADA DE ESO SERVÍA porque la información original no era la correcta.

Solo dire: Las encuentas de elecciones.

En el artículo que comparto se hace una reflexión de la importancia de la calidad de datos para realizar estrategias de contención de la pandemia actual. Sin embargo, actualmente estas estrategias están sesgadas por las diferencias políticas que ni siquiera permiten que se hagan análisis basados en datos.
https://www.elnacional.com/opinion/las-estadisticas-del-covid-19-no-sirven-para-nada/

La basura es el concepto de que los datos de entrada defectuosos o sin sentido

NOTAS:
Aunque tengas un programa bien estructurado estos en muchas ocasiones pueden arrojarte errores, errores que corresponden a un 3er nivel de bugs .
El primer error de pensamiento es:
Garbage in ,garbaje out. (metes basura, sacas basura
La calidad de los datos deben ser igual a la precisión de los cómputos y es así que si ingresas datos incorrectos las conclusiones serán erróneas.

Por favor agregen la opción de like, los vídeos de este buen hombre se lo merecen

Existe un libro llamado: Armas de Destrucción Matemática de Cathy O’Neil que describe como un software que usan en los juzgados de USA para calcular la sentencia a partir de muchos factores tiende a ofrecer condenas más severas para la población afroamericana. Esto es porque el algoritmo desde el principio está mal diseñado, entonces conforme aprende se va sesgando y penalizando a un grupo social en función de la raza.

GIGO → garbage in garbage out
Sucede cuando los datos ingresados son erróneos (basura). La calidad de los datos es tan importante como la precision del código. Si ingresamos datos errados al computo nuestros resultados y conclusiones serán también errados (basura).
Podríamos destacar el censo de 1840 (contexto de la guerra de secesión) en EEUU, fue un censo manual y por lo tanto plagado de errores. A través del correcto procesamiento de estos datos se llegó a la conclusión de que los esclavos liberados eran diez veces más propensos a volverse locos. Conclusión a todas luces desatinada.

Si lo vemos desde el punto de vista de la lógica, malos argumentos pueden generar una falacia.

En este momento lo podemos vivir, en el caso COVID se están dando pruebas “rápidas” pero que no son totalmente confiables, por lo que las estadísticas del virus que vemos a diario no son totalmente ciertas debido a que hay una brecha de información respecto a personas asintomáticas o que están enfermas y no saben que tienen el virus.

Un ejemplo muy claro de “Garbage-in, Garbage-out” se da muchísimo en las encuestas telefónicas; muchas veces los datos son llenados a conveniencia de los encuestadores; independientemente de que estén utilizando un sistema para registrar las respuestas del encuestado. Algunas casas encuestadoras tuvieron que grabar las encuestas para evitar que esto sucediera; ejemplo, los estudios de rating de estaciones de radio y canales de televisión; encuestas de preferencias políticas, consultas ciudadanas, etc…

Notas 😄
Garbage in, garbage out.

  • Abreviado GIGO. Aunque tengas un programa bien estructurado, el programa puede tener errores. Hay errores de sintaxis, de lógica y estos que son el tercer nivel de bugs; son particularmente difíciles de encontrar, porque no están en el programa, están en el diseño mismo de este (en la idea) 🐛.
  • La calidad de nuestros datos es igual de fundamental que la precisión de nuestros cómputos. Cuando los datos son errados, aunque tengamos un cómputo prístino nuestros resultados serán erróneos 🧻.
  • En pocas palabras: con datos errados, las conclusiones serán errados ❌.
  • Un ejemplo de esto es el censo de 1840, cuando se hacía a mano sin ayuda de máquinas ❓. Cuando se contó a mano, había muchísimos errores. Un resultado decía que la gente de color que era liberada tenía 10 veces más probabilidad de volverse locos que los no liberados 🥶. Los cálculos eran correctos, pero los datos basura (resultados basura).

En dos ocasiones me han preguntado (miembros del parlamento) ‘Disculpe, Sr. Babbage, si introduce en la máquina números incorrectos, la respuesta correcta saldrá’. Me cuesta trabajo apreciar la confusión de ideas que puede provocar dichas preguntas. — Cahrles Babbage

Imagen para recordar el concepto:

Fuente aquí

Contiene un video histórico británico acerca de las computadoras en 1969.

Garbage in Garbage out es equivalente al principio de lógica matemática que dice: si se parte de una suposición errónea, se puede concluir cualquier cosa (verdadera o falsa).
Por esto el método de contradicción (o tercio excluido) es útil para descartar suposiciones, mas no es útil para reafirmar suposiciones.

es como cuando revisamos el feet o muro de nuestras redes sociales, si le das click a información basura, es muy seguro que se llenara de basura

Garbage in, garbage out también se puede utilizar como explicación de la mala calidad de un archivo de audio o video digitalizado. Aunque la digitalización puede ser el primer paso para limpiar una señal, por sí sola no mejora la calidad. Los defectos en la señal analógica original se registrarán fielmente, pero pueden identificarse y eliminarse en un paso posterior mediante el procesamiento de la señal digital .

Me parece muy interesante este tema, y ahora que lo pienso más, creo que tal vez exista una relación importante con la lógica formal. En lógica formal, y específicamente en silogística, un argumento es un arreglo de premisas y una conclusión. Si el argumento es válido, y las premisas verdaderas, la conclusión necesariamente debe ser verdadera también. Por el contrario, si las premisas son falsas, aunque el argumento sea válido, la conclusión no tiene porqué ser verdadera. Puede que la conclusión sea verdadera de manera espuria, pero habría que buscar premisas verdaderas que la soporten para que el argumento sea convincente. Me sorprende la perfección de esta analogía: las premisas son los datos empíricos, el argumento es el cómputo de los datos y la conclusión es el resultado al cual queremos llegar.
Un saludo!

Esto fue algo personal que me sucedio en la universidad, tenía que calcular el patrón de directividad de un parlante en MATLAB. El código estaba correcto desde el punto de vista de los cómputos pero los resultados no me llevaban a ningún lado coherente y no encontraba el error. Luego de días de analizar y revisar, se me dió por verificar la relación señal ruido de la medición y pude llegar a la conclusión de que el problema había estado en la recolección de los datos, el nivel de la señal de fondo era comparable con el nivel de ruido de fondo y por eso los resultados no daban. Un clarísimo ejemplo de un error del tipo GIGO.

“Con datos errados las conclusiones serán erradas”