No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Garbage in, garbage out

7/24
Recursos

Aportes 71

Preguntas 2

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Una historia com煤n sobre muestreo es el caso de los aviones aliados en la Segunda Guerra Mundial. Lo que pas贸 era que ve铆an que los aviones de combate que regresaban, usualmente ten铆an muchas aver铆as e impacto de proyectiles en las alas y otras 谩reas. Lo que pens贸 la RAF fue en contar los huecos, hacer una media de sus aviones y empezar a mandar los aviones reforzados en esas zonas. 驴El problema? su muestra eran aviones que s铆 regresaban de combate, por lo que Abraham Wald les hizo ver que si los aviones regresaban con huecos en esas prtes, era porque en esas partes los impactos no eran letales y al contrario de lo que dec铆an los datos (hay mas huecos en estos puntos, por lo tanto debemos reforzarlos), hab铆a quw reforzar las otras prtes del avi贸n, porque eran esos los que no volv铆an del combate

Me agrada mucho que en los nuevos cursos incluyan antecedentes hist贸ricos del tema, as铆 como de su aplicaci贸n y evoluci贸n hasta las aplicaciones modernas, as铆 no solo aprendemos a usar las tecnolog铆as actuales sino que tambi茅n entendemos de donde vienen las ideas y la importancia que tuvieron en su momento

Una variante reciente de GIGO lo traduce como 鈥楪arbage In Gospel Out鈥 (Entra Basura, Sale Evangelio). Esto describe la tendencia de la gente de aceptar el rendimiento de un sistema sin juzgarlo cr铆ticamente. Aun si la entrada es basura, creemos en el resultado, normalmente porque no entendemos bien c贸mo funciona el sistema para producirlo

Recuerdo mucho una conversaci贸n en el 2004 con un compa帽ero que estaba muy interesado en la Inteligencia Artificial. Ya nos mencionaba los algoritmos de reconocimiento facial. En esa 茅poca, la verdad, me consideraba una persona que no podr铆a tener acceso a la tecnolog铆a, simplemente porque no hab铆a tenido la educaci贸n y los recursos que otros compa帽eros de la Universidad pudieron tener.

Afortunadamente, en los 煤ltimos a帽os logr茅 enamorarme de la idea de que la tecnolog铆a est谩 al alcance de todo aquel que la ame 馃槃

El censo de 1840 pidi贸 a estas preguntas:

Nombre del jefe de familia
Direcci贸n
N煤mero de machos y hembras blancos libres
en grupos de edad de cinco a帽os a 20 a帽os de edad
en grupos de edad de 10 a帽os de 20 a 100
100 a帽os
n煤mero de esclavos y personas libres de color en seis grupos de edad
n煤mero de sordos y mudos, por raza
n煤mero de ciegos, por raza
n煤mero de loco e idiota a cargo p煤blico o privado, por la raza
n煤mero de personas en cada familia empleada en siete clases de ocupaci贸n
n煤mero de escuelas y el n煤mero de estudiosos
n煤mero de personas blancas de m谩s de 20 que no sab铆an leer y escribir
n煤mero de pensionistas de servicio revolucionario o militar

Justo acababa de leer un articulo de el efecto Dunning-Kruger el cual se refiere al hecho de que exiten personas con un alto grado de confianza en actividades cuando realmente no conocen de lo que hablan.

Entonces encontr茅 una similitud con esta clase, pues en el articulo se dec铆a que para que una persona conozca el desempe帽o que tendr谩 en alg煤n tema o actividad nesecita informaci贸n relevante que le permita conocerlo, obteniendo informaci贸n nada fruct铆fera no har谩 que llegue a una predicci贸n acertada de acuerdo al contexto y aquello me hace pensar en GIGO.

Comparto aqu铆 el art铆culo
https://incansableaspersor.wordpress.com/2017/10/21/efecto-dunning-kruger/

Es Incre铆blemente potencial el plus de incluir historias en las clases. Nos queda mucho m谩s al final esta.

Mentiras Estad铆sticas
Podemos identificar tres niveles de errores en nuestros programas:

  • Errores de sintaxis: Errores muy recurrentes cuando estamos elaborando el c贸digo, responden a fallas de ortograf铆a o confusiones con la sintaxis del lenguaje.
  • Errores de l贸gica: Se refieren al c贸mputo y al planteamiento del problema, se pueden corregir comparando los resultados del programa con los resultados esperados.
  • Errores de pensamiento: son los m谩s dif铆ciles de identificar, se identifican a trav茅s de la experiencia y estudi谩ndolos en la literatura.

Calidad del input, determina la calidad del output.
Como la mayor铆a de las cosas en la vida.

Notas:
Existe un tercer nivel de bugs, que son aquellos que vienen de la forma en la que pensamos para llegar a conclusiones.
Garbage in-out:
Se refiere a que si nuestros datos de entrada son basura(incorrectos) obtendremos resultados basura.
Recuerda:
La calidad de nuestros datos es igual de importante que la presi贸n de nuestro computo.
Frases:
鈥淓n dos ocasiones me han preguntado (miembros del parlamento)
'Disculpe Sr.Babbage si introducimos en la maquina n煤meros incorrectos 驴La respuesta correcta saldr谩?. Me cuesta trabajo apreciar la confusi贸n de ideas quer pueden provocar dichas preguntas鈥 -Charles Babbage

La pregunta de la historia de Babbage me suena como cuando en la preparatoria o universidad forzabas las ecuaciones para que te diera un resultado. 馃槄馃槄馃槄

muy probablemente es el mismo problema que pasa en muchos pa铆ses con el manejo de estad铆sticas en relaci贸n a la pandemia del covid-19.

Esto explica porque es importante revisar peri贸dicamente los sensores de los sistemas automatizados, ya que si 茅stos arrojan valores incorrectos las salidas de control tambi茅n van a ser incorrectas.

Hay un ejemplo que no se si es real o ficticio donde se le puso a una IA a analizar twitters para hacer un bot que escribiera y result贸 que termin贸 siendo xen贸fobo y mis贸gino

El sesgo de muestreo es otro caso com煤n

El cuerpo humano aplica lo mismo, si comes basura el cuerpo se vuelve basura

Resumen GIGO en 1 imagen:
.

Recomiendo mucho el **libro Armas de destrucci贸n matematica de Cathy O麓neil **donde nos habla de los problemas de los sesgos cognitivos que llevamos al c贸digo y que nos pueden afectar como sociedad. Muy pertinente a lo expuesto por David

Notas: Garbage in, garbage out GIGO


Aunque tengamos un programa bien estructurado, hay veces que puede arrojar errores estos est谩n en el 3 nivel de bugs los cuales son dif铆ciles de encontrar ya que no est谩n en el programa, est谩n en el dise帽o de la forma en la que pensamos y llegamos a conclusiones.
GIGO es un error de pensamiento en el cual nos podemos encontrar si no aprendemos a detectar cuando estamos frente a uno de estos errores.
鈥淪i le das basura, va a escupir basura鈥

  • La calidad de nuestros datos es igual de importante que la precisi贸n de nuestros c贸mputos. Si le metemos datos basura vamos a tener resultados basura.
  • Cuando los datos son errados, aunque tengamos un c贸mputo pr铆stino nuestros resultados ser谩n err贸neos.
  • En pocas palabras: con datos errados las conclusiones ser谩n erradas.

En 1936 la revista Literary Digest mand贸 sobres con una encuesta electoral sobre la preferencia de voto para la presidencia de los EEUU a 4.000.000 de hogares norteamericanos. El resultado predec铆a una victoria aplastante del candidato republicano. Ocurri贸 justo lo contrario y Roosevelt gan贸 por una amplia mayor铆a. La encuesta, muy costosa, obtuvo un resultado totalmente err贸neo.
Las direcciones postales se obtuvieron del list铆n telef贸nico y listados de socios de revistas o clubs. Lo que ocurri贸 es que en los EEUU de la Gran Depresi贸n solo ten铆an tel茅fono, suscripciones a revistas y /o pertenec铆an a clubs los hogares mas adinerados, la gente pobre evidentemente no.
Pensaron que hab铆an muestreado a toda la poblaci贸n de EEUU y solo obtuvieron una muestra del 10% mas rico de la poblaci贸n.

Recuerdo cuando hacia mi trabajo de tesis mi tutora me contaba. Antes la metodolog铆a en las industrias era, vamos a tomar registro de todos los par谩metros del proceso que podamos y luego hacemos el trabajo estad铆stico a ver que encontramos. Desde hace un buen tiempo se piensa primero en lo que se busca, se determinan los datos que se requieren y en garantizar su calidad y con ellos se hacen los an谩lisis correspondientes.

4:24鈥 Se parece a Willem Dafoe

Existe un libro llamado: Armas de Destrucci贸n Matem谩tica de Cathy O鈥橬eil que describe como un software que usan en los juzgados de USA para calcular la sentencia a partir de muchos factores tiende a ofrecer condenas m谩s severas para la poblaci贸n afroamericana. Esto es porque el algoritmo desde el principio est谩 mal dise帽ado, entonces conforme aprende se va sesgando y penalizando a un grupo social en funci贸n de la raza.

GPT3 y los modelos de entrenamiento de inteligencia articial es uno de estos ejemplos. Si alimentas a una AI con datos basura, su criterio va a ser basura.

O el proceso de crianza de un ni帽o, si le ense帽as a ser deshonesto, el ni帽o ser谩 en definitiva deshonesto

Me pasa mucho con mis alumnos cuando me dicen 鈥減ero la calculadora dio mal鈥, como si fuese que la calculadora se maneja sola, jaja!

Da igual que crees el mejor algoritmo de machine learning, si no hace una buena transformaci贸n y limpieza de los datos y un buen feature selection, tu algoritmo arrojar谩 basura.

Me interesa saber mas del tema del Censo de 1840 . Alguien que me diga donde puedo leer mas de esa polemica .

Una imagen muy ilustrativa de GIGO:

Escrib铆 una entrada en medium inspir谩ndome en este capitulo del curso. Pueden verlo en https://medium.com/analytics-vidhya/7-statistical-mistakes-you-should-avoid-at-all-costs-in-data-analysis-3a3ce5810cbe
Agradecer茅 cualquier comentario para mejorar
Saludos!

Una vez en mi colegio trataron de hacer un censo para tener clases especiales para aquellos estudiantes que tenian bajas calificaciones, lo que sucedi贸 fue que varios estudiantes que necesitaban clases especiales no terminaron en esos cursos debido a que los datos que tomaron, eran los globales, no consideraron que algunos se esforzaban tanto en tareas y actividades pero sacaban bajo en los examenes, por lo que el global de esos alumnos era superior al minimo para aprobar. Despu茅s de eso simplemente encuestaron a los estudiantes para establecer una n贸mina de los estudiantes que necesitaban las clases.

una vez me salio un bug y para solucionarlo formatie la computadora y se arreglo no se por que

GIGO: Garbage in , Garbage out.

Charles Babbage: Inventor del motor anal铆tico de Babbage, uno de los primeros computadores.

Me parece que esos congresistas cre铆an que la m谩quina de Babbage hac铆a magia.

Babbage, recibi贸 una pregunta particular acerca de su invenci贸n: 驴Si se introduce en la m谩quina n煤meros incorrectos, la respuesta correcta saldr谩?

Casos en la historia de GIGO: Censo de 1840 en Estados Unidos, 茅poca en la que todav铆a se hac铆an c谩lculos manualmente. En este censo, se cont贸 una estrepitosa cifra de negritos locos, en los estados en los que no hab铆a esclavitud al contrario de los estados en los que s铆 lo hab铆a. Por lo que se utiliz贸 esta informaci贸n para deprestigiar la libertad de los esclavos.

Cuando los datos son errados, aunque tengamos un c贸mputo excelente nuestros resultados ser谩n err贸neos. En pocas palabras: con datos errados las conclusiones ser谩n erradas.

Los datos tienen que ser precisos y valiosos tambi茅n.

GIGO, tiene que ver con: Creerse lo que siga el programa. Tenemos que tener en cuenta, de que tanto input como los procesos, tienen que ser de calidad, para que nuestros c谩lculos sean precisos.

Errores de conclusiones: Garbage in, Garbage out o el principio GIGO, que se refiere a que entra basura, sale basura.

El bug m谩s grande dentro de nuestro c贸digo, no es que no funcione, si no que est茅 construido para que funcione de la manera incorrecta.

en an谩lisis de elementos finitos en solidworks, es muy comun pensar que uno es un experto haciendo estos an谩lisis, pero si uno hace las restricciones incorrectas, se generar谩 un resultado que es incorrecto

El ejemplo perfecto seria, la pol铆tica y sus repercusiones del 鈥済arbage out鈥 son de tama帽os inimaginables.

No encuentro el bot贸n de like鈥

errores

che parece un zombi

Si al algoritmo ingresa datos basura entonces, saldr谩 basura.

Les dejo este art铆culo que puede ser de inter茅s: Data Analytics, Garbage In Garbage Out

Yo encontr茅 un art铆culo sobre buenas pr谩cticas al momento de compartir los datos para evitar o disminuir la posibilidad de que existan estos errores

https://github.com/jtleek/datasharing

鈥淢e cuesta trabajo apreciar la confusi贸n de ideas que puede provocar dichas preguntas.鈥

Ja ja, que grande Babbage!!

Lo curioso es que a煤n en est谩 茅poca, muchos clientes hacen las mismas afirmaciones que le dec铆a a Babbage, que las soluciones que dise帽amos arrojen resultados correctos a pesar de que sus datos de entrada est茅n con errores.

He encontrado un concepto parecido el FINO 鈥淔INO funciona reteniendo las tareas puestas en cola de forma permanente. No importa cuantas tareas lleguen a la cola. Ninguna de ellas ser谩 despachada. Por ello un algoritmo, basado en FINO, es tan f谩cil de implementar como in煤til.鈥

Totalmente cierto, no puedes esperar resultados correctos con inputs erroneos, muy buena analogia david!!

Interesante historia del Censo del a帽o de 1940 sin contar con ningun tipo de tecnologia mas aun el del motor analitico, es muy problable que preguntas incorrectas den resultados incorrectos.

Aqu铆 en ECUADOR pas贸 eso cuando anunciaban los datos de contagio y muertes por CoVID-19:
.
El gobierno empez贸 a manipular datos y dar datos basura y ellos presentaban desviaciones est谩ndar, porcentajes, estad铆sticas, pero NADA DE ESO SERV脥A porque la informaci贸n original no era la correcta.

Solo dire: Las encuentas de elecciones.

En el art铆culo que comparto se hace una reflexi贸n de la importancia de la calidad de datos para realizar estrategias de contenci贸n de la pandemia actual. Sin embargo, actualmente estas estrategias est谩n sesgadas por las diferencias pol铆ticas que ni siquiera permiten que se hagan an谩lisis basados en datos.
https://www.elnacional.com/opinion/las-estadisticas-del-covid-19-no-sirven-para-nada/

La basura es el concepto de que los datos de entrada defectuosos o sin sentido

NOTAS:
Aunque tengas un programa bien estructurado estos en muchas ocasiones pueden arrojarte errores, errores que corresponden a un 3er nivel de bugs .
El primer error de pensamiento es:
Garbage in ,garbaje out. (metes basura, sacas basura
La calidad de los datos deben ser igual a la precisi贸n de los c贸mputos y es as铆 que si ingresas datos incorrectos las conclusiones ser谩n err贸neas.

Por favor agregen la opci贸n de like, los v铆deos de este buen hombre se lo merecen

GIGO 鈫 garbage in garbage out
Sucede cuando los datos ingresados son err贸neos (basura). La calidad de los datos es tan importante como la precision del c贸digo. Si ingresamos datos errados al computo nuestros resultados y conclusiones ser谩n tambi茅n errados (basura).
Podr铆amos destacar el censo de 1840 (contexto de la guerra de secesi贸n) en EEUU, fue un censo manual y por lo tanto plagado de errores. A trav茅s del correcto procesamiento de estos datos se lleg贸 a la conclusi贸n de que los esclavos liberados eran diez veces m谩s propensos a volverse locos. Conclusi贸n a todas luces desatinada.

Si lo vemos desde el punto de vista de la l贸gica, malos argumentos pueden generar una falacia.

En este momento lo podemos vivir, en el caso COVID se est谩n dando pruebas 鈥渞谩pidas鈥 pero que no son totalmente confiables, por lo que las estad铆sticas del virus que vemos a diario no son totalmente ciertas debido a que hay una brecha de informaci贸n respecto a personas asintom谩ticas o que est谩n enfermas y no saben que tienen el virus.

Un ejemplo muy claro de 鈥淕arbage-in, Garbage-out鈥 se da much铆simo en las encuestas telef贸nicas; muchas veces los datos son llenados a conveniencia de los encuestadores; independientemente de que est茅n utilizando un sistema para registrar las respuestas del encuestado. Algunas casas encuestadoras tuvieron que grabar las encuestas para evitar que esto sucediera; ejemplo, los estudios de rating de estaciones de radio y canales de televisi贸n; encuestas de preferencias pol铆ticas, consultas ciudadanas, etc鈥

Notas 馃槃
Garbage in, garbage out.

  • Abreviado GIGO. Aunque tengas un programa bien estructurado, el programa puede tener errores. Hay errores de sintaxis, de l贸gica y estos que son el tercer nivel de bugs; son particularmente dif铆ciles de encontrar, porque no est谩n en el programa, est谩n en el dise帽o mismo de este (en la idea) 馃悰.
  • La calidad de nuestros datos es igual de fundamental que la precisi贸n de nuestros c贸mputos. Cuando los datos son errados, aunque tengamos un c贸mputo pr铆stino nuestros resultados ser谩n err贸neos 馃Щ.
  • En pocas palabras: con datos errados, las conclusiones ser谩n errados 鉂.
  • Un ejemplo de esto es el censo de 1840, cuando se hac铆a a mano sin ayuda de m谩quinas 鉂. Cuando se cont贸 a mano, hab铆a much铆simos errores. Un resultado dec铆a que la gente de color que era liberada ten铆a 10 veces m谩s probabilidad de volverse locos que los no liberados 馃ザ. Los c谩lculos eran correctos, pero los datos basura (resultados basura).

En dos ocasiones me han preguntado (miembros del parlamento) 鈥楧isculpe, Sr. Babbage, si introduce en la m谩quina n煤meros incorrectos, la respuesta correcta saldr谩鈥. Me cuesta trabajo apreciar la confusi贸n de ideas que puede provocar dichas preguntas. 鈥 Cahrles Babbage

Imagen para recordar el concepto:

Fuente aqu铆

Contiene un video hist贸rico brit谩nico acerca de las computadoras en 1969.

Garbage in Garbage out es equivalente al principio de l贸gica matem谩tica que dice: si se parte de una suposici贸n err贸nea, se puede concluir cualquier cosa (verdadera o falsa).
Por esto el m茅todo de contradicci贸n (o tercio excluido) es 煤til para descartar suposiciones, mas no es 煤til para reafirmar suposiciones.

es como cuando revisamos el feet o muro de nuestras redes sociales, si le das click a informaci贸n basura, es muy seguro que se llenara de basura

Garbage in, garbage out tambi茅n se puede utilizar como explicaci贸n de la mala calidad de un archivo de audio o video digitalizado. Aunque la digitalizaci贸n puede ser el primer paso para limpiar una se帽al, por s铆 sola no mejora la calidad. Los defectos en la se帽al anal贸gica original se registrar谩n fielmente, pero pueden identificarse y eliminarse en un paso posterior mediante el procesamiento de la se帽al digital .

Me parece muy interesante este tema, y ahora que lo pienso m谩s, creo que tal vez exista una relaci贸n importante con la l贸gica formal. En l贸gica formal, y espec铆ficamente en silog铆stica, un argumento es un arreglo de premisas y una conclusi贸n. Si el argumento es v谩lido, y las premisas verdaderas, la conclusi贸n necesariamente debe ser verdadera tambi茅n. Por el contrario, si las premisas son falsas, aunque el argumento sea v谩lido, la conclusi贸n no tiene porqu茅 ser verdadera. Puede que la conclusi贸n sea verdadera de manera espuria, pero habr铆a que buscar premisas verdaderas que la soporten para que el argumento sea convincente. Me sorprende la perfecci贸n de esta analog铆a: las premisas son los datos emp铆ricos, el argumento es el c贸mputo de los datos y la conclusi贸n es el resultado al cual queremos llegar.
Un saludo!

Esto fue algo personal que me sucedio en la universidad, ten铆a que calcular el patr贸n de directividad de un parlante en MATLAB. El c贸digo estaba correcto desde el punto de vista de los c贸mputos pero los resultados no me llevaban a ning煤n lado coherente y no encontraba el error. Luego de d铆as de analizar y revisar, se me di贸 por verificar la relaci贸n se帽al ruido de la medici贸n y pude llegar a la conclusi贸n de que el problema hab铆a estado en la recolecci贸n de los datos, el nivel de la se帽al de fondo era comparable con el nivel de ruido de fondo y por eso los resultados no daban. Un clar铆simo ejemplo de un error del tipo GIGO.

鈥淐on datos errados las conclusiones ser谩n erradas鈥