Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Invierte en tu educación con el precio especial

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

12 Días
5 Hrs
51 Min
5 Seg

Recolección de datos, limpieza y validación

7/28
Recursos

Aportes 33

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Resumen

Recolección de Datos, limpieza y validación

La recolección de datos es la forma de recolectar información que permite obtener conocimiento de primera mano e ideas originales sobre el problema de investigación

Tipos de Recolección de Datos

  • Primaria: Datos colectados de primera mano a traves de encuestas, entrevistas, experimentos y otros. Puedes decidir que recolectas y que quiere medir. Tienes total control de los datos.
  • Secundaria: Datos previamente recolectados por una fuente primaria externa al usuario primario. Son datos abiertos que puedes utilizar. No tienes control sobre lo que se mide o sobre el objetivo del estudio
  • Terciaria: Datos que se adquieren de fuentes completamente externas al usuario primario. Son datos accesibles a todo el mundo por lo que pierde su valor y tienden a ser datos genericos

Validación de los datos

Es el proceso de asegurar la consistencia y precisión dentro de un conjunto de datos. Para asegurar la consistencia de los datos debemos validar:

  • Modelo de datos: si un tercero recolecto los datos, verifica que preguntas queria responder con los datos. Si eres quien recolecta los datos, hazte muchas preguntas y considera si esos datos son suficientes para responderlas
  • Seguimiento de formato estándar de archivos: verifica que la extensión de los archivos que estas manejando correspondan con el formato interno que tienen. Asegurate que los numeros se expresen en el formato que estas trabajando.
  • Tipos de Datos: verifica que los datos sen del tipo que se indica en el dataset
  • Rango de variables: verifica que las variables estén dentro del rango establecido en la recoleccion de datos. En caso de encontrar variables fuera del rango preguntate: como llegaron esos datos aqui? tienen algun significado alterno? debo preservarlos o eliminarlos?
  • Unicidad: verifica que tan unicos son los datos. detecta si existe duplicidad en los datos y corrige.
  • Consistencia de expresiones: se refiere a como la persona que recolecta los datos define sus variables. Formato de fecha, de hora, variables escritas de la misma forma en toda la tabla. No son datos erroneos, solo es cuestion de darle el formato adecuado
  • Valores nulos: pueden estar explicitos o implicitos en el dataset. Son datos faltantes. Porque esta vacio? puedo rellenarlo con otro dato? esta vacio por un proceso aleatorio o tiene un sentido?

Existe el estandar ISO 8601 que especifica un formato de AAAA-MM-DD pero aún se siguen usando diferentes variantes para cada región.

Algunos formatos de fechas regionales:

  • EEUU: MM/DD/AA
  • Europa (la mayoría): DD/MM/AA
  • Ásia (la mayoría): AA/MM/DD

Yo soy de Perú 🇵🇪 y se usa MM/DD/AAA.

en Guatemala, usamos regularmente DD/MM/AAAA

¿Qué se debe validar para asegurar la consistencia?

Modelo de datos:

Saber la intención de los datos, es decir el ¿por que fueron colectados esos datos?¿Que se busca responder con estos datos?¿Estos datos hacen satisfacen los requerimientos necesarios para responder mi hipótesis?

Seguimiento de formato estándar de archivos:

Asegurarnos que la información siga el estándar de la extensión del archivo.

Tipos de datos:

Los tipos de dato booleano, entero, flotante, etc. Deben corresponder como fueron definidos. No debe de haber un flotante en una casilla para los booleanos.

Rango de variables:

Los datos deben de estar en el rango definido para la variable. Ex. [5,10], es decir, desde el 5 hasta el 10 (discretos).

Unicidad:

Cada muestra o dato debe de tener únicamente un identificador.

Consistencia de expresiones:

Mantener el mismo “formato” al escribir fechas, horas, etc. Es decir, mantener en todos los registros el formato DD/MM/AA, o cualquier otro pero que sea consistente. De igual manera para las variables categóricas y booleanas (T o F, True o False, etc.).

Valores nulos:

Tratar de entender porque existen datos faltantes y también si es posible rellenarlos aleatoriamente con otros del conjunto.

1. Valores nulos explícitos:

Especifica que el dato no esta; NaN.

2. Valores nulos implícitos:

Simplemente no aparece en el registro.

En Colombia usamos DD/MM/AAAA

Y pensé que el tema de MM/DD/AAAA era exclusivo de estados unidos, me sorprende saber que mas regiones que lo usan, pero igual es como todo, para mi es raro solo porque estoy acostumbrado diferente

En algunas ocasiones he tenido que trabajar con archivos donde las fechas para una misma columna vienen en distintos formatos.

Ahí empieza el camino para tratar de rescatar y estandarizar los datos.

Estandarizar los datos, fundamental para poder analizarlos, pues si cada cual pone un nombre que no siga las mismas variables que el resto dificultaría su filtración y posterior análisis

## Recolección de Datos para Data Science La recolección de datos es un paso crítico en el proceso de Data Science. Implica reunir información de diversas fuentes para análisis posteriores, lo cual permite a los científicos de datos y analistas obtener insights, desarrollar modelos predictivos y tomar decisiones basadas en datos **Concepto** La recolección de datos en Ciencia de Datos se refiere al proceso de obtener datos brutos de diferentes fuentes con el objetivo de realizar un análisis posterior. Estos datos pueden ser estructurados (tablas, SQL, etc.) o no estructurados (textos, imágenes, audios, etc.), y pueden ser recolectados de diversas maneras, incluyendo encuestas, APIs, sensores, registros en línea, y más. ### Fuentes de Datos * **Internas:** Datos generados dentro de la organización (bases de datos de clientes, registros de transacciones, etc.). * **Externas:** Datos obtenidos de fuentes fuera de la organización (bases de datos públicas, datos de redes sociales, datos de satélite, etc.). ### Métodos de Recolección 1. **Encuestas y Cuestionarios:** Diseñados para recoger información específica de un grupo de personas. 2. **Web Scraping:** Extracción de datos de sitios web. 3. **APIs:** Interfaces de programación de aplicaciones que permiten acceder a datos de servicios en línea. 4. **Registros Electrónicos:** Datos recopilados de interacciones digitales, como logs de servidores o historiales de compra. 5. **Sensores:** Datos recogidos a través de dispositivos IoT, sensores ambientales, etc. ### Herramientas * **Lenguajes de Programación:** Python y R son ampliamente usados para recolectar y manipular datos. * **Librerías:** Pandas (Python) para manipulación de datos, Beautiful Soup (Python) para web scraping, y Tidyverse (R) para data wrangling. * **Plataformas de Encuestas:** Google Forms, SurveyMonkey, etc., para recopilación de datos a través de cuestionarios. ### Puntos de Buena Práctica * **Consentimiento y Ética:** Asegurarse de que la recolección de datos se realiza de manera ética y con el consentimiento de los involucrados. * **Calidad de Datos:** Verificar la calidad y la relevancia de los datos recopilados para el análisis deseado. * **Seguridad de Datos:** Implementar medidas de seguridad para proteger los datos recopilados, especialmente si son sensibles o personales. * **Diversidad de Fuentes:** Utilizar múltiples fuentes de datos para obtener una visión más completa y reducir el sesgo. La recolección de datos es la base sobre la cual se construyen todos los análisis en Ciencia de Datos. Una estrategia bien planificada y ética para recolectar datos puede significar la diferencia entre insights valiosos y conclusiones erróneas. ![](https://online.hbs.edu/PublishingImages/HBS-Cycle-Chart-v2.jpg)

Tanto Venezuela como Colombia utilizan el formato DD/MM/AAAA

En Colombia dd/mm/aaaa

Deppnote con el plugin de dark reader para evitar los blancos segadores!

En Panamá dd/mm/aaaa

argentina 13/6/24 o en tramites el 13/6/2024

Bueno en mi caso de la recoleccion de datos. Primero es el dia, luego, el mes y finalmente es el año. Vengo de Peru
DD//MM//YYYY

27/02/23
Soy de Colombia y trabajo con un programa contable que consta de dos versiones una en .Net y la otra usa visualFox, resulta que en uno las fechas se usan mm/dd/aaaa y el otro las usa dd/mm/aaaa, aunque me gusta mas el formato dd/mm/aaaa, he visto que es muy lógico usar el formato mm/dd/aaaa ya que, al usar mm/dd/aaaa si digito un valor de día superior al máximo de días que tiene el mes sólo tengo que corregir el día, mientras que si uso dd/mm/aaaa y por ejemplo digito una fecha de febrero y coloco como día 30 y mes 02 el sistema me va a marca error y voy a tener que devolverme hasta el día para digitar un valor entre 1-28 o 1-29

Validación para Asegurar Consistencia en los Datos:

<h5>1. Modelo de Datos:</h5>
  • Descripción: Verificar que el modelo conceptual y las preguntas que se intentan responder estén alineados con la realidad y las necesidades de la investigación.
  • Acciones:
    • Si los datos fueron recopilados por un tercero, entender sus objetivos y preguntas clave.
    • En el caso de recolectores internos, cuestionar si los datos proporcionados son adecuados para abordar las preguntas planteadas.
<h5>2. Seguimiento de Formato Estándar de Archivos:</h5>
  • Descripción: Garantizar que los archivos se adhieran a un formato estándar y que la extensión sea coherente con el formato interno que se está utilizando.
  • Acciones:
    • Verificar que los archivos tengan la extensión correcta según el formato interno.
    • Confirmar que los números y otros datos estén expresados de manera consistente según el formato de trabajo.
<h5>3. Tipos de Datos:</h5>
  • Descripción: Confirmar que los datos coincidan con los tipos de datos especificados en el conjunto de datos.
  • Acciones:
    • Revisar cada columna y verificar que los datos sean del tipo esperado (entero, flotante, cadena, etc.).
    • Corregir cualquier discrepancia identificada.
<h5>4. Rango de Variables:</h5>
  • Descripción: Asegurar que los valores de las variables estén dentro de los rangos esperados o establecidos durante la recolección de datos.
  • Acciones:
    • Identificar variables que estén fuera de los rangos definidos y evaluar su validez.
    • Tomar decisiones sobre si preservar o eliminar los datos atípicos.
<h5>5. Unicidad:</h5>
  • Descripción: Verificar la singularidad de los datos para evitar duplicados y asegurar la integridad del conjunto de datos.
  • Acciones:
    • Identificar duplicados en función de criterios específicos.
    • Corregir o eliminar duplicados según sea necesario.
<h5>6. Consistencia de Expresiones:</h5>
  • Descripción: Asegurar que las variables se expresen de manera coherente en toda la tabla, incluyendo formatos de fecha, hora y variables de texto.
  • Acciones:
    • Establecer estándares para la representación de fechas, horas y otras expresiones.
    • Realizar ajustes para garantizar la coherencia.
<h5>7. Valores Nulos:</h5>
  • Descripción: Identificar y manejar valores nulos para evitar problemas en el análisis y la interpretación incorrecta.
  • Acciones:
    • Identificar valores nulos, ya sean explícitos o implícitos.
    • Determinar si los valores nulos son aceptables o si deben ser gestionados (rellenados o eliminados).

La validación de estos elementos es esencial para asegurar la coherencia y calidad de los datos, proporcionando una base sólida para análisis precisos y decisiones informadas.

Aportación de resumen: **Recolección de datos** Primaria, son los que se recaban de primera mano como encuestas, entrevistas, experimentos, etc. Secundaria, previamente fueron recolectados por un externo como datos de departamento de gobierno o empresas. No se tiene control sobre qué midieron u objetivo de la creación de ese conjunto de datos. Terciaria, datos que se adquieren de fuentes completamente externas al usuario primario, ejemplo proveedores de datos. ¿Qué es la validación de datos? Es el proceso para asegurarnos de que los datos que tenemos son precisos desde el comienzo. Para validar la consistencia de datos se debe: -Verificar el modelo de datos (hacerte preguntas para saber si con los datos que vas a empezar a recolectar será suficiente) -Seguimiento de formato estándar de archivos (verificar que la extensión de datos corresponda al formato externo) -Tipos de datos  -Rango de variables (analizar si son importantes o no para utilizar) -Unicidad (que no se dupliquen) -Consistencia de expresiones (verificar los datos, por ejemplo que la fecha sea diferente y esto provoque duplicar, Macho y Hembra, sea el mismo texto no sea con acentos o letras de más, para evitar datos erróneos -Valores nulos, cuidar los espacios vacíos

DD/MM/AAAA

Fecha en ARG día/mes/año

7. Recolección de datos, limpieza y validación

“Forma de recolección de información que permite obtener conocimiento de primera mano e ideas originales sobre el problema o investigación”

Tipos de recolección de datos

01 Primaria: Datos colectados de primera mano a través de encuestas, entrevistas, experimentos y otros.

02 Secundaria: Datos previamente recolectados por una fuente primaria externa al usuario primario.

Por ejemplo, datos de departamentos de gobierno o empresas similares a la del usuario primario.

03 Terciaria: Son datos que se adquieren de fuentes completamente externas al usuario primario. Por ejemplo, a través de proveedores de datos.

¿Qué es la validación de datos?

“El proceso de asegurar la consistencia y precisión dentro de un conjunto de datos.”

“Si los datos no son precisos desde el comienzo, los resultados definitivamente no serán precisos.”

¿Qué se debe validar para asegurar consistencia?

  • Modelo de datos.
  • Seguimiento de formato estándar de archivos.
  • Tipos de datos.
  • Rango de variables.
  • Unicidad.
  • Consistencia de expresiones.
  • Valores nulos.

En argentina la fecha se escribe así (día/mes/año)

Mi opinión personal y mi experiencia me ha enseñado que la mayoría d veces los datos nunca son precisos, por eso la estadística es una herramienta fundamental para saber con qué datos se puede trabajar.

Un pequeño aporte. En las ciencias sociales, una de las etapas más importantes para los datos es justamente la recolección. Dependiendo del área se requieren preguntas más específicas. De hecho, muchas veces en Antropología se usan técnicas para evitar modificar las conductas de las personas de un grupo (ya que al ser externo, las personas pueden comportarse distinto a sus costumbres). Es un tema muy extenso y llevan prácticamente un siglo de desarrollo estas técnicas.

¿Qué se debe validar paraasegurar consistencia?


Modelo de datos:

  • Es la representación abstracta de los datos que se van a analizar.
  • Este modelo define las relaciones y las estructuras de los datos y puede incluir información sobre los tipos de datos, la estructura de las tablas y la definición de las claves.

Seguimiento de formato estándar de archivos:

  • Es importante tener un formato estándar para los archivos de datos, ya que permite una mayor eficiencia y consistencia en la manipulación de los datos.
  • Además, los archivos con formato estándar son más fáciles de comprender y procesar por otros usuarios.

Tipos de datos:

  • Los datos pueden ser de diferentes tipos, como numéricos, categóricos, de fecha y hora, entre otros.
  • Es importante conocer el tipo de datos que se están manejando para poder realizar el análisis adecuado y tomar las medidas necesarias para tratar los datos incorrectos o inconsistentes.

Rango de variables:

  • Es el intervalo de valores que puede tomar una variable.
  • Conocer el rango de las variables permite identificar valores atípicos o fuera de lo esperado, y tomar medidas para tratarlos o explicarlos.

Unicidad:

  • Refiere a la cantidad de valores únicos en una columna o variable.
  • Conocer la unicidad de los datos permite identificar duplicados o valores repetidos, y tomar medidas para tratarlos.

Consistencia de expresiones:

  • Refiere a la consistencia en la escritura de los valores en una columna o variable.
  • Por ejemplo, se deben escribir todas las fechas con el mismo formato y las ciudades con el mismo nombre.
  • Conocer la consistencia de las expresiones permite identificar errores y tomar medidas para corregirlos.

Valores nulos:

  • Refiere a los valores faltantes en una columna o variable.
  • Conocer la cantidad de valores nulos permite identificar los datos faltantes y tomar medidas para tratarlos, como por ejemplo, eliminar las filas o rellenarlos con valores promedios o medianas.

EN Colombia DD/MM/AAAA

Los valores nulos son toda una ciencia, uno puede trabajar mucho con ellos, hacer analisis muy interesantes; no necesariamente siempre significan perdida de informacion. Y adicional, el tratamiento de estos datos se debe tomar con muuucha precaucion, no es solo borrar porque no los tengo completos, debes sostener porque lo estas haciendo con un analisis a profundidad

En Panama usamos DD/MM/YYYY 😅

Dentro de estas validaciones, algo por el cual podemos fallar en los análisis es desconocer las variables según el país. por ejemplo cuando trabajamos con ventas debemos de convertir la moneda para trabajar el análisis bajo una misma moneda.

En Perú utilizamos , usamos regularmente DD/MM/AAAA; pero va depender de cada empresa o negocio según las necesidades o estándares definidos.

DD/MM/AAAA

Partir de buenas preguntas es esencial para lograr mejores resultados en el estudio de los datos.

Yo soy de Bolivia y se usa MM/DD/AAA