Platzi
Platzi

LA EDUCACIÓN ES UN REGALO ¡ACCEDE AL PRECIO ESPECIAL!

Antes: $249
$149
Currency
Antes: $249
Ahorras: $100
COMIENZA AHORA
Termina en: 21D : 1H : 22M : 27S

Qué es el análisis exploratorio de datos

2/25
Recursos

Aportes 11

Preguntas 2

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Clase 2: Qué es el análisis exploratorio de datos

¿Qué es un EDA?

Significa Exploratory data analysis. Aquí comienza todo, antes de crear un modelo debemos saber para que lo vamos a hacer, debemos de tener contexto y la forma de hacerlo es exportando nuestros datos.

Un poco de historia:

En los años 90’s se comienza a sonar el termino de minería de datos donde se especifica que busca patrones, busca las tendencias más grandes y es justo la minería de datos es lo que le comienza a dar orden a cómo podemos explorar datos y a buscar estos patrones. Esto no es un termino que haya surgido actualmente, de hecho la IA, las primeras redes neuronales salen en los años 70, solo que actualmente ya tenemos el computo necesario para que tu lo puedas hacer de tu computadora, lo que antes solo se podía hacer en el mundo académico y era exclusivo de super maquinas.

Pero, todo esto, ¿de donde viene?

Justo en los años 90’s con la minería de datos se comienzan a crear metodologías, como estas:

  • KDD: Knowledge discovery in DataBases.

  • SEMMA: Sample, Explore, Modify, Model, and Assess.

  • CRISP-DM: Cross Industry Standard Process for Data Mining.

Y de estás metodologías de minería de datos sale nuestro EDA.

Todo esto surge a partir de una necesidad y nos comenzamos a hacer mucha preguntas, pero la pregunta final es: ¿Puedo contestar o no el requerimiento que me dieron con todos estos datos? Y si no tenemos los suficientes datos para resolver esta pregunta, eso es lo que hace precisamente el EDA, explicarnos si podemos contestar esta pregunta y si tenemos todo lo necesario para dar una respuesta.

¿Pero qué debemos de hacer si no podemos dar una respuesta? Tenemos que dar un paso atrás, debemos de pedir más datos.
Antes de hacer cualquier modelo de ML o DP debemos de entender:

  • De donde vienen los datos.
  • El contexto de los datos.
  • Por qué haremos el modelo.

Etapas del eda:

  • Etapa 1: Definición del problema.
  • Etapa 2: Preparación de datos.
  • Etapa 3: Análisis de datos.
  • Etapa 4: Desarrollo y representación de resultados.

  • Nota: Si está en nuestra posibilidad usar toda la base de datos para entrenar nuestro modelo, hay que hacerlo. es mucho mejor pagar un poco para dar una propuesta de valor.

El foco principal del EDA es contar una historia prediciendo cuánto se va optimizar el problema implementando el modelo que vamos a proponer. Un científico de datos le da un valor a los datos.

Me agrada mucho el enfoque inicial del curso y la mirada hacia el poder generar Valor a partir de los Datos!

Spoiler:
“En un análisis exploratorio tu no sabes que es lo que quieres ver, apenas estás entendiendo lo que tienes.”

EDA: Exploratory Data Analysis

Minería de datos: Empieza a dar orden a cómo podemos explorar datos y encontrar patrones

Metodologia para ponder un orden:

Data Science:

  • Data requirements: ¿Qué queremos?
  • Data collection: ¿Qué informacion tenemos para lograrlo?
  • Data Processing: ¿Cómo la procesamos? ¿Qué tipo de datos?
  • Data cleaning: ¿La info es correcta?
  • EDA: ¿Puedo contestar el requerimiento? ¿Cómo puedo contestar la pregunta?
  • Modeling and algorithm
  • Data Product
  • Communication

Etapas del EDA:

  1. Problem definition
  2. Data preparation
  3. Data Analysis
  4. Development and representation of the results

Es el primer curso de PLATZI que veo, pero creo sería padre contar con un BLOCK DE NOTAS para futras consulta de mis apuntes…

“La ciencia de datos surge de manera automática para optimizar un producto que está bien posicionado en el mercado”
-Engel.

¿Qué es un EDA?

Significa Exploratory Data Analysis. Aquí comienza todo, antes de crear un modelo debemos saber para que lo vamos a hacer, debemos de tener contexto y la forma de hacerlo es exportando nuestros datos.

Un poco de historia:

En los años 90’s se comienza a sonar el término de minería de datos donde se especifica que busca patrones, busca las tendencias más grandes y es justo la minería de datos es lo que le comienza a dar orden a cómo podemos explorar datos, y a buscar estos patrones. Esto no es un término que haya surgido actualmente, de hecho la IA, las primeras redes neuronales salen en los años 70, solo que actualmente ya tenemos el cómputo necesario para que tú lo puedas hacer desde una PC o laptop, lo que antes sólo se podía hacer en el mundo académico y era exclusivo de super maquinas que ahora son superadas.

Pero, todo esto, ¿de donde viene?

Justo en los años 90’s con la minería de datos se comienzan a crear metodologías, como estas:

  • KDD: Knowledge discovery in DataBases.
  • SEMMA: Sample, Explore, Modify, Model, and Assess.
  • CRISP-DM: Cross Industry Standard Process for Data Mining.

De estás metodologías de minería de datos sale nuestro EDA.

Metodología para poner orden

  1. Requerimientos:

    • Tengo una empresa, un app, una necesidad, etc…
    • Quiero mejorar las ventas, las visitas de usuarios a mi web. Quiero hacer algo. Tengo una necesidad.
  2. Recopilación de datos:

    • Qué informacion tengo para lograr el objetivo?
  3. Procesamiento de datos:

    • ¿Cómo los estamos procesando?
    • ¿Qué tipo de datos tenemos?
  4. Limpieza de datos:

  • ¿La información es correcta o no?
  1. EDA:

    • ¿Puedo contestar o no el requerimiento que me dieron?
    • ¿Tengo suficiente información para solucionar el problema?

    En este punto nos explicamos el contenido de los datos que tenemos.

    Si no tenemos los datos suficientes para resolver esta pregunta volvemos a la etapa de recopilación de datos; eso es lo que hace precisamente el EDA, explicarnos si podemos contestar esta pregunta y tenemos todo lo necesario para dar una respuesta.

    ¿Pero qué debemos de hacer si no podemos dar una respuesta?

    Tenemos que dar un paso atrás, debemos de pedir más datos.

Antes de hacer cualquier modelo de ML o DP debemos de entender:

  • De dónde vienen los datos.
  • El contexto de los datos.
  • Por qué haremos el modelo.

Etapas del EDA:

  1. Definición del problema.
  2. Preparación de datos.
  3. Análisis de datos.
  4. Desarrollo y representación de resultados.
  • IMPORTANTE: Si está en nuestra posibilidad usar toda la base de datos para entrenar nuestro modelo, hay que hacerlo, es mucho mejor pagar un poco más por capacidad de procesamiento en la nube para obtener mejores resultados para nuestra propuesta de valor.

El foco principal del EDA es contar una historia prediciendo cuánto se va a optimizar el problema implementando el modelo que vamos a proponer. Un científico de datos le da valor a los datos.

La ventaja que tiene el EDA, es lo flexible porque si resulta que no pudiste responder la pregunta con los datos que tienes, puedes buscar desde otras fuentes de datos, antes de de proceder con un modelo, esta es la ventaja que tiene sobre los demas metodos

Muy interesante que en este segundo video ya se aborda el tema de la nube para el almacenamiento de datos. No se si en este curso se nos va a enseñar precisamente a hacer EDA con grandes volumenes de datos. Me encantaría que así fuera.

Muy interesante toda la trazabilidad desde la obtención de la data hasta la presentación.

El EDA se puede decir que sale a partir de la mineria de datos, pero entonces que es la mineria de datos.

La minería de datos es una disciplina que se encarga de administrar los datos y sacarles un valor, es literalmente como escarbar para buscar oro, solo que nosotros tenemos a disposición una fuente de datos que analizaremos para sacar conclusiones o validar ideas.

El EDA es un proceso que va dentro de la mineria de datos, es como un campo tan grande dentro de la rama de la mineria de datos.

Para nosotros poder validar las ideas que tengamos tendremos que analizar la fuente, hacer las etapas del eda y demás.

Es como el metodo sistematico para explorar nuestra información, podemos pensarlo de alguna manera como el metodo cientifico, el metodo cientifico es la sistematización de la curiosidad que se transforma en hechos.