CursosEmpresasBlogLiveConfPrecios

Matriz de sombras: shadow matrix

Clase 13 de 21 • Curso de Manejo de Datos Faltantes: Detección y Exploración

Clase anteriorSiguiente clase

Contenido del curso

Introducción a los valores faltantes
  • 1
    ¿Por qué explorar y lidiar con valores faltantes?

    ¿Por qué explorar y lidiar con valores faltantes?

    06:59
  • 2
    Operaciones con valores faltantes

    Operaciones con valores faltantes

    13:52
  • 3
    Conociendo datasets para manejo de datos faltantes

    Conociendo datasets para manejo de datos faltantes

    09:01
  • 4

    Ejecución de Notebooks en Deepnote con %run

    01:07
  • 5
    Extendiendo la API de Pandas

    Extendiendo la API de Pandas

    14:03
  • 6
    Tabulación de valores faltantes

    Tabulación de valores faltantes

    16:58
  • 7
    Visualización de valores faltantes

    Visualización de valores faltantes

    12:04
Manipulación inicial de valores faltantes
  • 8
    Codificación de valores faltantes

    Codificación de valores faltantes

    13:10
  • 9
    Conversión de valores faltantes implícitos en explícitos

    Conversión de valores faltantes implícitos en explícitos

    08:57
  • 10
    Exponer filas faltantes implícitas en explícitas

    Exponer filas faltantes implícitas en explícitas

    07:59
  • 11
    Tipos de valores faltantes

    Tipos de valores faltantes

    05:51
  • 12
    MCAR, MAR, MNAR en Python

    MCAR, MAR, MNAR en Python

    08:51
Búsqueda de relaciones de valores faltantes
  • 13
    Matriz de sombras: shadow matrix

    Matriz de sombras: shadow matrix

    14:34
  • 14
    Visualización de valores faltantes en una variable

    Visualización de valores faltantes en una variable

    10:06
  • 15
    Visualización de valores faltantes en dos variables

    Visualización de valores faltantes en dos variables

    10:00
  • 16
    Scatterplot con valores faltantes

    Scatterplot con valores faltantes

    09:42
  • 17
    Correlación de nulidad

    Correlación de nulidad

    07:00
Tratamiento de valores faltantes
  • 18
    Eliminación de valores faltantes: pairwise y listwise

    Eliminación de valores faltantes: pairwise y listwise

    14:28
  • 19
    Imputación básica de datos

    Imputación básica de datos

    10:53
  • 20
    Bonus: visualización múltiple de imputaciones

    Bonus: visualización múltiple de imputaciones

    07:50
Cierre de curso
  • 21
    Continúa aprendiendo sobre el manejo de valores faltantes

    Continúa aprendiendo sobre el manejo de valores faltantes

    03:21
    Camilo Granda Gómez

    Camilo Granda Gómez

    student•
    hace 3 años

    Preguntando por los valores faltantes de "pregnant" según la edad, podemos ver que donde hay datos la media de edad es de 33 y la edad máxima es de 44 (mujeres en edad reproductiva). Mientras que para los valores faltantes, la media de edad es de 61 y la edad máxima de 97 (mujeres que probablemente no están en edad reproductiva). Por lo tanto, podemos inferir que los valores faltante en "pregnant" están relacionados con la variable "age".

    missing-pregnancy-age.png
      Jeinfferson Bernal G

      Jeinfferson Bernal G

      student•
      hace 3 años

      Muy buen analisis!

      David Hernando Henao Marulanda

      David Hernando Henao Marulanda

      student•
      hace 2 años

      Que buen analisis!

    Jeinfferson Bernal G

    Jeinfferson Bernal G

    student•
    hace 3 años

    Construccion de la Matriz de Sombra

    ( riskfactors_df .isna() #crea una matriz de booleanos del dataframe .replace({ #reemplaza los valores booleanos por valores adecuados False:"Not missing", True:"Missing" }) .add_suffix("_NA") #agrega un sufijo en cada variable .pipe( lambda shadow_matrix: pd.concat( # concatena los valores de la matriz de sombra a la derecha del dataframe [riskfactors_df, shadow_matrix], axis="columns" ) ) )

    Construcion de la Matriz de Sombra utilizando la funcion de utileria bind_shadow_matrix

    ( riskfactors_df .missing .bind_shadow_matrix(only_missing=True) # con este parametro = True solo se pasaran las variables que tienen valores faltantes )

    Explorando estadisticos utilizando las nuevas columnas de la matriz de sombra

    # Nos ayuda a encontrar si existe diferencias de alguna variable referente a la ausencia de otra ( riskfactors_df .missing.bind_shadow_matrix(only_missing=True) #une la matriz de sombra creada .groupby(["weight_lbs_NA"]) # agrupar por la ausencia de la variable peso ["age"] # variable age como referencia .describe() .reset_index() )
    Jeinfferson Bernal G

    Jeinfferson Bernal G

    student•
    hace 3 años

    Matriz de Sombra

    Permiten establecer relaciones entre las variables que tienen todas sus observaciones y la ausencia o presencia de otras variables de forma que se pueda comparar estadisticos o visualizarlos de manera efectiva

    Jeinfferson Bernal G

    Jeinfferson Bernal G

    student•
    hace 3 años

    Como crear una matriz de sombra

    graph26.jpg

    Resultados de la creacion de la Matriz de Sombra

    graph27.jpg
    NICOLAS ZAPATA RAMIREZ

    NICOLAS ZAPATA RAMIREZ

    student•
    hace 2 años

    Recuerden cambiar las variables 'weight_lbs y 'heigth_inch a tipo float64 ya que si se dejan como object (originalmente), no va realizar la descripción de forma númerica, los tomará como si fueran variables no númericas.

      Diego Jurado

      Diego Jurado

      student•
      hace 2 años

      común causa de error. Gracias por aclarar

    Andres Sanchez

    Andres Sanchez

    student•
    hace 2 años

    13. Matriz de sombras: shadow matrix

    • Con la matriz de sombras podemos identificar relaciones entre variables de datos faltantes.
    1. Identifica todos tus valores faltantes.
    2. Reemplaza los valores faltantes con True (1) y el resto con False (0).
    3. Reemplaza los True y False por algo que te sea más informativo. Añade un sufijo a los nombres de tus variables.
    Bryan Carvajal

    Bryan Carvajal

    student•
    hace 3 años

    La diferencia de media de edad entre los datos faltantes y no es de 4 años, lo cual similar al caso que uso el profe y puedaramos decir:

    Los datos faltantes de peso e indice de masa corporal son valores faltantes de tipo MAR ya que probablemente la bascula estaba fuera de servicio. 👍🏼

    table_share.png

    Mario Alexander Vargas Celis

    Mario Alexander Vargas Celis

    student•
    hace un año

    La **matriz de sombras** (o **shadow matrix**) es un concepto utilizado en el análisis de datos y estadísticas para representar la presencia o ausencia de datos en un conjunto de datos. Este tipo de matriz ayuda a visualizar y analizar los patrones de datos faltantes, facilitando el entendimiento de cómo y por qué los datos faltan.

    ### Concepto de Matriz de Sombras

    La matriz de sombras es una representación binaria del conjunto de datos original donde:

    - **1** (o cualquier valor positivo) indica la presencia de un valor en esa posición del conjunto de datos original.

    - **0** (o cualquier valor negativo) indica la ausencia de un valor en esa posición.

    ### Uso y Beneficios

    1. **Visualización de Datos Faltantes**:

    - La matriz de sombras facilita la visualización de patrones en los datos faltantes. Puedes ver claramente qué filas o columnas tienen más datos faltantes y si hay patrones específicos.

    2. **Análisis de Patrones de Datos Faltantes**:

    - Ayuda a identificar si los datos faltantes están distribuidos aleatoriamente o si siguen algún patrón específico.

    3. **Preprocesamiento**:

    - La matriz de sombras se utiliza en técnicas de imputación para entender cómo los datos faltantes están relacionados con otras variables y para mejorar los métodos de imputación.

    ### Ejemplo en Python

    A continuación, te muestro cómo puedes crear y visualizar una matriz de sombras utilizando Python y la biblioteca pandas.

    import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns \# Crear un DataFrame con datos faltantes data = {'A': \[1, 2, np.nan, 4, np.nan],   'B': \[5, np.nan, 7, np.nan, 10],   'C': \[1, 2, 3, 4, 5]} df = pd.DataFrame(data) \# Crear la matriz de sombras shadow\_matrix = df.notna().astype(int) \# Visualizar la matriz de sombras plt.figure(figsize=(8, 6)) sns.heatmap(shadow\_matrix, cbar=False, cmap='binary', annot=True) plt.title('Matriz de Sombras (Shadow Matrix)') plt.show()

    ### Desglose del Código

    1. **Crear el DataFrame**: Se crea un DataFrame con algunos valores faltantes (NaN).

    2. **Crear la Matriz de Sombras**:

    - df.notna() devuelve un DataFrame booleano donde True indica la presencia de datos (no es NaN).

    - astype(int) convierte los valores booleanos en enteros (1 para True y 0 para False).

    3. **Visualizar con seaborn y matplotlib**: Se usa sns.heatmap() para visualizar la matriz de sombras como un mapa de calor binario.

    ### Interpretación

    - **Valores en 1**: Indican que hay datos presentes en esa celda.

    - **Valores en 0**: Indican que faltan datos en esa celda.

    Este enfoque permite una visualización clara de los patrones de datos faltantes, ayudando en la toma de decisiones sobre el manejo de datos faltantes.

    ¿Te gustaría saber más sobre cómo utilizar esta técnica en un contexto específico o necesitas ayuda con otra cosa?

    Enzo Gonzales

    Enzo Gonzales

    student•
    hace un año

    La matriz de sombra ES una técnica usada en la ciencia de datos para identificar valores faltantes en un conjunto de datos.

    Esta matriz es una versión binaria del conjunto de datos original, donde se asigna 1 a los valores faltantes y 0 a los valores presentes. Es útil para visualizar patrones de datos faltantes y para realizar análisis que puedan depender de estos patrones.

    Aquí hay un pequeño ejemplo de cómo crear una matriz de sombra usando Pandas:

    import pandas as pd

    import numpy as np

    # Crear un DataFrame de ejemplo

    data = {'A': [1, 2, np.nan, 4],

    'B': [np.nan, 2, 3, 4],

    'C': [1, 2, 3, np.nan]}

    df = pd.DataFrame(data)

    # Crear la matriz de sombra

    shadow_matrix = df.isnull().astype(int)

    print(shadow_matrix)

    Pablo Alejandro Figueroa

    Pablo Alejandro Figueroa

    student•
    hace 2 años

    genial!

Escuelas

  • Desarrollo Web
    • Fundamentos del Desarrollo Web Profesional
    • Diseño y Desarrollo Frontend
    • Desarrollo Frontend con JavaScript
    • Desarrollo Frontend con Vue.js
    • Desarrollo Frontend con Angular
    • Desarrollo Frontend con React.js
    • Desarrollo Backend con Node.js
    • Desarrollo Backend con Python
    • Desarrollo Backend con Java
    • Desarrollo Backend con PHP
    • Desarrollo Backend con Ruby
    • Bases de Datos para Web
    • Seguridad Web & API
    • Testing Automatizado y QA para Web
    • Arquitecturas Web Modernas y Escalabilidad
    • DevOps y Cloud para Desarrolladores Web
  • English Academy
    • Inglés Básico A1
    • Inglés Básico A2
    • Inglés Intermedio B1
    • Inglés Intermedio Alto B2
    • Inglés Avanzado C1
    • Inglés para Propósitos Específicos
    • Inglés de Negocios
  • Marketing Digital
    • Fundamentos de Marketing Digital
    • Marketing de Contenidos y Redacción Persuasiva
    • SEO y Posicionamiento Web
    • Social Media Marketing y Community Management
    • Publicidad Digital y Paid Media
    • Analítica Digital y Optimización (CRO)
    • Estrategia de Marketing y Growth
    • Marketing de Marca y Comunicación Estratégica
    • Marketing para E-commerce
    • Marketing B2B
    • Inteligencia Artificial Aplicada al Marketing
    • Automatización del Marketing
    • Marca Personal y Marketing Freelance
    • Ventas y Experiencia del Cliente
    • Creación de Contenido para Redes Sociales
  • Inteligencia Artificial y Data Science
    • Fundamentos de Data Science y AI
    • Análisis y Visualización de Datos
    • Machine Learning y Deep Learning
    • Data Engineer
    • Inteligencia Artificial para la Productividad
    • Desarrollo de Aplicaciones con IA
    • AI Software Engineer
  • Ciberseguridad
    • Fundamentos de Ciberseguridad
    • Hacking Ético y Pentesting (Red Team)
    • Análisis de Malware e Ingeniería Forense
    • Seguridad Defensiva y Cumplimiento (Blue Team)
    • Ciberseguridad Estratégica
  • Liderazgo y Habilidades Blandas
    • Fundamentos de Habilidades Profesionales
    • Liderazgo y Gestión de Equipos
    • Comunicación Avanzada y Oratoria
    • Negociación y Resolución de Conflictos
    • Inteligencia Emocional y Autogestión
    • Productividad y Herramientas Digitales
    • Gestión de Proyectos y Metodologías Ágiles
    • Desarrollo de Carrera y Marca Personal
    • Diversidad, Inclusión y Entorno Laboral Saludable
    • Filosofía y Estrategia para Líderes
  • Diseño de Producto y UX
    • Fundamentos de Diseño UX/UI
    • Investigación de Usuarios (UX Research)
    • Arquitectura de Información y Usabilidad
    • Diseño de Interfaces y Prototipado (UI Design)
    • Sistemas de Diseño y DesignOps
    • Redacción UX (UX Writing)
    • Creatividad e Innovación en Diseño
    • Diseño Accesible e Inclusivo
    • Diseño Asistido por Inteligencia Artificial
    • Gestión de Producto y Liderazgo en Diseño
    • Diseño de Interacciones Emergentes (VUI/VR)
    • Desarrollo Web para Diseñadores
    • Diseño y Prototipado No-Code
  • Contenido Audiovisual
    • Fundamentos de Producción Audiovisual
    • Producción de Video para Plataformas Digitales
    • Producción de Audio y Podcast
    • Fotografía y Diseño Gráfico para Contenido Digital
    • Motion Graphics y Animación
    • Contenido Interactivo y Realidad Aumentada
    • Estrategia, Marketing y Monetización de Contenidos
  • Desarrollo Móvil
    • Fundamentos de Desarrollo Móvil
    • Desarrollo Nativo Android con Kotlin
    • Desarrollo Nativo iOS con Swift
    • Desarrollo Multiplataforma con React Native
    • Desarrollo Multiplataforma con Flutter
    • Arquitectura y Patrones de Diseño Móvil
    • Integración de APIs y Persistencia Móvil
    • Testing y Despliegue en Móvil
    • Diseño UX/UI para Móviles
  • Diseño Gráfico y Arte Digital
    • Fundamentos del Diseño Gráfico y Digital
    • Diseño de Identidad Visual y Branding
    • Ilustración Digital y Arte Conceptual
    • Diseño Editorial y de Empaques
    • Motion Graphics y Animación 3D
    • Diseño Gráfico Asistido por Inteligencia Artificial
    • Creatividad e Innovación en Diseño
  • Programación
    • Fundamentos de Programación e Ingeniería de Software
    • Herramientas de IA para el trabajo
    • Matemáticas para Programación
    • Programación con Python
    • Programación con JavaScript
    • Programación con TypeScript
    • Programación Orientada a Objetos con Java
    • Desarrollo con C# y .NET
    • Programación con PHP
    • Programación con Go y Rust
    • Programación Móvil con Swift y Kotlin
    • Programación con C y C++
    • Administración Básica de Servidores Linux
  • Negocios
    • Fundamentos de Negocios y Emprendimiento
    • Estrategia y Crecimiento Empresarial
    • Finanzas Personales y Corporativas
    • Inversión en Mercados Financieros
    • Ventas, CRM y Experiencia del Cliente
    • Operaciones, Logística y E-commerce
    • Gestión de Proyectos y Metodologías Ágiles
    • Aspectos Legales y Cumplimiento
    • Habilidades Directivas y Crecimiento Profesional
    • Diversidad e Inclusión en el Entorno Laboral
    • Herramientas Digitales y Automatización para Negocios
  • Blockchain y Web3
    • Fundamentos de Blockchain y Web3
    • Desarrollo de Smart Contracts y dApps
    • Finanzas Descentralizadas (DeFi)
    • NFTs y Economía de Creadores
    • Seguridad Blockchain
    • Ecosistemas Blockchain Alternativos (No-EVM)
    • Producto, Marketing y Legal en Web3
  • Recursos Humanos
    • Fundamentos y Cultura Organizacional en RRHH
    • Atracción y Selección de Talento
    • Cultura y Employee Experience
    • Gestión y Desarrollo de Talento
    • Desarrollo y Evaluación de Liderazgo
    • Diversidad, Equidad e Inclusión
    • AI y Automatización en Recursos Humanos
    • Tecnología y Automatización en RRHH
  • Finanzas e Inversiones
    • Fundamentos de Finanzas Personales y Corporativas
    • Análisis y Valoración Financiera
    • Inversión y Mercados de Capitales
    • Finanzas Descentralizadas (DeFi) y Criptoactivos
    • Finanzas y Estrategia para Startups
    • Inteligencia Artificial Aplicada a Finanzas
    • Domina Excel
    • Financial Analyst
    • Conseguir trabajo en Finanzas e Inversiones
  • Startups
    • Fundamentos y Validación de Ideas
    • Estrategia de Negocio y Product-Market Fit
    • Desarrollo de Producto y Operaciones Lean
    • Finanzas, Legal y Fundraising
    • Marketing, Ventas y Growth para Startups
    • Cultura, Talento y Liderazgo
    • Finanzas y Operaciones en Ecommerce
    • Startups Web3 y Blockchain
    • Startups con Impacto Social
    • Expansión y Ecosistema Startup
  • Cloud Computing y DevOps
    • Fundamentos de Cloud y DevOps
    • Administración de Servidores Linux
    • Contenerización y Orquestación
    • Infraestructura como Código (IaC) y CI/CD
    • Amazon Web Services
    • Microsoft Azure
    • Serverless y Observabilidad
    • Certificaciones Cloud (Preparación)
    • Plataforma Cloud GCP

Platzi y comunidad

  • Platzi Business
  • Live Classes
  • Lanzamientos
  • Executive Program
  • Trabaja con nosotros
  • Podcast

Recursos

  • Manual de Marca

Soporte

  • Preguntas Frecuentes
  • Contáctanos

Legal

  • Términos y Condiciones
  • Privacidad
  • Tyc promociones
Reconocimientos
Reconocimientos
Logo reconocimientoTop 40 Mejores EdTech del mundo · 2024
Logo reconocimientoPrimera Startup Latina admitida en YC · 2014
Logo reconocimientoPrimera Startup EdTech · 2018
Logo reconocimientoCEO Ganador Medalla por la Educación T4 & HP · 2024
Logo reconocimientoCEO Mejor Emprendedor del año · 2024
De LATAM conpara el mundo
YoutubeInstagramLinkedInTikTokFacebookX (Twitter)Threads