Fusión de DataFrames con Pandas: merge, concat y join

Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Fusión de DataFrames con Pandas: merge, concat y join

Resumen

Combinar datos de múltiples tablas es esencial para integrar información de diferentes fuentes en el análisis de datos. Pandas ofrece funciones como merge(), concat() y join() que facilitan esta tarea de manera eficiente y flexible. A continuación, exploraremos cómo utilizar estas funciones con ejemplos prácticos que te ayudarán a dominar la combinación de DataFrames en tus proyectos de análisis de datos.

¿Cómo se utiliza la función merge()?

La función merge() en Pandas permite combinar DataFrames de manera similar a las uniones en SQL, basándose en una o más claves comunes.

Unión Interna (Inner Join)

Combina solo las filas con claves coincidentes en ambos DataFrames.

import pandas as pd

# Crear DataFrames de ejemplo
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['B', 'C', 'D'],
    'value2': [4, 5, 6]
})

# Realizar un merge interno
inner_merged = pd.merge(df1, df2, on='key', how='inner')
print("Unión Interna:\n", inner_merged)

Unión Externa (Outer Join)

Incluye todas las filas de ambos DataFrames, rellenando con NaN donde no haya coincidencias.

# Realizar un merge externo
outer_merged = pd.merge(df1, df2, on='key', how='outer')
print("Unión Externa:\n", outer_merged)

Unión Izquierda (Left Join)

Devuelve todas las filas del DataFrame izquierdo y las filas coincidentes del DataFrame derecho.

# Realizar un merge izquierda
left_merged = pd.merge(df1, df2, on='key', how='left')
print("Unión Izquierda:\n", left_merged)

Unión Derecha (Right Join)

Devuelve todas las filas del DataFrame derecho y las filas coincidentes del DataFrame izquierdo.

# Realizar un merge derecha
right_merged = pd.merge(df1, df2, on='key', how='right')
print("Unión Derecha:\n", right_merged)

¿Cómo se aplica la función concat()?

La función concat() se usa para concatenar DataFrames a lo largo de un eje, ya sea apilándolos verticalmente o combinándolos horizontalmente.

Concatenación Vertical

Apila los DataFrames uno sobre otro de forma vertical.

 # Crear DataFrames de ejemplo
    df3 = pd.DataFrame({
        'A': ['A0', 'A1', 'A2'],
        'B': ['B0', 'B1', 'B2']
    })
    
    df4 = pd.DataFrame({
        'A': ['A3', 'A4', 'A5'],
        'B': ['B3', 'B4', 'B5']
    })
    
    # Concatenar verticalmente
    vertical_concat = pd.concat([df3, df4])
    print("Concatenación Vertical:\n", vertical_concat)

Concatenación Horizontal

Combina los DataFrames uno al lado del otro.

# Concatenar horizontalmente
    horizontal_concat = pd.concat([df3, df4], axis=1)
    print("Concatenación Horizontal:\n", horizontal_concat)

¿Cómo funciona la función join()?

La función join() permite combinar DataFrames en función del índice o una columna clave, similar a merge(), pero más simplificado para uniones basadas en índices.

Join con Índice

Combina DataFrames utilizando el índice como la clave de unión.

# Crear DataFrames de ejemplo con índices
df5 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
}, index=['K0', 'K1', 'K2'])

df6 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
}, index=['K0', 'K2', 'K3'])

# Realizar un join
joined = df5.join(df6, how='inner')
print("Join con Índice:\n", joined)

Mario Alexander Vargas Celis

Estudiante

La fusión de **DataFrames** en **Pandas** es una operación clave para combinar datos de diferentes fuentes, similar a las uniones de tablas en SQL. Se puede realizar de diferentes maneras, dependiendo de cómo deseas combinar los conjuntos de datos. Las funciones principales para fusionar son merge(), join(), y concat().

### 1. **merge() para fusionar DataFrames**

El método merge() es el más común para fusionar dos **DataFrames** basándose en una o más columnas o índices en común. Ofrece varias opciones de tipo de unión (join), como **inner**, **outer**, **left**, y **right**.

#### Tipos de uniones:

- **Inner join**: Devuelve solo las filas que tienen correspondencias en ambos DataFrames.

- **Left join**: Devuelve todas las filas del DataFrame izquierdo y solo las que coinciden del DataFrame derecho.

- **Right join**: Devuelve todas las filas del DataFrame derecho y solo las que coinciden del DataFrame izquierdo.

- **Outer join**: Devuelve todas las filas de ambos DataFrames, completando con NaN donde no haya correspondencias.

#### Ejemplo básico de merge():


import pandas as pd



\# Crear dos DataFrames de ejemplo

df1 = pd.DataFrame({

&#x20;   'id': \[1, 2, 3, 4],

&#x20;   'nombre': \['Ana', 'Pedro', 'Juan', 'Lucía']

})



df2 = pd.DataFrame({

&#x20;   'id': \[3, 4, 5, 6],

&#x20;   'ciudad': \['Madrid', 'Sevilla', 'Valencia', 'Barcelona']

})



\# Fusión usando la columna 'id'

df\_merged = pd.merge(df1, df2, on='id', how='inner')

print(df\_merged)

**Resultado (inner join):**


&#x20;  id nombre    ciudad

0   3   Juan    Madrid

1   4  Lucía   Sevilla

#### Otros tipos de uniones:

- **Left join**:


df\_left = pd.merge(df1, df2, on='id', how='left')

print(df\_left)

**Resultado:**


&#x20;  id nombre    ciudad

0   1    Ana       NaN

1   2  Pedro       NaN

2   3   Juan    Madrid

3   4  Lucía   Sevilla

- **Right join**:


df\_right = pd.merge(df1, df2, on='id', how='right')

print(df\_right)

**Resultado:**


&#x20;  id nombre    ciudad

0   3   Juan    Madrid

1   4  Lucía   Sevilla

2   5    NaN  Valencia

3   6    NaN  Barcelona

- **Outer join**:


df\_outer = pd.merge(df1, df2, on='id', how='outer')

print(df\_outer)

**Resultado:**


&#x20;  id nombre    ciudad

0   1    Ana       NaN

1   2  Pedro       NaN

2   3   Juan    Madrid

3   4  Lucía   Sevilla

4   5    NaN  Valencia

5   6    NaN  Barcelona

### 2. **Fusión en base a múltiples columnas**

También puedes fusionar DataFrames basándote en más de una columna.

#### Ejemplo:


df1 = pd.DataFrame({

&#x20;   'id': \[1, 2, 3, 4],

&#x20;   'nombre': \['Ana', 'Pedro', 'Juan', 'Lucía'],

&#x20;   'ciudad': \['Madrid', 'Sevilla', 'Valencia', 'Barcelona']

})



df2 = pd.DataFrame({

&#x20;   'id': \[3, 4, 5, 6],

&#x20;   'ciudad': \['Valencia', 'Barcelona', 'Madrid', 'Sevilla'],

&#x20;   'ventas': \[200, 150, 300, 400]

})



\# Fusión usando tanto 'id' como 'ciudad'

df\_multi\_merge = pd.merge(df1, df2, on=\['id', 'ciudad'], how='inner')

print(df\_multi\_merge)

**Resultado:**


&#x20;  id    nombre    ciudad  ventas

0   3     Juan  Valencia     200

1   4    Lucía  Barcelona     150

### 3. **concat() para concatenar DataFrames**

El método concat() se utiliza para apilar DataFrames uno encima del otro (unión vertical) o uno al lado del otro (unión horizontal).

#### Concatenación vertical (por filas):


\# Crear dos DataFrames de ejemplo

df1 = pd.DataFrame({

&#x20;   'id': \[1, 2],

&#x20;   'nombre': \['Ana', 'Pedro']

})



df2 = pd.DataFrame({

&#x20;   'id': \[3, 4],

&#x20;   'nombre': \['Juan', 'Lucía']

})



\# Concatenar los DataFrames por filas

df\_concat = pd.concat(\[df1, df2], axis=0)

print(df\_concat)

**Resultado:**


&#x20;  id  nombre

0   1    Ana

1   2  Pedro

0   3   Juan

1   4  Lucía

#### Concatenación horizontal (por columnas):


\# Crear dos DataFrames de ejemplo con el mismo número de filas

df3 = pd.DataFrame({

&#x20;   'edad': \[25, 30],

&#x20;   'ciudad': \['Madrid', 'Barcelona']

})



\# Concatenar por columnas

df\_concat\_cols = pd.concat(\[df1, df3], axis=1)

print(df\_concat\_cols)

**Resultado:**


&#x20;  id  nombre  edad    ciudad

0   1    Ana    25    Madrid

1   2  Pedro    30  Barcelona

### 4. **join() para combinar DataFrames basados en el índice**

El método join() se utiliza para combinar DataFrames usando sus índices en lugar de una columna específica. Esto es útil cuando ya tienes índices bien definidos en los DataFrames.

#### Ejemplo:


\# Crear dos DataFrames con índices

df1 = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Pedro'],

&#x20;   'edad': \[25, 30]

}, index=\['A', 'B'])



df2 = pd.DataFrame({

&#x20;   'ciudad': \['Madrid', 'Barcelona'],

&#x20;   'ventas': \[100, 200]

}, index=\['A', 'B'])



\# Hacer join usando el índice

df\_join = df1.join(df2)

print(df\_join)

**Resultado:**


&#x20; nombre  edad     ciudad  ventas

A    Ana    25     Madrid     100

B  Pedro    30  Barcelona     200

#### Usando join() con diferentes índices:

Si los índices no coinciden, puedes usar el argumento how para especificar el tipo de unión (por defecto es left).


df3 = pd.DataFrame({

&#x20;   'ciudad': \['Sevilla', 'Valencia'],

&#x20;   'ventas': \[150, 250]

}, index=\['C', 'D'])



df\_join\_outer = df1.join(df3, how='outer')

print(df\_join\_outer)

**Resultado:**


&#x20; nombre  edad     ciudad  ventas

A    Ana  25.0     Madrid    100.0

B  Pedro  30.0  Barcelona    200.0

C    NaN   NaN    Sevilla    150.0

D    NaN   NaN   Valencia    250.0

### Resumen de funciones:

- **merge()**: Fusiona dos DataFrames basado en columnas comunes, con soporte para diferentes tipos de uniones (inner, outer, left, right).

- **concat()**: Concatenación de DataFrames por filas (vertical) o columnas (horizontal).

- **join()**: Combina DataFrames usando índices, con soporte para diferentes tipos de uniones.

Estas operaciones son útiles para consolidar datos de diferentes fuentes y reorganizar la información de manera eficiente. Si tienes algún caso específico o necesitas más detalles, ¡déjame saber!

Paola Alapizco

Hanns Maza

Dayana Castillo

Francisco Cisneros

Miguel Ángel Torregrosa Calvo

Daniel Humberto Ortiz Vargas

Hector Puentes

Gabriel Obregón

Juan David Lozada Calderon

Marina Barraza

Elias Echeverri

Saul Antonio Cerén Gálvez

Alexander Ramirez

FABIAN PEREZ

Cristian Rodríguez

Esteban Diaz Diez

Glenda López

Juan Felipe Hernandez Giraldo

Roberto Arriaga

Fusión de DataFrames con Pandas: merge, concat y join

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Atributos, dtypes y estadística en arrays NumPy

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Broadcasting y operaciones entre arrays en NumPy

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Álgebra lineal con NumPy y linalg

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

iloc vs loc en Pandas para filtrar datos

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Cómo crear columnas nuevas en Pandas

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas

Filtrado de datos en pandas con condiciones

Creación y manejo de Pivot Tables en pandas