Merge y Concat

Clase 20 de 24 • Curso de Manipulación y Transformación de Datos con Pandas y NumPy

Resumen

Como podemos usar la lógica anteriormente vista en código, usando los parámetros de Pandas

Importamos Pandas y Numpy

import pandas as pd
import numpy as np

Concat

En esta ocasión vamos a crear un DataFrame nuevo

df1 = pd.DataFrame({'A':['A0', 'A1', 'A2','A3'],
        'B':['B0', 'B1', 'B2','B3'],
	'C':['C0', 'C1', 'C2','C3'],
	'D':['D0', 'D1', 'D2','D3']})


df2 = pd.DataFrame({'A':['A4', 'A5', 'A6','A7'],
	'B':['B4', 'B5', 'B6','B7'],
	'C':['C4', 'C5', 'C6','C7'],
	'D':['D4', 'D5', 'D6','D7']})

Concatenar los DataFrames

pd.concat([df1,df2])
---> A  B   C   D
0   A0  B0  C0  D0
1   A1  B1  C1  D1
2   A2  B2  C2  D2
3   A3  B3  C3  D3
0   A4  B4  C4  D4
1   A5  B5  C5  D5
2   A6  B6  C6  D6
3   A7  B7  C7  D7

Corregir los índices

pd.concat([df1,df2], ignore_index= True)
---> A  B   C   D
0   A0  B0  C0  D0
1   A1  B1  C1  D1
2   A2  B2  C2  D2
3   A3  B3  C3  D3
4   A4  B4  C4  D4
5   A5  B5  C5  D5
6   A6  B6  C6  D6
7   A7  B7  C7  D7

Por axis 1

pd.concat([df1,df2], axis = 1)
---> A  B   C   D   A.1 B.1 C.1 D.1
0   A0  B0  C0  D0  A4  B4  C4  D4
1   A1  B1  C1  D1  A5  B5  C5  D5
2   A2  B2  C2  D2  A6  B6  C6  D6
3   A3  B3  C3  D3  A7  B7  C7  D7

Merge

Creamos DataFrame

izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

Unir el DataFrame Der a Izq

izq.merge(der)
---> key A  B   C   D
0   k0  A0  B0  C0  D0
1   k1  A1  B1  C1  D1
2   k2  A2  B2  C2  D2
3   k3  A3  B3  C3  D3

MERGE 2
izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key_2' : ['k0', 'k1', 'k2','k3'],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

Hay diferencias entre algunas columnas, por esa razón hay que separarlos de esta manera:

izq.merge(der, left_on = 'key', right_on='key_2')
---> key A  B   key_2   C   D
0   k0  A0  B0  k0    C0  D0
1   k1  A1  B1  k1    C1  D1
2   k2  A2  B2  k2    C2  D2
3   k3  A3  B3  k3    C3  D3

MERGE 3

izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key_2' : ['k0', 'k1', 'k2',np.nan],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

Si tenemos un NaNen nuestro DataFrame, pandas no lo detectará como un mach. Se soluciona con How, dando así, una preferencia.

izq.merge(der, left_on = 'key', right_on='key_2', how='left')
---> key A  B   key_2   C   D
0   k0  A0  B0  k0    C0  D0
1   k1  A1  B1  k1    C1  D1
2   k2  A2  B2  k2    C2  D2
3   k3  A3  B3  NaN  NaN  NaN

Contribución creada por: Edward Giraldo.

Hugo Montoya Diaz

student•

Ruddy Ramos

student•

Gracias por el aporte.

David Osorio

student•

Aquí los diccionarios:

CONCAT

	df1 = pd.DataFrame({'A':['A0', 'A1', 'A2','A3'],
	'B':['B0', 'B1', 'B2','B3'],
	'C':['C0', 'C1', 'C2','C3'],
	'D':['D0', 'D1', 'D2','D3']})


	df2 = pd.DataFrame({'A':['A4', 'A5', 'A6','A7'],
	'B':['B4', 'B5', 'B6','B7'],
	'C':['C4', 'C5', 'C6','C7'],
	'D':['D4', 'D5', 'D6','D7']})

MERGE 1

izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

MERGE 2

izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key_2' : ['k0', 'k1', 'k2','k3'],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

MERGE 3

izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key_2' : ['k0', 'k1', 'k2',np.nan],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

FELIX DAVID CORDOVA GARCIA

student•

heroe!!

José Alberto Mata Mena

student•

A estás alturas del curso puedo decir que está mil veces mejor que el anterior curso sobre pandas, demasiado bueno el profesor.

Daniel Choxin

student•

Totalmente de acuerdo

daniel sierra

student•

Había un curso anterior? lo eliminaron?. saludos

Sandra Guayambuco

student•

Hola, un ejercicio que hice y pueden hacer para practicar estos conceptos es pedirle datos de ejemplo de la vida real al chatgpt. Le pedi ejemplos de datos de pacientes. y me salieron varios dataframes que pude usar para hacer merge, join y concatenate.

!img

Alejandro Ruiz Melo

student•

Para no confundierse con el axis entre el 0 y el 1 pueden usar la palabra "columns" o "rows".

pd.concat([df1,df2],axis="columns")

Daniel Ramírez Ruiz

student•

Aporte para crear los diccionarios usados en la clase. Es un método mucho más complejo que simplemente copiar, pegar y modificar.

Sin embargo, lo aporto como ejemplo del uso de list y dictionary comprehensions en python nivel intermedio.

# genera lista con keys: 'A', 'B', 'C', 'D'
keys = list('ABCD')  

# values será un list comprehension que contendrá una lista de listas:
# ['A0', 'A1', ..., 'A3'], ['B0', 'B1', ..., 'B3'], ...
# es un list comprehension anidado
values = [ 
            # list comprehension anidado
            # crea una lista del tipo: ['A0', 'A1', ..., 'A3']
            [f'{letter}{number}' for number in range(4)]    
         # para las letras A, B, C, D, E, F
         for letter in list('ABCDEF')
         ]

df3 = pd.DataFrame(
    # dictionary comprehension:
    # uso zip para crear tuplas de dos elementos que suministren
    # pares de valores k:v al diccionario
    {k:v for k,v  in zip(keys, values)}
)

Sergio Lezama

student•

EXCELENTEEEEEE gracias

Francis Italo Diaz Lopez

student•

Si usas el comando outer te va votar 4 registros,ya que, estarán contenidos los registros del left ,del right y del inner.

Gabriel Obregón

student•

El CONCATENATE se puede usar con dataframe que pueden tener diferencias en alguna columna. Del dataframe de los libros hacemos 2 dataframe con columnas distintas y los concatenamos

df_books = pd.read_csv('/content/VIDEO 12 bestsellers-with-categories.csv',sep=',',header=0)
df_books.head(2)

Con las primeros registros

df_books_1=df_books[['Name','Author','Price','Year']].head(5)
df_books_1

Con los últimos registros y además tiene la columna GENRE

df_books_2=df_books[['Name','Author','Price','Year','Genre']].tail(5)
df_books_2

Concatenamos en sentido axis = 0. Los valores faltantes son NULL

df_books_concat = pd.concat([df_books_1,df_books_2],ignore_index=True)
df_books_concat

A los valores nulos le asignamos Unrated (sin clasificación) que es más descriptivo. Para eso usamos where y la concatenación en sentido de las columnas (axis=1).

df_genre = df_books_concat.Genre.where(df_books_concat.Genre.notnull() ,'Unrated')
df_books_concat2 = pd.concat([df_books_concat[['Name','Author','Price','Year']],df_genre],axis=1)

clint martinez

student•

Muy buen aporte gracias por compartirlo, solo para agregar que la ultima parte del cambio de valores nulos , se puede utilizar

fillna('Unrated')
```, 
para reemplazarlos, de una manera mucho mas practica, espero estés bien saludos, desde Lima-Perú

Jeisson Espinosa

student•

Información resumida de esta clase #EstudiantesDePlatzi

Utilizando la función concat puedo unir diferentes DataFrame y estos deben ir dentro de [ ]
Por defecto la fusión se hace por el Axis = 0, es decir por las filas, si utilizamos el Axis = 1, la fusión se realizará por las columnas
También podemos utilizar la función merge para fusionar 2 DataFrame, lo ideal seria que nuestros DataFrame tengan una llave en común para realizar un correcto merge
Cuando los conjuntos de datos no poseen una llave en común, debemos especificar que llave se usara en right y que llave en left
Utilizando el parámetro how, puedo definir qué tipo de unión voy a realizar. Muy parecido a las consultas que se hacen en SQL

Miguel Angel Reyes Moreno

student•

NOTA QUE TE AHORRARÁ TIEMPO: Google Colab tiene atajos de teclado similares a VS code. Puedes cambiar de golpe varias líneas de código. En vez de cambiar cada letra una por una, usa Ctrl + D para seleccionar las ocurrencias.

Juan Pablo Cuenca Ludeña

student•

Mis apuntes #21 (Notion)

Brandom Cárdenas

student•

Hola, al hacer el diccionario me da éste error y no entiendo ya que es idéntico al de la clase, espero me puedan ayudar:

Alarcon7a

student•

podria ser una coma de mas en la llave D sl final

Alarcon7a

student•

podria ser una coma al final en la llave D del diccionario

Javier Choque Paucar

student•

dic={"A":[f"A{i}" for i in np.arange(0,4) if i==i],
     "B":[f"B{i}" for i in np.arange(0,4) if i==i],
     "C":[f"C{i}" for i in np.arange(0,4) if i==i],
     "D":[f"D{i}" for i in np.arange(0,4) if i==i]
     }

Pablo Alejandro Figueroa

student•

La verdad ¿no?

Luis Alberto Ramírez Castellanos

student•

Probemos lo que hace este comando:

izq.merge(der, left_on='key', right_on='key_2', how='outer')

wilmer forigua

student•

Hola! Un pequeño grafico colorido de merge por izquierda para nosotros los dummies

clint martinez

student•

Gracias esta muy representativo y simple de entender, 🤙 😎 💚

FABIAN STEVEN HENAO PALACIOS

student•

Muy buena la clase. Mejor explicado que en la Universidad.

Federico Joaquín La Rocca

student•

Alta remera profe! (remera = camiseta)

Eduardo Peña Ramos

student•

Grande Soda, saludos.

Gregorio Alfonso De León Martínez

student•

Información para entender la clase

Pablo Monroy

student•

Creo que el concat es el UNION de sql en pandas, si ya se que los pythoneros me vana decir que el concat es mas poderoso!!

Juan Manuel Zwiener

student•

Hola comunidad!! Cual seria la manera mas optima de multiplicar los valores de la columna venta , el cual esta expresados en moneda pesos argentinos , y multiplicarlos segun la cotizacion del dia que corresponda , de mi otro dataframe (para que coincida el dia de la venta con el tipo de cambio de ese mismo dia )

Alarcon7a

student•

puedes cruzar con un merge en fecha y luego usar un apply para crear el valor resultante, apply se ve mas adelante

	df1 = pd.DataFrame({'A':['A0', 'A1', 'A2','A3'],
	'B':['B0', 'B1', 'B2','B3'],
	'C':['C0', 'C1', 'C2','C3'],
	'D':['D0', 'D1', 'D2','D3']})


	df2 = pd.DataFrame({'A':['A4', 'A5', 'A6','A7'],
	'B':['B4', 'B5', 'B6','B7'],
	'C':['C4', 'C5', 'C6','C7'],
	'D':['D4', 'D5', 'D6','D7']})

izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key_2' : ['k0', 'k1', 'k2','k3'],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

izq = pd.DataFrame({'key' : ['k0', 'k1', 'k2','k3'],
 'A' : ['A0', 'A1', 'A2','A3'],
'B': ['B0', 'B1', 'B2','B3']})

der = pd.DataFrame({'key_2' : ['k0', 'k1', 'k2',np.nan],
 'C' : ['C0', 'C1', 'C2','C3'],
'D': ['D0', 'D1', 'D2','D3']})

# genera lista con keys: 'A', 'B', 'C', 'D'
keys = list('ABCD')  

# values será un list comprehension que contendrá una lista de listas:
# ['A0', 'A1', ..., 'A3'], ['B0', 'B1', ..., 'B3'], ...
# es un list comprehension anidado
values = [ 
            # list comprehension anidado
            # crea una lista del tipo: ['A0', 'A1', ..., 'A3']
            [f'{letter}{number}' for number in range(4)]    
         # para las letras A, B, C, D, E, F
         for letter in list('ABCDEF')
         ]

df3 = pd.DataFrame(
    # dictionary comprehension:
    # uso zip para crear tuplas de dos elementos que suministren
    # pares de valores k:v al diccionario
    {k:v for k,v  in zip(keys, values)}
)

dic={"A":[f"A{i}" for i in np.arange(0,4) if i==i],
     "B":[f"B{i}" for i in np.arange(0,4) if i==i],
     "C":[f"C{i}" for i in np.arange(0,4) if i==i],
     "D":[f"D{i}" for i in np.arange(0,4) if i==i]
     }

Merge y Concat

Librerías de manipulación de datos con Python

¿Por qué NumPy y Pandas?

NumPy

NumPy Array

Tipos de datos

Dimensiones

Creando arrays

Shape y Reshape

Funciones principales de NumPy

Copy

Condiciones

Operaciones

Pandas

Series y DataFrames en Pandas

Leer archivos CSV y JSON con Pandas

Filtrado con loc y iloc

Agregar o eliminar datos con Pandas

Manejo de datos nulos

Filtrado por condiciones

Funciones principales de Pandas

groupby

Combinando DataFrames

Merge y Concat

Join

Pivot y Melt

Apply

Cierre

Posibilidades con Pandas y NumPy

Concat

Merge