Creación de DataFrames con Pandas en Python

Clase 13 de 32 • Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Resumen

Procesos de Limpieza de Datos en Pandas

En el mundo del análisis de datos, la calidad de los datos es tan importante como el análisis mismo. Los datos crudos a menudo contienen errores, valores faltantes o inconsistencias que pueden afectar la precisión de los resultados.

Aquí es donde entra en juego Pandas, una biblioteca de Python ampliamente utilizada para la manipulación y análisis de datos. Pandas nos proporciona un conjunto robusto de herramientas para limpiar y preparar datos, asegurando que estén en el mejor estado posible para el análisis, tales como:

Lectura de Datos: Utilizando pd.read_csv() para importar datos desde un archivo CSV.
Conversión de Tipos de Datos: Convertir columnas, como fechas, a tipos de datos más adecuados.
Eliminación de Filas o Columnas: Retirar filas o columnas innecesarias.
Imputación de Datos Faltantes: Rellenar valores faltantes con la media, mediana, o un valor constante.
Eliminación de Duplicados: Asegurar la integridad de los datos eliminando duplicados.
Filtrado de Datos: Enfocar el análisis en subconjuntos específicos de datos.
Creación de Nuevas Columnas: Generar columnas derivadas para facilitar el análisis.

El proceso de limpieza de datos es crucial en el análisis, y Pandas nos ofrece herramientas para facilitar esa tarea. Pandas permite a los analistas transformar datos desordenados en conjuntos de datos limpios y estructurados.

Dominar las técnicas de limpieza de datos en Pandas es esencial para cualquier profesional que busque extraer valor significativo de sus datos.

Comentarios

Laura Bedoya

student•

from google.colab import drive

drive.mount('/content/drive')

path = '/content/drive/MyDrive/online_retail.csv'

data = pd.read_csv(path)

print(data.head) #Para imprimir solo las primeras 5 filas print(data) #Imprimir las primeras y ultimas 5

Pável Hernández Reza

student•

Pueden simplemente colocar data en la última línea (Sin usar el print() y Google Collab o VSCode desplegarán una vista mucho más legible del Pandas DataFrame.

Yamile Gutierrez Escudero

student•

Un DataFrame en pandas es una estructura de datos bidimensional, similar a una tabla, que permite almacenar y manipular datos en filas y columnas, facilitando el análisis y manejo de grandes volúmenes de información en Python

Christopher Andrés Guano Valencia

student•

🟢La estructura de datos Index de Pandas

En Pandas, pd.Index es una estructura que representa una colección de etiquetas para un DataFrame o una Serie. Sirve para identificar las filas y columnas. Proporciona métodos para manipular y acceder a los datos.

Un Index puede ser de diferentes tipos, como enteros, cadenas o fechas.

index = pd.Index(['a', 'b', 'c', 'd'])

# Crear un DataFrame usando el índice
data = {'Valor': [10, 20, 30, 40]}
df = pd.DataFrame(data, index=index)

El uso de pd.Index asegura consistencia y optimiza el rendimiento en el análisis de datos. ¡Nunca pares de aprender! 🚀🚀

Juan Sebastian Mesa

student•

Si están trabajando en entornos virtuales con WSL y VSC, pueden acceder a sur archivo en google drive de la siguiente manera:

Configura el archivo en Google Drive como público o accesible con enlace.
Obtén el enlace y modifica su URL para una descarga directa:
1. Enlace compartido:
2. Enlace de descarga:
Usa pandas para cargar el archivo desde la URL:
1. url = 'https://drive.google.com/uc?id=ARCHIVO\_ID' df = pd.read_csv(url) print(df.head())

Daniel Andres Rojas Paredes

student•

hola descargue el dataset a mi pc, no se si sea solo a mi pero al leerlo me dice que no esta codificado en utf8 quisiera pasarle la codificacion que es pero no se cual es . como puedo saberla?

Jose Luis Quintero Sánchez

student•

Puedes usar la codificación encoding='latin1' que corresponde con la codificación en español.

Juan Alberto Flores Mejía

student•

Tengo una duda. ¿Cuál es la diferencia entre usar un data frame unicamente desde un diccionario a utilizarlo desde series?

Edgar Alejandro Zuluaga Palacio

student•

Un data frame creado desde un diccionario permite definir las columnas de manera directa mediante claves y valores que representan las listas de datos. En cambio, al usar series, estás construyendo cada columna a partir de una serie de datos unidimensionales, lo que requiere que las series ya estén creadas antes de formar el data frame. Esto significa que, desde un diccionario, puedes agregar datos de forma más estructurada y coherente, mientras que desde series, necesitas asegurarte de que cada serie tenga la misma longitud para evitar errores.

Cristian Vallejos

student••

pandas.read_csv

Parametro

Explicación

filepath_or_buffer, *

Se acepta cualquier ruta de cadena válida. La cadena puede ser una URL. Los esquemas de URL válidos incluyen http, ftp, s3, gs y archivo. Para las URL de archivo, se espera un host. Un archivo local podría ser: file://localhost/path/to/table.csv . Si desea pasar un objeto de ruta, pandas acepta cualquier os.PathLike. Por objeto tipo archivo, nos referimos a objetos con un read() método, como un identificador de archivo (por ejemplo, a través de openuna función incorporada) o StringIO.

sep=<no_default>

Patrón de carácter o expresión regular que se utilizará como delimitador. Si sep=None, el motor de C no puede detectar automáticamente el separador, pero el motor de análisis de Python sí, lo que significa que se utilizará este último y detectará automáticamente el separador solo de la primera fila válida del archivo mediante la herramienta de rastreo integrada de Python, csv.Sniffer. Además, los separadores de más de un carácter y diferentes de '\s+'se interpretarán como expresiones regulares y también forzarán el uso del motor de análisis de Python. Tenga en cuenta que los delimitadores de expresiones regulares tienden a ignorar los datos entre comillas. Ejemplo de expresión regular: '\r\t'.

delimiter=None

Alias para sep.

header='infer'

Número(s) de fila que contienen las etiquetas de columna y marcan el inicio de los datos (indexado a cero). El comportamiento predeterminado es inferir los nombres de columna: si no names se pasa [número], el comportamiento es idéntico a [ header=0número] y los nombres de columna se infieren de la primera línea del archivo; si los nombres de columna se pasan explícitamente a [ namesnúmero], el comportamiento es idéntico a [número header=None]. Pase explícitamente header=0para poder reemplazar nombres existentes. El encabezado puede ser una lista de enteros que especifican las ubicaciones de fila para [número] MultiIndexen las columnas, por ejemplo, [número]. Las filas intermedias que no se especifiquen se omitirán (por ejemplo, se omite 2 en este ejemplo). Tenga en cuenta que este parámetro ignora las líneas comentadas y vacías si [número] , por lo que denota la primera línea de datos en lugar de la primera línea del archivo.[0, 1, 3]skip_blank_lines=Trueheader=0 Al inferirse del contenido del archivo, los encabezados se mantienen separados entre sí renombrando los nombres duplicados con un sufijo numérico ".{{count}}"que empieza por 1, p. ej. "foo", y "foo.1". Los encabezados vacíos se nombran o se escriben “Sin nombre: {{i}}\_level\_{{level}}” en el caso de columnas MultiIndex."Unnamed: {{i}}"

names=<no_default>

Secuencia de etiquetas de columna que se aplicará. Si el archivo contiene una fila de encabezado, debe pasar explícitamente header=0para sobrescribir los nombres de columna. No se permiten duplicados en esta lista.

index_col=None

Columnas que se usarán como etiquetas de fila, indicadas por etiquetas o índices de columna. Si se proporciona una secuencia de etiquetas o índices, MultiIndex se formará para las etiquetas de fila. Nota: index_col=Falsese puede utilizar para forzar a los pandas a no utilizar la primera columna como índice, por ejemplo, cuando tienes un archivo mal formado con delimitadores al final de cada línea.

usecols=None

Subconjunto de columnas a seleccionar, indicado por etiquetas o índices. Si es de tipo lista, todos los elementos deben ser posicionales (es decir, índices enteros en las columnas del documento) o cadenas que correspondan a los nombres de columna proporcionados por el usuario nameso inferidos de las filas del encabezado del documento. Si namesse proporcionan, las filas del encabezado del documento no se tienen en cuenta. Por ejemplo, un parámetro válido de tipo lista usecolssería o . El orden de los elementos se ignora, por lo que es igual que . Para instanciar un from con el orden de los elementos conservado, utilice para las columnas en orden o para el orden.[0, 1, 2]['foo', 'bar', 'baz']usecols=[0, 1][1, 0]DataFramedatapd.read_csv(data, usecols=['foo', 'bar'])[['foo', 'bar']]['foo', 'bar']pd.read_csv(data, usecols=['foo', 'bar'])[['bar', 'foo']]['bar', 'foo'] Si es invocable, la función invocable se evaluará con los nombres de columna, devolviendo los nombres donde la función invocable se evalúa como True. Un ejemplo de un argumento invocable válido sería . Usar este parámetro resulta en un tiempo de análisis mucho más rápido y un menor uso de memoria.lambda x: x.upper() in ['AAA', 'BBB', 'DDD']

dtype=None

Tipo(s) de datos que se aplicarán a todo el conjunto de datos o a columnas individuales. Por ejemplo, utilice o junto con la configuración adecuada para conservar y no interpretar . Si se especifican, se aplicarán en lugar de la conversión. Especifique a como entrada donde el valor predeterminado determina el de las columnas que no se enumeran explícitamente.{{'a': np.float64, 'b': np.int32, 'c': 'Int64'}}strobjectna_valuesdtypeconvertersdtypedefaultdictdtype

engine=None

Motor de análisis a utilizar. Los motores C y Pyarrow son más rápidos, mientras que el motor Python ofrece actualmente más funcionalidades. Actualmente, el multihilo solo es compatible con el motor Pyarrow. Algunas funciones del motor Pyarrow no son compatibles o podrían no funcionar correctamente.

converters=None

Funciones para convertir valores en columnas específicas. Las claves pueden ser etiquetas o índices de columna.

true_values=None

Valores a tener en cuenta True además de las variantes de 'True' que no distinguen entre mayúsculas y minúsculas.

false_values=None

Valores a tener en cuenta False además de las variantes de 'False' que no distinguen entre mayúsculas y minúsculas.

skipinitialspace=False

Omitir espacios después del delimitador.

skiprows=None

Números de línea a omitir (indexado en 0) o número de líneas a omitir ( int) al comienzo del archivo. Si es invocable, la función invocable se evaluará con los índices de fila, indicando Truesi la fila debe omitirse o False no. Un ejemplo de un argumento invocable válido sería .lambda x: x in [0, 2]

skipfooter=0

Número de líneas al final del archivo que se omitirán (no compatible con engine='c').

nrows=None

Número de filas del archivo a leer. Útil para leer fragmentos de archivos grandes. Se refiere al número de filas de datos en el DataFrame devuelto, excluyendo: La fila de encabezado que contiene los nombres de las columnas. Filas antes de la fila de encabezado, si header=1es mayor o igual a 1. Ejemplo de uso: Para leer las primeras 999.999 filas (sin encabezado): read_csv(..., nrows=999999) Para leer las filas 1.000.000 a 1.999.999: read_csv(..., skiprows=1000000, nrows=999999)

na_values=None

Cadenas adicionales opcionales para reconocer como NA/ NaN. Si se pasan, valores dict específicos por columna . Por defecto, los siguientes valores se interpretan como : cadena vacía, "NaN", "N/A", "NULL" y otras representaciones comunes de datos faltantes. NANaN

keep_default_na=True

Si se deben incluir o no los NaNvalores predeterminados al analizar los datos. Dependiendo de si na_values se pasan, el comportamiento es el siguiente: Si keep_default_na se especifican True y , se agrega a los valores predeterminados utilizados para el análisis.na_valuesna_values NaN Si no se especifican keep_default_nay True, solo se utilizan los valores predeterminados para el análisis.na_values NaN Si keep_default_nase especifican False, y , solo se utilizan los valores especificados para el análisis.na_values NaNna_values Si no keep_default_nase especifican Falsey na_values, no se analizará ninguna cadena como NaN. Tenga en cuenta que si na_filterse pasa como False, los parámetros keep_default_nay na_valuesse ignorarán.

na_filter=True

Detecta marcadores de valores faltantes (cadenas vacías y el valor de na_values). En datos sin NAvalores, pasar valores na_filter=Falsepuede mejorar el rendimiento al leer archivos grandes.

skip_blank_lines=True

Si es así True, omita las líneas en blanco en lugar de interpretarlas como NaNvalores.

parse_dates=None

El comportamiento es el siguiente: bool. Si True-> intenta analizar el índice. NoneSe comporta como Truesi date_formatse especifica. listde into nombres. p. ej. Si -> intente analizar las columnas 1, 2 y 3 cada una como una columna de fecha separada.[1, 2, 3] Si una columna o índice no se puede representar como un array de datetime, por ejemplo, debido a un valor no analizable o a una combinación de zonas horarias, se devolverá sin modificaciones como objecttipo de dato. Para un análisis no estándar datetime, utilice to_datetime()después de read_csv(). Nota: Existe una ruta rápida para las fechas con formato iso8601.

date_format=None

Formato para analizar fechas y/u horas cuando se usa junto con parse_dates. El strftime para analizar la hora, p. ej "%d/%m/%Y". . Consulte la documentación de strftime para obtener más información sobre las opciones, aunque tenga en cuenta que "%f"`se analizarán hasta nanosegundos. También puede pasar: “ISO8601”, para analizar cualquier cadena de tiempo ISO8601 (no necesariamente en exactamente el mismo formato); "mixto", para inferir el formato de cada elemento individualmente. Esto es arriesgado, por lo que probablemente debería usarse junto con dayfirst .

dayfirst=False

Fechas en formato DD/MM, formato internacional y europeo.

cache_dates=True

Si es así True, use una caché de fechas únicas convertidas para aplicar la datetime conversión. Esto puede generar una aceleración significativa al analizar cadenas de fechas duplicadas, especialmente aquellas con diferencias horarias.

iterator=False

Devuelve TextFileReaderun objeto para iterar o obtener fragmentos con get_chunk().

chunksize=None

Número de líneas que se leen del archivo por fragmento. Al pasar un valor, la función devolverá un TextFileReaderobjeto para la iteración. Consulte la documentación de las herramientas de E/S para obtener más información sobre iteratory chunksize.

compression='infer'

Para la descompresión instantánea de datos en disco. Si 'infer' y 'filepath_or_buffer' son similares a rutas, se detecta la compresión de las siguientes extensiones: '.gz', '.bz2', '.zip', '.xz', '.zst', '.tar', '.tar.gz', '.tar.xz' o '.tar.bz2' (de lo contrario, no se realiza la compresión). Si se usa 'zip' o 'tar', el archivo ZIP debe contener solo un archivo de datos para su lectura. Se establece en Nonepara no realizar la descompresión. También puede ser un diccionario con la clave 'method'establecida en uno de los siguientes valores: { 'zip', 'gzip', 'bz2', 'zstd', 'xz', 'tar'}, y los demás pares clave-valor se reenvían a zipfile.ZipFile, gzip.GzipFile, bz2.BZ2File, o zstandard.ZstdDecompressor, respectivamente. Por ejemplo, se podría pasar lo siguiente para la descompresión Zstandard utilizando un diccionario de compresión personalizado: .lzma.LZMAFiletarfile.TarFilecompression={'method': 'zstd', 'dict_data': my_compression_dict}

thousands=None

Carácter que actúa como separador de miles en valores numéricos.

decimal='.'

Carácter a reconocer como punto decimal (por ejemplo, utilice "," para datos europeos).

lineterminator=None

Carácter utilizado para indicar un salto de línea. Válido únicamente con el analizador C.

quotechar='"'

Carácter utilizado para indicar el inicio y el final de un elemento citado. Los elementos citados pueden incluir el carácter "<sub>" delimitery se ignorarán.

quoting=0

2 o csv.QUOTE_NONNUMERIC, 3 o csv.QUOTE_NONE}}, predeterminado: csv.QUOTE_MINIMAL. Controla el comportamiento de comillas de campos por csv.QUOTE_*constante. El valor predeterminado es csv.QUOTE_MINIMAL0, lo que implica que solo se comillas en los campos que contienen caracteres especiales (p. ej., caracteres definidos en [nombre del campo], [nombre del campo] quotecharo delimiter[nombre del campo lineterminator].

doublequote=True

Cuando quotecharse especifica y quotingno se especifica QUOTE_NONE, indica si se deben interpretar o no dos quotecharelementos consecutivos DENTRO de un campo como un solo quotecharelemento.

escapechar=None

Personaje utilizado para escapar de otros personajes.

comment=None

Carácter que indica que el resto de la línea no debe analizarse. Si se encuentra al principio de una línea, esta se ignorará por completo. Este parámetro debe ser un solo carácter. Al igual que las líneas vacías (siempre que skip_blank_lines=True), las líneas comentadas son ignoradas por el parámetro, headerpero no por skiprows. Por ejemplo, si comment='#', al analizar #empty\na,b,c\n1,2,3con , header=0se tratará 'a,b,c'como encabezado.

encoding=None

Codificación para usar con UTF al leer/escribir (ej. 'utf-8'). Lista de codificaciones estándar de Python .

encoding_errors='strict'

Cómo se tratan los errores de codificación. Lista de valores posibles .

dialect=None

Si se proporciona, este parámetro sobrescribirá los valores (predeterminados o no) de los siguientes parámetros: delimiter, doublequote, escapechar, skipinitialspace, quotechary quoting. Si es necesario sobrescribir valores, ParserWarningse emitirá un . Consulte csv.Dialect la documentación para obtener más detalles.

on_bad_lines='error'

Especifica qué hacer al encontrar una línea incorrecta (una línea con demasiados campos). Los valores permitidos son: 'error', genera una excepción cuando se encuentra una línea incorrecta. 'warn', genera una advertencia cuando se encuentra una línea incorrecta y omite esa línea. 'skip', omite líneas incorrectas sin alertar ni advertir cuando se encuentran. Función invocable que procesará una sola línea incorrecta. Con engine='python', la función con la firma . es una lista de cadenas divididas por . Si la función devuelve , la línea incorrecta se ignorará. Si la función devuelve un nuevo conjunto de cadenas con más elementos de los esperados, se emitirá un al eliminar los elementos adicionales.(bad_line: list[str]) -> list[str] | Nonebad_linesepNonelistParserWarning Con engine='pyarrow', función con firma como se describe en la documentación de pyarrow: invalid_row_handler .

low_memory=True

Procesar internamente el archivo en fragmentos, lo que resulta en un menor uso de memoria durante el análisis, pero posiblemente una inferencia de tipos mixtos. Para garantizar que no haya tipos mixtos False, establezca o especifique el tipo con el dtypeparámetro ``. Tenga en cuenta que todo el archivo se lee en un solo DataFrame fragmento; utilice el parámetro chunksize iterator para devolver los datos en fragmentos. (Solo válido con el analizador de C).

memory_map=False

Si se proporciona una ruta de archivo para filepath_or_buffer, se asigna el objeto de archivo directamente a la memoria y se accede a los datos directamente desde allí. Usar esta opción puede mejorar el rendimiento, ya que se elimina la sobrecarga de E/S.

float_precision=None

Especifica qué convertidor debe usar el motor de C para valores de punto flotante. Las opciones son Noneo 'high'para el convertidor normal, 'legacy'para el convertidor original de Pandas de menor precisión y 'round_trip'para el convertidor de ida y vuelta.

storage_options=None

Opciones adicionales relevantes para una conexión de almacenamiento específica, como host, puerto, nombre de usuario, contraseña, etc. Para las URL HTTP(S), los pares clave-valor se reenvían a urllib.request.Requestcomo opciones de encabezado. Para otras URL (por ejemplo, las que empiezan por "s3://" y "gcs://"), los pares clave-valor se reenvían a fsspec.open. Consulte fsspecy urllibpara obtener más detalles y ejemplos sobre opciones de almacenamiento, consulte aquí .

dtype_backend=<no_default>

Tipo de dato de back-end aplicado al resultado DataFrame (aún experimental). Si no se especifica, el comportamiento predeterminado es no usar tipos de datos que acepten valores NULL. Si se especifica, el comportamiento es el siguiente: "numpy_nullable": devuelve un tipo d respaldado por valores nullableDataFrame "pyarrow": devuelve un valor nulo respaldado por pyarrowArrowDtype DataFrame

Returns: DataFrame or TextFileReader A comma-separated values (csv) file is returned as two-dimensional data structure with labeled axes.

Se devuelve un archivo de valores separados por comas (csv) como una estructura de datos bidimensional con ejes etiquetados.

Juan Diego

student•

pd.Series es una estructura de datos unidimensional en Pandas que puede almacenar diferentes tipos de datos (números, cadenas, etc.). Cada elemento tiene un índice asociado, lo que permite acceder a los datos de manera intuitiva.

Por ejemplo, al crear una serie de edades:

import pandas as pd

edades = pd.Series([22, 24, 21], index=['John', 'Ana', 'Mike'])
print(edades)

Esto generaría:

John    22
Ana     24
Mike    21
dtype: int64

Aquí, puedes aplicar pd.Series en análisis de datos, como la creación de columnar en un DataFrame o para análisis estadísticos.

Yorgen Omar Marciales Parada

student•

Un DataFrame es una estructura bidimensional similar a una tabla, que puede contener múltiples columnas de diferentes tipos de datos. En cambio, una Serie es un objeto unidimensional que representa una sola columna de datos.

Se complementan porque un DataFrame está compuesto por varias Series. Por ejemplo, en un DataFrame con columnas como "ID", "Nombre" y "Edad", cada una de estas columnas es una Serie. Esto permite manipular y analizar grandes cantidades de datos de manera eficiente en Pandas.

Luis Rojas Puell

student•

Yo use la librería de KaggleHub.

import kagglehub
from kagglehub import KaggleDatasetAdapter

# Set the path to the file would you like to load
file_path_load = 'Online_Retail.csv'

# Load the latest version of the dataset
df = kagglehub.load_dataset(
  KaggleDatasetAdapter.PANDAS,
  "tunguz/online-retail",
  file_path_load,
  pandas_kwargs={"encoding": "ISO-8859-1"}
)

if __name__ == "__main__":
    print(f"Type of the dataset: {type(df)}")
    print(f"Print 5 records: {df.head()}")
```Creo que es mucho más rápido.

Nota: no olviden instalar la dependencia.

\>> pip install 'Kagglehub\[pandas-datasets]'

Pedro Matías Cuevas Meza

student•

Para crear el data frame desde un diccionario utilizando más de una fila de datos se puede hacer de esta forma

data = {'ID': [1,2], 'Name': ['Jhon', 'Anna'], 'Age': [22,24]}df_from_dict = pd.DataFrame(data)print(df_from_dict)

Samuel Zurisaday Rivera Bravo

student•

Por si les aparece error al hacer la lectura:

import pandas as pd

file_path = '/content/drive/MyDrive/Online_Retail.csv'

sales_data = pd.read_csv(file_path, encoding='utf-8') # o usa 'ISO-8859-1' si hay problemas con 'utf-8'

print(sales_data.head())

Daniel Andres Rojas Paredes

student•

WSL DATASETS EN WINDOWS

las rutas desde wsl se convierten al siguiente formato

C: pasa a ser /mnt/c

asi que si vas a cargar tu data set que esta endescargas desde un archivo de python en wsl ten esto en cuenta, ademas revisa los permisos que te saldran en la primera columna al correr en tu wsl terminal el comando ls -l

r : read

w: write

x: execute

primeras 3 letras son los permisos del dueño , segundas 3 letras los de otros usuarios, terceras tres letras los de todos los demas

Gabriel Obregón

student•

1. IMPORTAR Y LEER UN ARCHIVO CSV

import pandas as pd

file_path = '/content/online_retail.csv'

sales_data = pd.read_csv(file_path)

print(sales_data.head())

Explicación:

Este código importa la biblioteca pandas.
Lee un archivo CSV ubicado en /content/online_retail.csv en un DataFrame llamado sales_data.
El método head() se usa para mostrar las primeras 5 filas del conjunto de datos.

Salida: Si el archivo se carga correctamente, la salida mostrará las primeras 5 filas del CSV como una tabla con columnas y sus datos correspondientes.

2. CREAR UN DATAFRAME DESDE UN ARREGLO NUMPY

import numpy as np

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

df_from_array = pd.DataFrame(data, columns=['A', 'B', 'C'])

print(df_from_array)

Explicación:

Se crea un arreglo 2D de NumPy con valores numéricos.
Este arreglo se convierte en un DataFrame de pandas con los nombres de las columnas A, B y C.

Salida:

A B C

0 1 2 3

1 4 5 6

2 7 8 9

3. CREAR UN DATAFRAME DESDE UNA LISTA DE LISTAS

data = [[1, 'Jhon', 22], [2, 'Anna', 24]]

df_from_list = pd.DataFrame(data, columns=['ID', 'Name', 'Age'])

print(df_from_list)

Explicación:

Se define una lista de listas, donde cada lista interna representa una fila con ID, Name y Age.
Esta lista se convierte en un DataFrame de pandas con los nombres de las columnas especificadas.

Salida:

ID Name Age

0 1 Jhon 22

1 2 Anna 24

4. CREAR UN DATAFRAME DESDE UNA LISTA DE DICCIONARIOS

data = [{'ID': 1, 'Name': 'Jhon', 'Age': 22}]

df_from_dict_list = pd.DataFrame(data)

print(df_from_dict_list)

Explicación:

Se define una lista que contiene un único diccionario, donde cada diccionario representa una fila con claves como nombres de columnas y valores como datos.
Esto se convierte en un DataFrame de pandas.

Salida:

ID Name Age

0 1 Jhon 22

5. CREAR UN DATAFRAME DESDE UN DICCIONARIO

data = {

'ID': [1, 2, 3],

'Name': ['Jhon', 'Anna', 'Mike'],

'Age': [22, 24, 21]

}

df_from_dict = pd.DataFrame(data)

print(df_from_dict)

Explicación:

Se define un diccionario donde cada clave representa una columna, y el valor correspondiente es una lista que contiene los datos de la columna.
Esto se convierte en un DataFrame de pandas.

Salida:

ID Name Age

0 1 Jhon 22

1 2 Anna 24

2 3 Mike 21

6. CREAR UN DATAFRAME DESDE UN DICCIONARIO DE SERIES

data = {

'ID': pd.Series([1, 2, 3]),

'Name': pd.Series(['Jhon', 'Anna', 'Mike']),

'Age': pd.Series([22, 24, 21])

}

df_from_series_dict = pd.DataFrame(data)

print(df_from_series_dict)

Explicación:

Se crea un diccionario de Series de pandas. Cada clave representa una columna, y la Series contiene los datos de la columna.
Este diccionario se convierte en un DataFrame de pandas.

Salida:

ID Name Age

0 1 Jhon 22

1 2 Anna 24

2 3 Mike 21

GOOGLE DRIVE

from google.colab import drive

drive.mount('/content/drive')

file_path = "/content/drive/My Drive/online_retail.csv"

sales_data = pd.read_csv(file_path)

print(sales_data.head())

Explicación:

Importar el módulo de Google Drive:
- Se importa la biblioteca google.colab para interactuar con Google Drive.
Montar Google Drive:
- La función drive.mount() conecta Google Drive con el entorno de Colab, permitiendo el acceso a los archivos almacenados en Drive.
- La ruta /content/drive es la ubicación donde se monta Google Drive en el entorno de Colab.
Definir la ruta del archivo:
- La variable file_path almacena la ruta del archivo CSV objetivo almacenado en Google Drive: /content/drive/My Drive/online_retail.csv.
Leer el archivo CSV:
- La función pd.read_csv() (de pandas) se utiliza para cargar el archivo CSV ubicado en file_path en un DataFrame de pandas llamado sales_data.
Mostrar las primeras filas:
- El método head() del DataFrame muestra las primeras 5 filas del conjunto de datos, proporcionando una vista rápida de su estructura y contenido.

Elías Jesiel Martínez Hernández

student•

En pandas una serie es una estructura unidimensional. Es como una columna de datos.

Un dataframe es una estructura bidimensional como una tabla, compuesta por multiples series organizadas con indices tanto en filas como en columnas

Dayana Castillo

student•

Lo hice de esta forma:

Cristian Decaroli

student•

Serie: es una estructura de datos unidimensional, similar a una lista o array de una sola columna. Cada elemento en una Serie tiene un índice asociado, que por defecto es un número entero, pero puede personalizarse. Podrías pensarlo como una columna de un DataFrame.
Dataframe: es una estructura de datos bidimensional que puede considerarse como una tabla con filas y columnas, donde cada columna es una Serie. Es más versátil y se utiliza para almacenar y manipular datos tabulares.

Marina Barraza

student•

DataFrame es una estructura de datos bidimensional que se puede comparar con una tabla en una base de datos o una hoja de cálculo en Excel. Los DataFrames son útiles para manipular y analizar datos en Python.

Antonio Demarco Bonino

student•

A mi me gusta decir que Pandas es como "Excel con Esteroides"

Henry Mauricio Cepeda Chacon

student•

No crea,porque la parate analisis numerico la aporta es Numpy, por ende Excel tiene ya esas herramientas.....jejeje......mas bien es Python el que tiene un excel con esteroides porque puedes crear incluir estadisticas y analisis numerico con Numpy y Pandas e imagenes con MatplotLib...y la cereza en el paste es que Python permite crear una pagina web con django en la cual podemos mostrar todo desde un navegador.

Cristian Vallejos

student••

pandas.read_csv

Parametro

Explicación

filepath_or_buffer, *

sep=<no_default>

delimiter=None

Alias para sep.

header='infer'

names=<no_default>

index_col=None

usecols=None

dtype=None

engine=None

converters=None

Funciones para convertir valores en columnas específicas. Las claves pueden ser etiquetas o índices de columna.

true_values=None

Valores a tener en cuenta True además de las variantes de 'True' que no distinguen entre mayúsculas y minúsculas.

false_values=None

Valores a tener en cuenta False además de las variantes de 'False' que no distinguen entre mayúsculas y minúsculas.

skipinitialspace=False

Omitir espacios después del delimitador.

skiprows=None

skipfooter=0

Número de líneas al final del archivo que se omitirán (no compatible con engine='c').

nrows=None

na_values=None

keep_default_na=True

na_filter=True

Detecta marcadores de valores faltantes (cadenas vacías y el valor de na_values). En datos sin NAvalores, pasar valores na_filter=Falsepuede mejorar el rendimiento al leer archivos grandes.

skip_blank_lines=True

Si es así True, omita las líneas en blanco en lugar de interpretarlas como NaNvalores.

parse_dates=None

date_format=None

dayfirst=False

Fechas en formato DD/MM, formato internacional y europeo.

cache_dates=True

iterator=False

Devuelve TextFileReaderun objeto para iterar o obtener fragmentos con get_chunk().

chunksize=None

compression='infer'

thousands=None

Carácter que actúa como separador de miles en valores numéricos.

decimal='.'

Carácter a reconocer como punto decimal (por ejemplo, utilice "," para datos europeos).

lineterminator=None

Carácter utilizado para indicar un salto de línea. Válido únicamente con el analizador C.

quotechar='"'

Carácter utilizado para indicar el inicio y el final de un elemento citado. Los elementos citados pueden incluir el carácter "<sub>" delimitery se ignorarán.

quoting=0

doublequote=True

Cuando quotecharse especifica y quotingno se especifica QUOTE_NONE, indica si se deben interpretar o no dos quotecharelementos consecutivos DENTRO de un campo como un solo quotecharelemento.

escapechar=None

Personaje utilizado para escapar de otros personajes.

comment=None

encoding=None

Codificación para usar con UTF al leer/escribir (ej. 'utf-8'). Lista de codificaciones estándar de Python .

encoding_errors='strict'

Cómo se tratan los errores de codificación. Lista de valores posibles .

dialect=None

on_bad_lines='error'

low_memory=True

memory_map=False

float_precision=None

storage_options=None

dtype_backend=<no_default>

Returns: DataFrame or TextFileReader A comma-separated values (csv) file is returned as two-dimensional data structure with labeled axes.

Se devuelve un archivo de valores separados por comas (csv) como una estructura de datos bidimensional con ejes etiquetados.

import kagglehub
from kagglehub import KaggleDatasetAdapter

# Set the path to the file would you like to load
file_path_load = 'Online_Retail.csv'

# Load the latest version of the dataset
df = kagglehub.load_dataset(
  KaggleDatasetAdapter.PANDAS,
  "tunguz/online-retail",
  file_path_load,
  pandas_kwargs={"encoding": "ISO-8859-1"}
)

if __name__ == "__main__":
    print(f"Type of the dataset: {type(df)}")
    print(f"Print 5 records: {df.head()}")
```Creo que es mucho más rápido.

Nota: no olviden instalar la dependencia.

\>> pip install 'Kagglehub\[pandas-datasets]'

Creación de DataFrames con Pandas en Python

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Manipulación de Arrays NumPy para Análisis de Datos en Python

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Operaciones con Arrays en NumPy: Broadcasting, Concatenación y Más

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Operaciones de Álgebra Lineal con NumPy en Python

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames