No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Conociendo datasets para manejo de datos faltantes

3/21
Recursos
https://nrvis.com/data/mldata/pima-indians-diabetes.csv

names=[
        "pregnancies",
        "glucose",
        "blood_pressure",
        "skin_thickness",
        "insulin",
        "bmi",
        "diabetes_pedigree_function",
        "age",
        "outcome",
    ]

Aportes 10

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Si depronto alguien lo esta haciendo en jupyter notebook y le sale que no reconoce al comando wget, la libreria urllb puede hacer lo mismo que wget
Primer paso crea la carpeta data
2.

import urllib.request
url = pima_indians_diabetes_url
filename = "./data/pima-indians-diabetes.csv"
urllib.request.urlretrieve(url, filename)

Conociendo nuestro datasets para manejo de datos faltantes

Descarga de archivos mediante una URL en el Notebooks

  • Guardar la url en una variable
nombre_variable = "URL"
  • Utiliza la linea de comandos desde el notebooks para descargar los datos
!wget -O ./data/pima-indians-diabetes.csv { nombre_variable } -q
#!linea de comandos
# wget-comando para descargar datos
# -O 
# ruta para almacenar los datos + nombre
# {URL} 
# -q para que no muestre la descarga

Descarga de varios archivos desde una URL

  • Crea unidades de informacion de los conjuntos de Datos
#Guarda la URL en una variable
base_url = "https://github.com/njtierney/naniar/raw/master/data/"
#Guarda los nombres de los archivos a descargar en una lista 
datasets_names = ("oceanbuoys", "pedestrian", "riskfactors")
#Guarda la extension de los archivos en una variable
extension = ".rda"
  • Descarga y carga los conjuntos de datos en un dataset
datasets_dfs = {} # diccionario para almacenar lor archivos

for dataset_name in datasets_names:

    dataset_file = f"{ dataset_name }{ extension }"
    dataset_output_file = f"./data/{ dataset_file }"
    dataset_url = f"{ base_url }{ dataset_file }"
    
    !wget -q -O { dataset_output_file } { dataset_url } #linea de comando para descargar

    datasets_dfs[f"{ dataset_name }_df"] = pyreadr.read_r(dataset_output_file).get(dataset_name)

datasets_dfs.keys()
  • Incluir el conjunto de datos en nuestro ambiente local
locals().update(**datasets_dfs)
del datasets_dfs
  • Verificar que hayan cargado
oceanbuoys_df.shape, pedestrian_df.shape, riskfactors_df.shape, diabetes_df.shape

Me encantan los cursos de Jesús, siempre nos enseña herramientas nuevas en sus cursos. Presenta el contenido del curso y siempre aporta un valor adicional.

Copien y peguen

base_url = "https://github.com/njtierney/naniar/raw/master/data/"
datasets_names = ("oceanbuoys", "pedestrian", "riskfactors")
extension = ".rda"

hice el duplicate en deepnote pero ya todas las lineas de comando estaban hechas

tuve que poner la clase en 0.5x va mas rapido que el mismo toreto en rapido y furioso 10

Para descargar y cargar varios conjuntos de datos con wget en un bucle for:

datasets_dfs = {}

for dataset_name in datasets_names:

    dataset_file = f"{ dataset_name }{ extension }"
    dataset_output_file = f"./data/{ dataset_file }"
    dataset_url = f"{ base_url }{ dataset_file }"
    
    wget.download(dataset_url, dataset_output_file )
    ##!wget -q -O { dataset_output_file } { dataset_url }

    datasets_dfs[f"{ dataset_name }_df"] = pyreadr.read_r(dataset_output_file).get(dataset_name)

datasets_dfs.keys()

Otra alternativa para descargar el archivo de la web sería:

# !pip install wget

import wget 

pima_indians_diabetes_url = "https://nrvis.com/data/mldata/pima-indians-diabetes.csv"
destination = './data/pima-indians-diabetes.csv'

url = wget.download(pima_indians_diabetes_url, destination )

Me esta gustando mucho este curso, pocos de ellos hablan de datos faltantes, que bueno que hicieron uno especializado.

datasets_dfs = {}

for dataset_name in datasets_names:
    dataset_file = f"{ dataset_name }{ extension }"
    dataset_output_file = f"./data/{ dataset_file }"
    dataset_url = f"{ base_url }{ dataset_file }"
    
    !wget -q -O {dataset_output_file} {dataset_url}
    
    datasets_dfs[f"{dataset_name}_df"] = pyreadr.read_r(dataset_output_file).get(dataset_name)
datasets_dfs.keys()