No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Desarrollo de pipeline de reentrenamiento: preparaci贸n de la data

11/24
Recursos

Aportes 7

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Si alguien le cost貌 trabajo como a m矛, les dejo una opci贸n m谩s sencilla me parece que tiene el mismo ejemplo y usamos los mismos pasos que seguimos con git pero ahora con dvc por lo que me parece m谩s intuitivo, lo dejo solo con el ejemplo del Dataset financias pero se puede replicar a lo dem谩s.
dvc remote add -d remote_data_storage gs://ml-ops-fundamentals-bucket/DVC_DATA
dvc add data/finantials.csv
dvc push
git add data/finantials.csv.dvc
from dvc import api
import pandas as pd
finantials_path = api.get_url(鈥榙ata/finantials.csv鈥)
df = pd.read_csv(finantials_path)
print(df)

decir tambi茅n que los datos se suben cifrados y se descifran al hacer el llamado a la api es normal que vean archivos extra帽os en Google Cloud

Advertencia, lo que el profesor hizo genera problemas. Le铆 lo que dice Gerardo en Aportes, pero le interpret茅 mal su sugerencia, pero la de 茅l es mucho mejor que la del profesor. El problema es que el dvc add del profesor no genera la etiqueta 鈥渕d5鈥. Si no quieren perder tiempo, les sugiero estos pasos:

Agregar los archivos sin usar --to-remote

dvc add dataset/finantials.csv
dvc add dataset/opening_gross.csv
dvc add dataset/movies.csv

dvc add model/model.pkl

Pushear al remoto

dvc push dataset/finantials.csv -r dataset-track
dvc push dataset/opening_gross.csv -r dataset-track
dvc push dataset/movies.csv -r dataset-track

dvc push model/model.pkl -r model-track

versi贸n simple (sin completar) del prepare.py:

from dvc import api
import pandas as pd


finantials_data_path = api.get_url("dataset/finantials.csv", remote="dataset-track")
finantials_df = pd.read_csv(finantials_data_path)

si tienen un error:

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 19973: character maps to <undefined>

deberan agregar el encoding utf8 aqui:

movie_data_path = api.read('dataset/movies.csv', remote='dataset-track', encoding="utf8")

Despu茅s de mucho me divierto tanto con un curso, me gustar铆an m谩s cursos con la tem谩tica de MLOps (uno intermedio e incluso alguno avanzado).

este curso me esta gustando mucho. Es muy 煤til y pr谩ctico para el entorno laboral. Muchas personas necesitan saber esto!

A mi me funciono todo tal cual el profesor lo hizo. Solo tengo una consulta, para que sirve el logging. LO unico que tuve que cambiar es el formato utf cuando usas api.read, como parametro le ponen utf-8.

finantials_data_path = api.read('dataset/finantials.csv', remote='dataset-track', encoding='utf-8')

El curso hasta ahorita si vale la pena y si bien podr铆a mejorar, porque yo no lo estoy haciendo con cloud si no AWS sin partes como esta y los comentarios estar铆a perdido