No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Desarrollo de pipeline de reentrenamiento: preparación de la data

11/24
Recursos

Aportes 7

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Si alguien le costò trabajo como a mì, les dejo una opción más sencilla me parece que tiene el mismo ejemplo y usamos los mismos pasos que seguimos con git pero ahora con dvc por lo que me parece más intuitivo, lo dejo solo con el ejemplo del Dataset financias pero se puede replicar a lo demás.
dvc remote add -d remote_data_storage gs://ml-ops-fundamentals-bucket/DVC_DATA
dvc add data/finantials.csv
dvc push
git add data/finantials.csv.dvc
from dvc import api
import pandas as pd
finantials_path = api.get_url(‘data/finantials.csv’)
df = pd.read_csv(finantials_path)
print(df)

decir también que los datos se suben cifrados y se descifran al hacer el llamado a la api es normal que vean archivos extraños en Google Cloud

Advertencia, lo que el profesor hizo genera problemas. Leí lo que dice Gerardo en Aportes, pero le interpreté mal su sugerencia, pero la de él es mucho mejor que la del profesor. El problema es que el dvc add del profesor no genera la etiqueta “md5”. Si no quieren perder tiempo, les sugiero estos pasos:

Agregar los archivos sin usar --to-remote

dvc add dataset/finantials.csv
dvc add dataset/opening_gross.csv
dvc add dataset/movies.csv

dvc add model/model.pkl

Pushear al remoto

dvc push dataset/finantials.csv -r dataset-track
dvc push dataset/opening_gross.csv -r dataset-track
dvc push dataset/movies.csv -r dataset-track

dvc push model/model.pkl -r model-track

versión simple (sin completar) del prepare.py:

from dvc import api
import pandas as pd


finantials_data_path = api.get_url("dataset/finantials.csv", remote="dataset-track")
finantials_df = pd.read_csv(finantials_data_path)

si tienen un error:

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 19973: character maps to <undefined>

deberan agregar el encoding utf8 aqui:

movie_data_path = api.read('dataset/movies.csv', remote='dataset-track', encoding="utf8")

Después de mucho me divierto tanto con un curso, me gustarían más cursos con la temática de MLOps (uno intermedio e incluso alguno avanzado).

este curso me esta gustando mucho. Es muy útil y práctico para el entorno laboral. Muchas personas necesitan saber esto!

A mi me funciono todo tal cual el profesor lo hizo. Solo tengo una consulta, para que sirve el logging. LO unico que tuve que cambiar es el formato utf cuando usas api.read, como parametro le ponen utf-8.

finantials_data_path = api.read('dataset/finantials.csv', remote='dataset-track', encoding='utf-8')

El curso hasta ahorita si vale la pena y si bien podría mejorar, porque yo no lo estoy haciendo con cloud si no AWS sin partes como esta y los comentarios estaría perdido