No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Aprende Inglés, Programación, AI, Ciberseguridad y más a precio especial.

Antes: $249

Currency
$209
Suscríbete

Termina en:

2 Días
21 Hrs
44 Min
56 Seg

¿Qué es DVC y por que lo utilizaremos?

8/24
Recursos

Aportes 6

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Herramientas para ML Data Versioning:
● Neptune
● Pachyderm
● Delta Lake
● Git LFS
● DoIt
● lakeFS
● DVC
● ML-Metadat

En resumen

En muchos proyectos tenemos un modelo.py (con el codigo python  del modelo) y un archivo modelo.pkl con el modelo empaquetado. git queda tiene problemas al tratar con archivos pesados como el .pkl así que DVC simplemente crea un archivo que referencia al modelo (model.pkl.dvc), el cual no pesa prácticamente nada.
Entonces versionaremos este model.pkl.dvc y train.py en git, mientras dvc se encarga de versionar el model.pkl (que pesa 500mb!) guardándolo en un almacenamiento de la nube. Lo mismo podríamos hacer con datasets. 

link de referencia

No es mucho, pero creo que esta clase debería estar antes que la anterior!

como trackeo mis modelos? como todo un payaso =D por eso estamos aqui aprobechando el platzi day!

# Algunas razones por las que se utiliza DVC: 1. **Seguimiento de cambios en datos y modelos**: DVC permite realizar un seguimiento de versiones de datos y modelos, lo que facilita la colaboración en proyectos de ML y garantiza la reproducibilidad de los resultados. 2. **Gestión de grandes conjuntos de datos**: Cuando trabajas con conjuntos de datos grandes que no pueden ser versionados directamente por Git, DVC te permite versionar los metadatos de los archivos, como su ubicación y características, manteniendo un control eficiente de versiones. 3. **Reproducibilidad**: Al versionar tanto los datos como los modelos, DVC asegura que puedas reproducir experimentos y resultados en cualquier momento, incluso en entornos diferentes. 4. **Optimización del espacio de almacenamiento**: DVC utiliza enlaces simbólicos y almacenamiento de metadatos para minimizar el uso de espacio en disco al versionar grandes conjuntos de datos. 5. **Gestión de flujos de trabajo**: DVC permite definir flujos de trabajo complejos para la preparación de datos, entrenamiento de modelos, evaluación y despliegue, facilitando la automatización y organización de tareas en proyectos de ML. DVC es una herramienta poderosa para la gestión de versiones de datos y modelos en proyectos de aprendizaje automático, garantizando la reproducibilidad, la colaboración y la organización de flujos de trabajo complejos.

He usado Git LFS, ya que una vez requeri subir unos .csv que pesaban casi 100MB