Framework de ciencia de datos: herramientas para machine learning

2/16
Recursos
Transcripci贸n

Refuerza y practica tu ingl茅s con los cursos de English Academy 馃殌
Screenshot 2023-10-19 at 11.56.36鈥疉M.png

Aportes 19

Preguntas 8

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

The data science process


About feature engineering

Feature engineering is extracting relevant information from data regarding to the field it belongs.

I recommend you reading this book: https://www.repath.in/gallery/feature_engineering_for_machine_learning.pdf

I think if you wanna do a course in english, do completly in english and no the video in spanish and the speaker in english.

Data science framework

Terminolog铆a:

Data/Datos: unidades de informaci贸n o 鈥渉echos鈥 de observaciones.
Features: tipos de informaci贸n acerca de tus observaciones.
Filas: observaciones individuales o muestras.
Columnas: features que describen tus observaciones.
Outlier: punto(s) de datos o data point(s) que se comporta de forma extra帽a.
Pre-processing: preparar datos para su uso en un modelo de machine learning.
ETL pipeline: framework de data science para extraer, transformar y cargar.
un dataset com煤nmente viene en forma de tabla y tienen 2 componentes:
fila: es un registro, un datapoint. ejemplo: datos de un paciente en un hopital, datos de una cuenta de banco de un cliente. com煤nmente tienen un ID asignado.
columna: es una caracter铆stica de la informaci贸n, cada columna tiene un nombre. En ML supervisado siempre tendremos una columna target (output), que muestra la variable a predecir. y las dem谩s columnas nos servir谩n como input para poder predecir. ejemplo: input= nivel de az煤car en sangre, presi贸n arterial. output = paciente con o sin diabetes.

Tipos de datos

Num茅ricos: su feature es un n煤mero de tipo entero o flotante.
Categ贸rica: sus features representan una clase o tipo; usualmente se representan como un mapeo de n煤meros o un 鈥渙ne-hot鈥 vector.
Image: su feature representa una imagen.
Texto: su feature es en la forma de texto, sea corto (como Twitter) o largo (como en noticias).
NaN: su feature es desconocido o perdido.
Convertir datos categ贸ricos en etiquetas
los modelos de ML no pueden manejar strings(palabras) solo entienden n煤meros, as铆 que si queremos suministrar una variable categ贸rica a un modelo, primero debemos

transformarla a n煤mero.

podr铆amos asignar un id a cada categoria y listo pero los modelos no manejan bien las relaciones de los datos en esta forma de c贸digo, la forma mas optima de hacer esta conversi贸n es mediante 1-hot encoding el cual asigna a cada categor铆a un vector que se diferencia de los dem谩s por la posici贸n de un 1 en el vector, ejemplo:
鈥淪I鈥 > (1,0,0)
鈥淣O鈥 > (0,1,0)
鈥渢alvez鈥 > (0,0,1)

Pandas

esta librer铆a es la ideal para cargar y entender tus datos. los comandos mas basicos son:
pd.read_csv(): Leer un archivo CSV
df.head(): Muestra las primeras 5 filas
df.dtypes: Muestra el tipo de representaci贸n de los datos (float, int, object)

Visualizando tus datos

los gr谩ficos m谩s famosos para analizar tus datos son:
Histogramas: Te dice qu茅 tan 鈥渇recuentes鈥 y distribuidos son ciertos valores en tus datos.
Gr谩ficas de dispersi贸n: Muestra la relaci贸n entre 2 features grafic谩ndolos como pares ordenados. Te puede ayudar a detectar anomal铆as.

Pandas realmente es Amor a primer c贸digo. Es una verdadera seda para los dedos junto con Seaborn.

Aqu铆 tienes algunos de los frameworks m谩s populares:

scikit-learn:

  • Es una biblioteca de aprendizaje autom谩tico en Python que proporciona una amplia gama de algoritmos de aprendizaje supervisado y no supervisado, as铆 como herramientas para la selecci贸n de caracter铆sticas, preprocesamiento de datos, evaluaci贸n de modelos y m谩s. Es uno de los frameworks m谩s utilizados debido a su simplicidad y eficiencia.

  • TensorFlow: Desarrollado por Google, TensorFlow es una biblioteca de c贸digo abierto que permite construir y entrenar modelos de aprendizaje autom谩tico utilizando redes neuronales y otros algoritmos. Est谩 dise帽ado para ser flexible y escalable, y se utiliza ampliamente en tareas de aprendizaje profundo (deep learning). TensorFlow ofrece APIs para varios lenguajes de programaci贸n, incluyendo Python y C++.

Keras:

  • Keras es una API de alto nivel escrita en Python que se ejecuta sobre TensorFlow (tambi茅n puede funcionar sobre otros frameworks de aprendizaje profundo como Theano o Microsoft Cognitive Toolkit). Proporciona una interfaz sencilla y f谩cil de usar para crear y entrenar redes neuronales, lo que la convierte en una opci贸n popular para principiantes en el aprendizaje profundo.

PyTorch:

  • PyTorch es otro framework popular para el aprendizaje profundo que proporciona una interfaz flexible y din谩mica para construir y entrenar modelos. Es conocido por su facilidad de uso y su capacidad para realizar c谩lculos en tiempo real, lo que lo hace adecuado para aplicaciones en tiempo real. PyTorch tambi茅n tiene una gran comunidad y est谩 respaldado por Facebook.

Apache Spark:

  • Spark es un framework de procesamiento distribuido dise帽ado para el an谩lisis de grandes vol煤menes de datos. Proporciona un conjunto de bibliotecas y APIs en varios lenguajes, incluyendo Python y Scala. Spark MLlib es la biblioteca de machine learning de Spark, que ofrece algoritmos de aprendizaje autom谩tico escalables y herramientas para el procesamiento de datos en paralelo.

H2O:

  • H2O es una plataforma de c贸digo abierto para el an谩lisis de datos y el desarrollo de modelos de aprendizaje autom谩tico. Proporciona una interfaz f谩cil de usar para construir, entrenar y evaluar modelos, y es compatible con varios lenguajes de programaci贸n, incluyendo Python y R. H2O tambi茅n ofrece capacidades de procesamiento distribuido y se integra bien con otros frameworks de aprendizaje autom谩tico como scikit-learn y TensorFlow.

Estas son solo algunas de las herramientas y frameworks disponibles para el desarrollo de proyectos de machine learning en la ciencia de datos. La elecci贸n de la herramienta depende del tipo de proyecto, los requisitos espec铆ficos y las preferencias personales.

I think this lesson should be two, one for explain data and the other related to Pandas, there is not a trouble about that, but I think is not correct to teach a practical lesson as a theoretical lesson 馃槮

these classes is a basic example of how to study in london, usa, canada, australia,

EXCELENTE INGLES !!!

I consider necesary to implementing a model to practice in this education videos, but is good, i can understand the concepts because in the last time, i was learn in my college. Greatings.

CSV : Comma Separeted Value File (Archivo separado por comas)

Me cansa que sea en ingles ajajajajja ay

realmente necesitaba un curso as铆. Me encanta su pronunciaci贸n. Me ayuda en lo t茅cnico y en la pr谩ctica del ingl茅s
My mind is still struggling al leer en espa帽ol y escuchar en English.
1. **Terminolog铆a:** * Data/Datos: unidades de informaci贸n o 鈥渉echos鈥 de observaciones. * Features: tipos de informaci贸n acerca de tus observaciones. * Filas: observaciones individuales o muestras. * Columnas: features que describen tus observaciones. * Outlier: punto(s) de datos o data point(s) que se comporta de forma extra帽a. * Pre-processing: preparar datos para su uso en un modelo de machine learning. * ETL pipeline: framework de data science para extraer, transformar y cargar. 2. **Componentes de un dataset:** * Un dataset com煤nmente viene en forma de tabla con dos componentes: * Fila: es un registro, un datapoint (por ejemplo, datos de un paciente en un hospital o datos de una cuenta bancaria). * Columna: es una caracter铆stica de la informaci贸n, cada columna tiene un nombre. 3. **Tipos de datos:** * Num茅ricos: features que son n煤meros enteros o flotantes. * Categ贸rica: features que representan una clase o tipo, a menudo se representan como un mapeo de n煤meros o un "one-hot" vector. * Image: features que representan una imagen. * Texto: features en forma de texto, ya sea corto (como Twitter) o largo (como en noticias). * NaN: features con datos desconocidos o perdidos. 4. **Transformaci贸n de datos categ贸ricos:** * Los modelos de ML no pueden manejar strings, por lo que es necesario transformar variables categ贸ricas a n煤meros. * Se sugiere el uso de "1-hot encoding" para esta conversi贸n. 5. **Ejemplo de "1-hot encoding":** * Asignar a cada categor铆a un vector que se diferencia de los dem谩s por la posici贸n de un 1 en el vector. 6. **Pandas:** * Librer铆a ideal para cargar y entender datos. * Comandos b谩sicos incluyen pd.read\_csv(), df.head(), df.dtypes. 7. **Visualizando tus datos:** * Histogramas: indican la frecuencia y distribuci贸n de ciertos valores en tus datos. * Gr谩ficas de dispersi贸n: muestran la relaci贸n entre 2 features grafic谩ndolos como pares ordenados, 煤til para detectar anomal铆as.

Me esta gustando esta clase a pesar de estar en ingles. Me ayuda a aprender y conocer mas de este idioma para aplicarlo en el mundo.

Alguien me puede explicar 茅sto? ![](https://static.platzi.com/media/user_upload/image-bfc6a214-e963-4b66-95a6-06ceadcec6a4.jpg) No le entiendo a lo que quiso decir.

Ciencia de Datos:

Datos: Son como informaci贸n en forma de n煤meros o palabras.
Features (Caracter铆sticas): Son cosas sobre las que queremos aprender.
Filas y Columnas: Filas son como las personas en una lista, y columnas son las cosas que queremos saber sobre esas personas.
Valores At铆picos: Son cosas extra帽as o errores en los datos.
Preprocesamiento: Es arreglar los datos para que sean 煤tiles.
Tipos de Datos: Son diferentes maneras en que los datos pueden verse, como n煤meros o palabras.
NaN (No es un n煤mero): Es cuando falta informaci贸n en los datos.
Machine Learning:

One Hot Encoding: Es convertir palabras en n煤meros para que las computadoras las entiendan.
Pandas: Es una herramienta de computadora que ayuda a trabajar con datos.
Histograma: Es un gr谩fico que muestra cu谩ntas veces ocurre algo.
Gr谩fico de Dispersi贸n: Muestra c贸mo dos cosas est谩n relacionadas entre s铆.
Distribuci贸n: Cu谩ntas veces ocurre algo en los datos.
Valores At铆picos (en el contexto de Machine Learning): Cosas extra帽as en los datos que pueden confundir a las computadoras.
T茅rminos Adicionales:

Feature de Entrada: Es una cosa que usamos para adivinar algo.
Objetivo de Salida: Es lo que intentamos adivinar.
Tipo de Datos Num茅ricos: Son n煤meros.
Tipo de Datos Categ贸ricos: Son palabras que se convierten en n煤meros.
Dataframe: Es como una tabla con filas y columnas para organizar los datos.
Hot Encoder: Es una forma de convertir palabras en n煤meros de una manera especial.

The model will be as good as the data
馃挆馃挆