Procesamiento y Escalamiento de Datos Numéricos en Python

Clase 16 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Resumen

¿Cómo procesar datos numéricos en Python utilizando escalamiento?

El procesamiento de datos numéricos en Python es crucial para mejorar la eficacia de los modelos de aprendizaje automático. El uso adecuado de técnicas de escalamiento puede facilitar la convergencia de algoritmos, lo que aumenta la eficiencia y precisión de los modelos. En esta sección, exploraremos cómo implementar algunas de las técnicas de escalamiento en Python.

¿Qué librerías y herramientas se utilizan?

Antes de iniciar, es necesario configurar el entorno de desarrollo con las herramientas adecuadas. Esto incluye:

DeepNote: Para trabajar en un notebook interactivo.
Librerías de Python: Se utilizan numpy, matplotlib, y scikit-learn.
TimeIT: Medir el rendimiento de los modelos.

Ejemplo de código para importar las librerías necesarias:

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, linear_model
import timeit

¿Cómo aplicar la regla de escalamiento máximo-mínimo?

El escalamiento máximo-mínimo se utiliza para normalizar los datos dentro de un rango específico. Esta transformación ayuda a que los algoritmos de aprendizaje automático converjan más rápido. A continuación se presentan los pasos básicos para aplicar este método:

Calcular el máximo y mínimo de los datos crudos:

max_raw = np.max(raw_data)
min_raw = np.min(raw_data)

Escalar los datos con la fórmula especificada:

scaled_data = (2 * (raw_data - min_raw) / (max_raw - min_raw)) - 1

Visualizar los datos originales y escalados:

Utilizar matplotlib para graficar los histogramas y comparar las distribuciones:

fig, axs = plt.subplots(2, sharex=True)
axs[0].hist(raw_data, bins=30)
axs[1].hist(scaled_data, bins=30)
plt.show()

¿Cómo medir el tiempo de ejecución de los modelos?

Medir el tiempo de ejecución es vital para evaluar el rendimiento de los modelos ajustados a diferentes datos. Utilizamos la librería timeit para este propósito:

Definir funciones para entrenar el modelo:

def train_raw():
    model = linear_model.LinearRegression()
    model.fit(raw_data, target)

def train_scaled():
    model = linear_model.LinearRegression()
    model.fit(scaled_data, target)

Calcular y comparar el tiempo de entrenamiento:

raw_time = timeit.timeit(train_raw, number=100)
scaled_time = timeit.timeit(train_scaled, number=100)

print(f"Tiempos de entrenamiento: Raw: {raw_time}, Scaled: {scaled_time}")

¿Cómo aplicar la normalización z y cuándo utilizarla?

La normalización z transforma los datos restando el promedio y dividiendo por la desviación estándar. Es recomendable para datos con distribución aproximadamente normal.

Aplicar normalización:

mean_raw = np.mean(raw_data)
std_raw = np.std(raw_data)
normalized_data = (raw_data - mean_raw) / std_raw

Visualizar resultados:

Crear histogramas para visualizar la normalización z:

fig, axs = plt.subplots(2, sharex=True)
axs[0].hist(raw_data, bins=30)
axs[1].hist(normalized_data, bins=30)
plt.show()

¿Cómo manejar transformaciones no lineales?

Cuando los datos están fuertemente sesgados, las transformaciones no lineales pueden ser efectivas para rediseñar las distribuciones:

¿Qué es la transformación Tangente Hiperbólica?

La tangente hiperbólica es una función utilizada para redistribuir datos de manera más uniforme:

Aplicar sobre datos sesgados:

price_data = pd.read_csv('car_prices.csv')['Price']
price_transformed = price_data.apply(lambda x: np.tanh(x/10000))

Visualizar la transformación:

Generar el histograma del resultado:

plt.hist(price_transformed, bins=30)
plt.show()

Estas herramientas y técnicas son esenciales para cualquier científica de datos que desea mejorar la efectividad de los modelos de aprendizaje automático. El dominio profundo de estos conceptos proporciona una base sólida para abordar problemas más complejos de procesamiento de datos numéricos. Recuerda explorar la extensa documentación de scikit-learn para seguir ampliando tus conocimientos y habilidades. ¡Sigue aprendiendo y experimentando con estos emocionantes conceptos!

Comentarios

Lizandro José Ramírez Difo

student•

La transformación: raw = X[:, None, 2]

Esta transformación puede crear un poco de confusión si no conoces algunos detalles sobre NumPy. Para las dudas te detallo un poco que hizo en esta línea de código.

Note: X tiene un shape de (442, 10) para nuestro estudio solo necesitamos una columna, buscamos tener un raw con shape (442, 1)

: toma todas las columnas y filas.
None indica la transformación del arreglo (newaxis)
2 Selecciona la 3ra columna de X.

Más información sobre Numpy Newaxis

Javier Pajarito Caicedo

student•

Muchas gracias Lizandro, buena explicación que me sirve muchísimo. 👍

Lizandro José Ramírez Difo

student•

De nada.

ANA PAOLA HUACASI MONGE

student•

Debería explicar mejorar cada línea de código.

Luis Ángel Pérez Meléndez

student•

con cuerdo, no logro seguir la clase

Natacha Chiaravalloti

student•

sisi, por mas que no sea una clase de python la verdad es q es imposible de seguir

Sebastian Calderón Araque

student•

Para tener un contexto de qué son los datos con los que estamos trabajando.

Tenemos un set de datos de 442 pacientes de diabetes. Se tienen 10 columas con los datos de "age, sex, body mass index, average blood pressure, and six blood serum measurements". Estos datos corresponde a las variable que llamamos "X". La variable "y" corresponde a "a quantitative measure of disease progression one year after baseline".

https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset

al ejecutar la linea

raw = X[:, None, 2]

estamos tomando solo la columna del índice de masa corporal.

Los datos del dataset ya vienen pre-escalados y centrados en la media.

Si graficamos los datos con un Scatterplot vemos que hay cierta relación entre el índice de masa corporal y la progresión de la enfermedad, por eso es que realizamos una regresión lineal, para predecir que tan avanzada está la enfermedad a partir del índice de masa corporal.

Carlos Alfredo Chire Chanji

student•

Muchas gracias.

Alejandro Velasquez

student•

Gracais, al fin entendí el ejercicio, tuve que repetir 3 veces la clase porque me perdía.

Brayan Alexis Lechon Andrango

student•

reto

para lograr la estandarización con z score encontré tres formas: la primera aplicando la formula directamente a los datos

z_score=(raw -np.mean(raw))/np.std(raw)  #zcore aplicando la formula

la segunda usando la libreria de scipy

import scipy.stats as stats
zz_score=stats.zscore(raw)            #zscore usando scipy stats

la tercera usando preprocessing de sklearn, para este caso hay que primero asignar el modelo y después "entrenarlo"

from sklearn import preprocessing
z_sc=preprocessing.StandardScaler()
zzz_score=z_sc.fit_transform(raw)        #zscore usando sklearn preprocessing

con todos los casos obtuve el mismo resultado

los tiempos para cada caso

Aaron Fabrizio Calderon Guillermo

student•

El método 1 de estandarización siempre me demora más, según mis resultados, ¿por qué será?

train raw: 0.04765526799928921
train scaled 1: 0.047811464999540476
train scaled 2: 0.039637795998714864
train scaled 3: 0.04278973699911148

Oscar Orlando Manrique Sanchez

student•

Excelente aporte, demuestra que al utilizar directamente la librería el tiempo disminuye bastante respecto al utilizar la formula.

Juan García Bauzá

student•

Para los que no entiendan porque X está definida con mayúscula e y con minúscula, es porque esta convención viene del álgebra, donde X es una matriz, y a las matrices se la denominan con mayúsculas, e y es un vector, y los vectores se lo denominan en minúsculas.

Juan Diego

student•

No me acordaba, gracias

Francisco José Bohórquez Torres

student•

Leyendo la documentación del dataset que se usa para la clase encontré que el dataset ya ha sido escaldo previamente. .

. Por esta razón me empecé a preguntar si realmente los escalamientos realizados en la clase eran útiles sobre data que ha sido escalada previamente. Así que descargué el dataset original, el cual se pude encontrar aquí. . Para importar la información, pasé los datos a un archivo csv y lo importé en deepnote usando Pandas. En ese momento vi claramente la diferencia entre los datos del dataset que nos ofrece scikitLearn y el original. La variable del dataset que se usa en la clase es el índice de masa corporal (o BMI por sus siglas en inglés).

Aquí se puede ver claramente que los datos de SciKitLearn tienen un tratamiento previo. . Lo siguiente que hice fue volver a hacer el proceso de tratamiento de datos para los datos originales.

Aquí se puede ver cómo efectivamente los datos de un rango mayor es reducido y centrado en 0, tanto por el escalamiento min_max como por el z-score. . Posteriormente hice la comparación en el entrenamiento con estos nuevos datos y los resultados son evidentes:

. Mi conclusión personal, es que hay que ser más críticos con los datos que estamos tratando y siempre verificar las fuentes y la documentación :)

Joel Blanco

student•

Impresionado, gracias por compartirlo.

Entre a la web que compartiste y si borras algunas direcciones llegas a más ejemplos de datos. https://www4.stat.ncsu.edu/~boos/var.select/

andres Ortiz Barrios

student•

buenas tardes, como hiciste para convertir el archivo txt a csv?? yo encontre una pagina en internet pero al convertirlo no aparecen ordenados y todos las filas aparecen agrupadas en una celda. tu configuraste el archivo antes?

DIEGO ALEXANDER CASTELLANOS SANTAMARIA

student•

genial la clase, tuve que verla 2 veces por que me sentia confundido pero ya pude entender el ejemplo!

Miguel Angel Sierra Ruíz

student•

La neta sí estuvo bien densa la clase. Yo también tendré que echarmela al menos una segunda vez

Esmeralda Palacios

student•

yo igual 2 veces y a velocidad normal, ahora toca ver toooda la documentación que menciona, y practicar, si no no sirve jaja

Alfonso Andres Zapata Guzman

student•

Vengo yo al rescate:

Hay un poco de confusion respecto a que fue lo que se realizo con las siguientes dos lineas de codigo:

X, y = datasets.load_diabetes(return_X_y=True) raw = X[:, None, 2]

Con la primera como ya han explicado, se uso una notacion del algebra en que se dispone que la X sea mayuscula y la y sea minuscula, esto por que se realizo de esta manera? solo por convencion. Que es una convencion? es un metodo de hacer las cosa que es aceptado por todos y que aunque puede no realizarse asi, aun se realiza de este modo para que todos podamos entender (en este caso el codigo hecho por los demas), un ejemplo de una convencion es no cruzar la calle cuando el semaforo esta en rojo. Tambien recuerden que en python igualmente asi se coloque una variable con mayuscula/as esta no se vuelve una constante como sucede en otros lenguajes, sino que igualmente por convencion se asume que es una constante, pero si se modifica su valor este cambiara sin problema alguno. Puede que de alli provenga la confusion de algunos al haberse usado esta notacion. Puede tambien que al ver la "coma" luego de esta "X" mayuscula, y ver representada la variable "y" se confundan aun mas, pero en python puede realizarse la asignacion de variables de esta manera,

Si yo coloco: a, b = 1, 2 ### 1,2 = (1, 2), es decir pasamos una tupla print(f'Valor de a es {a} y Valor de b es {b}')

Visualizaran que de salida arroja esto: Valor de a es 1 y Valor de b es 2

Cuidadito con esas bases de python de algunos.

Ahora veamos que a la variable 'X' e 'y' se le asignaron valores de esta tabla que fue la que usamos: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt

"X" toma el valor de lo que parece ser un array de arrays, esto por la notacion array ([[ con que comienza y el ]]) con que termina. Algunos diran, oye pero dentro de este array de array hay unos datos bien raros que son: array([[ 0.06169621], [-0.05147406], [ 0.04445121]... etc ... ]]]) Esto es porque alguien ya trato los datos de donde los estamos obteniendo y aplico los procesos que hemos venido haciendo, no mentire, esta tarde y no me acuerdo como se llama este proceso, pero si tengo la nocion de lo que se le aplico, si alguien se lo recuerda que diga en nombre en las respuestas. En fin, por esto es que esos datos no se parecen a los que tenemos en el dataset que yo les pase yque vuuelvo a pasarles: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt

"y" toma el valor de la columna 11 que es una medida cuantitativa de la progresión de la enfermedad un año después del inicio, para esto ejecuten la variable y comparen los datos con los presentes en esta tabla, porque sucede esto, creo que es porque esta columna es el indice de la tabla, porque creo esto, porque vean que el dataset no posee un indice con numeros, y un dataset siempre debe tener un indice a modo de referencia, igualmente al no estar tratados los valores de esta variable "y", esto pueden verificarlo, esto me da a entender que la columna 11 es el indice, ya que el indice no debe tratarse con estos procesos.

luego la variable raw es usada para colocarle los valores ya tratados de la fila numero 2, que es la de BMI.

Todo lo demas fue comparar la relacion que tiene el indice de masa corporal y por ende el estado de forma con respecto a la progresión de la enfermedad un año después del inicio.

Para la parte matematica les dejo este tutorial: https://www.statisticshowto.com/probability-and-statistics/z-score/

Con ese yo termine de entender lo que aplicamos al z-score, aunque el spoiler es que las variables: scaled se calculo usando escalamiento por el metodo del max-min

z_scaled se calculo usando normalización por el metodo del Z-score

pero en teoria estas dos variables son la misma a efectos practicos, solo que se grafico cada una por separado para evaluar cual metodo se habia adaptado mejor a este caso en particular.

Jose Luis Higuera Caraveo

student•

Escalamiento Z-Score

#Reglas de escalamiento

max_raw = max(raw)
min_raw = min(raw)
scaled = (2*raw - max_raw - min_raw) / (max_raw - min_raw)

mu = np.mean(raw)
sigma = np.std(raw)

scaled_z = (raw - mu) / sigma

fig, axs = plt.subplots(3, 1, sharex=True)
axs[0].hist(raw)
axs[1].hist(scaled)
axs[2].hist(scaled_z)

#Modelos de entrenamiento
def train_raw():
    linear_model.LinearRegression().fit(raw, y)

def train_scaled():
    linear_model.LinearRegression().fit(scaled, y)

def train_scaled_z():
    linear_model.LinearRegression().fit(scaled_z, y)


raw_time = timeit.timeit(train_raw, number=100)
scaled_time = timeit.timeit(train_scaled, number=100)
scaled_z_time = timeit.timeit(train_scaled_z, number=100)
print('Trained Raw: {}'.format(raw_time))
print('Trained Scaled: {}'.format(scaled_time))
print('Trained Scaled_z: {}'.format(scaled_z_time))

Lucas Vargas

student•

Excelente, esta es otra forma de sacar los promedios y la desviación estándar:

<code> 
mu = raw.mean()
sigma = raw.std()

Jose Luis Higuera Caraveo

student•

Anotado. Gracias por el aporte

Patricia Carolina Perez Felibert

student•

Este curso en general, ha sido bien confuso (por lo menos para mi), siento que se podría explicar de una manera mas detallada cada proceso y así no quedamos con tantas dudas, para todas las clases he tenido que buscar clases de otros profesores en internet para poder comprender lo que se dice acá.

Pepe Sosa

student•

Estoy igual, se ve que son conceptos sencillos, operaciones sencillas pero siento que el profe lo complica de más con su lenguaje tan rebuscado y con las pocas explicaciones que nos da.

luis felipe castro calderón

student•

La verdad recomiendo primero hacer los cursos de python para amañarse más con el lenguaje y las librerias numpy & pandas. A mi me faltaron esas dos últimas y te entiendo, pero creo que con que te vayas sabiendo los conceptos claros: distribucion normal, disperión, varianza, escalamiento, etc. Con eso para mi basta y ya después profundiza en lo demás

luis felipe castro calderón

student•

El profe creo que explica esta visualización de esta manera (rápida) porque este no es un curso de visualizaicón sino de matemáticas. No te preocupes por la forma, lo importante es el fondo, eso si ve complementando de forma inmediata con los cursos de python y las librerías pandas y numpy respectivamente y al final nadie se sabe todos los métodos, lo importante es tener claro que se quiere hacer y para todo lo demás amigos mios existe Google.

Arturo Torres

student•

¿Necesito de conocimientos previos para entender esta clase? Porque me perdí totalmente u.u

Miguel Hernández Barrios

student•

Este curso es parte de la escuela de Data Science, hay algunos cursos previos ahí que te podrían ayudar a comprender mejor la clase.

Carli Code

teacher•

Yo diría que necesitas conocimientos en python y notebooks, además de conocimientos básicos en ML o DS

Nicolás García Caicedo

student•

Qué queire decir el profesor con entrenar un modelo ¿Qué está haciendo exactamente en esas 100 repeticiones?

Sebastián Andrade

student•

Hola, los modelos nos ayudan a modelar valga la redundancia un comportamiento de la naturaleza (precios de casas, relacion entre dimensiones de flores, clima, etc) de una forma matematica y que de esta manera podamos estudiarlo y predecirlo, la fase de "entrenamiento" de un modelo es el proceso en el cual el modelo aprende de los datos y se ajusta a ellos buscando minimizar su error. Por ej: en un modelo de regresion lineal simple, el modelo va a recibir una data y va a usar un poco de matematicas y codigo para encontrar la combinacion de parametros (pendiente y bias en este ejemplo que te planteo) que nos arrojen el menor error posible.

Te recomiendo mires el siguiente video "modelos para entender una realidad caotica" (el titulo es basicamente un resumen de lo que te expliquè arriba xD): https://www.youtube.com/watch?v=Sb8XVheowVQ&t=4s

Y si te interesa ver como es una implementacion de un modelo por dentro (las matematicas y el codigo detras) te dejo este notebook que hice hace un tiempo donde implementè la regresion lineal simple: https://github.com/Sgewux/ml_from_scratch/blob/master/linear_regression_from_scratch.ipynb

Kid Rivera

student•

Debería explicar cada linea de código, no logro seguir la clase.

Rene Rosas

student•

Yo igual pero creo que si no te vas a dedicar a machine learning y estas en la escuela de Analista de Datos esta clase sobra.

Johan Donado

student•

Para ser un curso básico me parece que dejan muchas dudas. No se entiende la mayoría de las cosas, al menos en esta clase.

fabio gomez guzman

student•

Hola, leyendo un poco la doc logre normalizar la data usando la transformación "box-cox"

Roberto Carlos Cardenas Sosa

student•

aqui esta la documentacion en español por si les sirve
https://interactivechaos.com/es/manual/tutorial-de-matplotlib/la-funcion-subplots

José Rodrigo Arana Hi

student•

Claramente se necesitan más términos, conocimientos y práctica para entender el código visto. Aquí tienen un área de oportunidad el platzi team. Igual que a muchos, no lo entendí del todo, los tiempos (a veces) me salen muchos más rápidos en el raw y el reto para el z scaling no me sale dentro de un rango de -1 a 1.

Juan Carlos Betancur Parra

student•

a esta clase le falta explicar el dataset por que no se entiende de que es y que variables está analizando

Eric Gabriel Martinez Labrin

student•

HIba excelente hasta que llegue a esta clase que se puso a escribir codigo a diestra y siniestra que en mi vida habia visto (y que no estan las clases de python basico, intermedio ni avanzado). Deben haces esatas cosas pensando que no somos programadores!, tambien dice mucho que no puede explicar porque no alcanza en la clase, lo cual es ridiculo, debe explicar todo, para eso estamos pagando, da igual si estamos un año en el curso mientras aprendamos. Intento entender los link que ponen, pero los siento en chino, no se comprende, y justamente por eso estamos tomando clases, para que nos ayuden a entender, no para que nos manden a leer lo que podriamos leer sin pagar el curso.

#Reglas de escalamiento

max_raw = max(raw)
min_raw = min(raw)
scaled = (2*raw - max_raw - min_raw) / (max_raw - min_raw)

mu = np.mean(raw)
sigma = np.std(raw)

scaled_z = (raw - mu) / sigma

fig, axs = plt.subplots(3, 1, sharex=True)
axs[0].hist(raw)
axs[1].hist(scaled)
axs[2].hist(scaled_z)

#Modelos de entrenamiento
def train_raw():
    linear_model.LinearRegression().fit(raw, y)

def train_scaled():
    linear_model.LinearRegression().fit(scaled, y)

def train_scaled_z():
    linear_model.LinearRegression().fit(scaled_z, y)


raw_time = timeit.timeit(train_raw, number=100)
scaled_time = timeit.timeit(train_scaled, number=100)
scaled_z_time = timeit.timeit(train_scaled_z, number=100)
print('Trained Raw: {}'.format(raw_time))
print('Trained Scaled: {}'.format(scaled_time))
print('Trained Scaled_z: {}'.format(scaled_z_time))

Procesamiento y Escalamiento de Datos Numéricos en Python

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python

Diagramas de Dispersión y su Análisis con Seaborn

Estadística en la ingesta de datos

Escalamiento Lineal de Datos Numéricos para Machine Learning

Transformaciones No Lineales para Datos Sesgados en Machine Learning