Exploración y preparación de datos

Curso de Regresión Lineal con Python y scikit-learn

Contenido del curso

Introducción al curso

Cómo funciona la regresión lineal

Regresión lineal multivariable

Proyecto práctico

Pasos siguientes

Tomar examen

Exploración y preparación de datos

Dick Saide Suárez Blanco

Estudiante

----->Exploración y preparación de datos<---- Regresión lineal para predecir los gastos médicos de pacientes

σ La mision es hacer una prediccion y analisis con datos medicos. σ Las principales datos (variables) que se poseen son Edad, sexo, IMC, hijos, fumador, region, cargos. σ Luis va a insurance.csv y buscan un Data set que tenga la variables de las que el este interesado. Una vez descargados en archivo .rar , solo los pone en la carpeta en donde el quiera.

----->Exploración y preparación de datos<---- σ Empezaremos a usar los archivos anteriormente recabados. 1. Las dos librerias que utilizaremos son Seaborn y Pandas, es por ello que lo primero en hacer es importarlos. Usando :

" import pandas as pd " " import seaborn as sns " + Como mencionamos anteriormente, basicamente establecer las abreviaturas que se van a usar en el programa. 2.Configurara seaborn, a traves de : " sns.set (style='whitegrid', context='notebook' ) " ---------->Ahora cargamos los archivos medicos descargados en Google Colab. Asi para que la herramienta tenga la informacion para trabajar. 3. df = pd.read_csv('insurance.csv') df.head() +Esto es para empezar a mostrar la informacion plasmada de la info descargada a manera de tabla. 4. El siguiente paso que a Luis le gusta hacer, es conocer el numero de datos con los que se cuenta, para asi poder hacer un analisis. Usamos: " print(df.shape) " 5. Ahora sabremos la distribucion de la variable predictora usand : " df.charges.hist(bins = 40) " +Con esto estamos accesando a la variable charges, usando un histograma. +Con esto se crea una distribucion, la cual es interesante ya que hay muy pocos valores antes de "50k". Y luis se pregunta por que. 6. Debido a lo anterior, ahora analizaremos los puntos de 50k hacia atras. Por ello Luis imprimde los datos usando : df[df.charges>50000] +Con esto se nos muestra las filas que tienen mas de "50k", lo cual significa que hay mucha otra data que no es de nuestro interes (o mas bien, no tiene 50k) por ello Luis decidira eliminarlo. NOTESE: Luis remomienda no eliminar los datos, sin antes haber consultado /confirmado con las demas personas involucradas. 7. Para ello, se usa" df = df[df.charges<50000] " y asi la info mostrada solo sera la que es menor a 50k

Exploración y preparación de datos

Introducción al curso

Tu primera regresión lineal con scikit-learn

Análisis de datos para tu primera regresión lineal

Entrenando un modelo de regresión lineal con scikit-learn

Cómo funciona la regresión lineal

¿Qué es la regresión lineal?

Cuándo utilizar un modelo de regresión lineal

Función de pérdida y optimización: mínimos cuadrados

Evaluando el modelo: R^2 y MSE

Regresión lineal multivariable

Regresión lineal multivariable

Análisis de regresión multivariable

Proyecto práctico

Regresión lineal para predecir los gastos médicos de pacientes

Exploración y preparación de datos

Análisis de correlación de los datos

Entrenamiento del modelo

Evaluando el modelo

Mejorando el modelo

Pasos siguientes

¿Qué hay más allá de la linealidad?

Siguientes pasos en modelos de inteligencia artificial

Comparte tu proyecto de regresión lineal y certifícate