df_diabetes.columns = ['1. Number of times pregnant', '2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test', '3. Diastolic blood pressure (mm Hg)', '4. Triceps skin fold thickness (mm)', '5. 2-Hour serum insulin (mu U/ml)', '6. Body mass index (weight in kg/(height in m)^2)', '7. Diabetes pedigree function', '8. Age (years)', '9. Class variable (0 or 1)']
Gracias! :)
Gracias compañero.
#Renombramos las columnas
df_diabetes.columns=['1. Number of times pregnant','2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test','3. Diastolic blood pressure (mm Hg)','4. Triceps skin fold thickness (mm)','5. 2-Hour serum insulin (mu U/ml)','6. Body mass index (weight in kg/(height in m)^2)','7. Diabetes pedigree function','8. Age (years)','9. Class variable (0 or 1)']
Tambien, hay columnas que tienen missing values pero de manera implicita. Se reconocen por que su valor es 0 y a nivel medico, no tendria sentido ese valor.
veo que se repite en muchos cursos el preprocesamiento y análisis inicial de los datos, me gustaría que hubiera un curso especifico para este tema con dataset más complejos y que requieren de un preprocesamiento mucho mayor.
Por si a alguien le queda más cómodo y le gusta más cómo renombré las columnas es que dejo el código acá:
En la importación de read_csv, hay que poner el parametro header=None; de lo contrario, el primer registro se pierde ya que se está tomando como el encabezado de la columna de la feature. Así:
Ahora se debe hacer análisis y transformaciones al dataset base. Primero se hará un sampleo para ver cómo se comporta el dataset, luego se asignará el nuevo nombre de columnas y se verificarán los data types de cada una
\# Sample dataset
df\_diabetes.sample(10)
\# columns rename
df\_diabetes.columns = \['1. Number of times pregnant','2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test','3. Diastolic blood pressure (mm Hg)','4. Triceps skin fold thickness (mm)','5. 2-Hour serum insulin (mu U/ml)','6. Body mass index (weight in kg/(height in m)^2)','7. Diabetes pedigree function','8. Age (years)','9. Class variable (0 or 1)']
\# dataset shape
df\_diabetes.shape
\# (767,9)df\_diabetes.dtypes
\# 1. Number of times pregnant int64
\# 2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test int64
\# 3. Diastolic blood pressure (mm Hg) int64
\# 4. Triceps skin fold thickness (mm) int64
\# 5.2-Hour serum insulin (mu U/ml) int64
\# 6. Body mass index (weight in kg/(height in m)^2) float64
\# 7. Diabetes pedigree function float64
\# 8. Age (years) int64
\# 9. Class variable(0or1) int64
\# dtype:object
Hola Layla, primeramente saludar y felicitar por el curso.
Tengo una duda, estoy haciendo un trabajo de geoinformática y necesito entrenar la máquina para que me identifique pixeles dentro de una imagen satelital y me clasifique según distintas constituciones de los suelos.
¿Cómo podría subir ese set de datos para entrenar la máquina?
Saludos!
Hola Juan, todo lo que tenga que ver con imagenes, ya hablamos de deep learning, principalmente. Podes utilizar redes neuronales para clasificacion, y por ahi deberias ir. En platzi hay muy buenos cursos sobre eso :)
Estaría bueno que en un curso hicieran un análisis de datos mas avanzado, no tan simple como lo veo en todos los cursos, el análisis de datos es algo esencial, y siempre veo que hacen lo mas sencillo.
Hola David, este no es un curso de EDA :) si queres en Platzi tmb tenes un curso exclusivamente de este tema. Un saludo!
Código de la clase:
#Renombramos las columnas
df_diabetes.columns=['1. Number of times pregnant','2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test','3. Diastolic blood pressure (mm Hg)','4. Triceps skin fold thickness (mm)','5. 2-Hour serum insulin (mu U/ml)','6. Body mass index (weight in kg/(height in m)^2)','7. Diabetes pedigree function','8. Age (years)','9. Class variable (0 or 1)']
#Verificacion de datos
df_diabetes.head()
#Analizamos el shape del objeto
df_diabetes.shape
**