Inspección de los tipos de datos

Clase 12 de 32 • Curso de Machine Learning Aplicado con Python

Contenido del curso

Introducción al curso

1
Introducción al curso de Machine Learning Aplicado con Python
00:56 min

Cómo definir un problema de Machine Learning

El ciclo de ingeniería de Machine Learning

6
El ciclo de Machine Learning
07:33 min

Montar un ambiente de trabajo Pydata

Preparación de los datos

Modelación y evaluación

Feature Engineering

Modelos y Evaluación más avanzada

Tomar examen

Resumen

Datos importantes:

La inspección de los datos se da para tener conocimiento de la salud de los datos que tenemos, saber si vienen limpios o no, y también porque se quiere tener un entendimiento cuantitativo de ellos. Parte de esto es mirar gráficos estadísticos y entender diferentes propiedades numéricas de las columnas.
A diferencia de Numpy, Pandas no solo permite cargar datos numéricos, sino también datos de texto.
El método info nos va a mostrar la cantidad completa de columnas con la cantidad de elementos no nulos que hay en esas columnas, y por último muestra el tipo de cada columna.

Comentarios

Usuario anónimo

user•

Este profe me ha parecido muy bueno. Siento que he entendido bastante y que ha llenado algunos vacíos de los cursos anteriores :) También he aprendido mucho de los cursos anteriores. Esta beca de MinTIC en verdad es muy buena

Ivan Galeana Aguilar

student•

Espero mas cursos con este profesor

Mauricio Barrera

student•

Totalmente de acuerdo, el profesor es muy bueno y ahora me doy cuenta de que cosas que pensaba que entendía, no era realmente así.

Jimmy Buriticá Londoño

student•

Para los que les pareció extraño el siguiente comando:

num_cols = [c for c in num.index if num[c]]

La forma larga sería:

num_cols = []
for llave, tipo in num.items():
  if tipo == True:
    num_cols.append(llave)
print(num_cols)

Luis Daniel Castellanos Remolina

student•

gracias:)

Luis Alberto Ramirez Figueroa

student•

genial!

Diego Martinez

student•

Carlos Jacob, unos comentarios atras menciona un error con el tipo de dato "int", pues con la columna "cast_total_facebook_likes" el dato aparece con tipo "int64"

Para solucionar ello en la linea dtypes es necesario nombrarla asì para que reconozca ese dato

movies.dtypes == 'int64'

Geovany Uribe Aguirre

student•

Eso vi, lo que no sé es por qué a él si se lo toma como True en su ejemplo, y cuando yo le doy int me lo toma como False

Jorge Leonardo Quintero Pacheco

student•

Gracias buen hombre

Joel Ricci López

student•

Para extraer los tipos de datos, también es posible utilizar:

# Para extraer los nombres de columnas int y float
movies.select_dtypes([int, float]).columns
# O directamente 'np.number' para extraer cualquier tipo numérico (incluidos int y float)
movies.select_dtypes([np.number]).columns

# Y finalmente:
movies.select_dtypes([np.number])
# Si se quiere extraer ya directamente todo el dataframe

Y para texto (o cualquier tipo no numérico):

movies.select_dtypes(exclude=[np.number]).columns

Usuario anónimo

user•

Uau sí.

Arnulfo Rojas Jimenez

student•

Con la diferencia de que el type de la forma que plantea @riccilob es:

<class 'pandas.core.indexes.base.Index'>

Igualmente, si quisieras hacerlo con list-comprehension un poco más corto, podría ser:

num_cols = [c for c in movies.columns if movies.dtypes[c] in (float, int)]

obj_cols = [c for c in movies.columns if movies.dtypes[c]==object]

y quedaría con type:

<class 'list'>

Usuario anónimo

user•

Otra forma de identificar las columnas numericas seria con el siguiente comando: (movies.dtypes == np.float64) | (movies.dtypes == np.int64) Por si no les toma los tipos de datos enteros que en este caso solo es una 'cast_total_facebook_likes'

Usuario anónimo

user•

Que bonito que es entender :')

Usuario anónimo

user•

Con estas instrucciones se haría la construcción de la lista para los que son numéricos tanto float como "int64" pero de la forma tradicional sin simplificaciones de código de una sola línea:

num_cols = []
for c in num.index:
	if num[c] == True:
		num_cols.append(c)

Cesar Bretana Gonzalez

student•

En el minuto 9:57 tambien puedes tomar como alternativa para ahorrarte un poquito de espacio en codigo y resultar mas eficiente, poner la comparacion de tipos adentro de una funcion, algo como esto:

def cols_of_type(col_type): # number, string
    cols = []
    if (col_type == 'number'):
        num = (movies.dtypes == float) | (movies.dtypes == int)
        cols = [c for c in num.index if num[c]]
    if (col_type == 'string'):
        strs = (movies.dtypes == object)
        cols = [c for c in strs.index if strs[c]]
    
    return cols

Es solo una sugerencia, no es que este mal ni nada menos 😉
Saludos.

Darvin Orozco

student•

Excelente código, siempre se aprende de qué otras formas se puede hacer lo mismo.

Wildin Mota

student•

Complementar este curso con el de datascience es muy importante

Cristian Orozco Benjumea

student•

Jupyter Notebook también es usado para trabajo de campo o sólo es para uso didáctico?

Diego Forero

Team Platzi•

Es usado para trabajo de campo, es una herramienta muy poderosa que permite ser guardada y ejecutarla nuevamente cambiando los datos de entrar y obtener nuevamente todos los resultados.

Cuando tienes algoritmos de predicción estos suelen ser desplegados como scripts de python para que sea más rápida la ejecución y no tener que levantar cosas como Jupyter ya que no se va a ver, el ideal es por ejemplo que se corra el script se hagan las predicciones o recomendaciones y se guarde en base de datos o un archivo.

Cristian Orozco Benjumea

student•

Es decir Jupyter se usa cuando es necesario presentar de modo gráfico los hallazgos.

El script cuando las tareas ya están identificadas y sólo nos interesa que no arroje el resultado.

Santiago Pulido Peláez

student•

Excelentes explicaciones. hasta ahora ha sido muy claro. ¿Qué otros cursos tiene este profesor??

Jean Paul

teacher•

"Deep Learning con Pytorch" que te permitira profundizar sobre redes neuronales, el modelo con mejor performance hoy en dia para una gran parte de las tareas de Machine Learning.

Juan Andrés Oviedo Castro

student•

Para quien se le dificulta entender la list comprehension

columns_values = [number for number in columns.index if columns[number]]

Es el equivalente a este otro código:

columns_values = [ ]
for values in movies.index:
  if columns_values == True:
    columns.append(values)

Luis Alejandro Hernández Contreras

student•

Quien no recuerde lo que es list comprenhesion, aquí un enlace base -> por aquello de esta instrucción num_cols = [c for c in num.index if num[c]]

https://www.programiz.com/python-programming/list-comprehension

Alex Camacho

teacher•

Muchas gracias por el aporte, ayuda a clarificar el tema :)

Augusto Napuri

student•

Aca van los hotkeys:

Darvin Orozco

student•

Gracias, el HotKey que más me ha servido es: CTRL + ENTER. Muchas gracias, buen aporte.

Usuario anónimo

user•

Comparto el código de la actividad de esta sesión de clase con las correcciones de int por "int64" para mi caso. Se obtiene la información de las columnas de la tabla de películas:

# Inspección de los tipos de datos
movies.info()

Inspección de las columnas que son numéricas de tipo real y de tipo entero:

# A diferencia de Numpy, Pandas permite cargar no solo datos numericos pero tambien **datos de texto** que vemos por ejemplo en las columnas de actores y **mezclar distintos tipos de datos**.
# int64 y float64 corresponden a los mismos dtypes de Numpy
# object es el dtype que permite manejar datos de texto
# columnas númericas y columnas de texto
movies.dtypes == float
movies.dtypes == &quot;int64&quot;

Aplicación de la operación "OR" entre columnas numericas de tipo float e "int64":

(movies.dtypes == float) | (movies.dtypes == &quot;int64&quot;)

Inspección de las columnas de texto:

movies.dtypes == object

Almacenamiento de los resultados de la operación "OR" entre columnas numéricas de tipo float e "int64" en una variable de tipo lista booleana:

num = (movies.dtypes == float) | (movies.dtypes == &quot;int64&quot;)
num

Inspección de los indices de las columnas:

num.index

Almacenamiento de solo los indices de columna de tipo entero:

num_cols = [c for c in num.index if num[c]]
num_cols

Almacenamiento de los indices de solo las columnas que han sido inspeccionadas como tipo texto:

movies.dtypes == object
obj = (movies.dtypes == object)
obj_cols = [c for c in obj.index if obj[c]]
obj_cols

Melquiades Rodríguez

student•

muchas gracias jose :)

Mauricio Andrés Guerra Cubillos

student•

Una serie es un Dataframe de una sola columna.

Darvin Orozco

student•

buen resumen!

Pedro Escobar

student•

A diferencia de Numpy, Pandas permite cargar no solo datos numéricos, también datos de texto que vemos, por ejemplo, en las columnas de actores y mezclar distintos tipos de datos.
• int64 y float64 corresponden a los mismos dtypes de Numpy
•object es el dtype que permite manejar datos de texto

Jesús Hernández

student•

Una pequeña variación para sacar las variables en dos líneas es:

obj_cols = [x for x in (movies.dtypes == object).index if (movies.dtypes == object)[x]]

num_cols = [x for x in (movies.dtypes != object).index if (movies.dtypes != object)[x]]

Darvin Orozco

student•

Excelente! otra forma más compacta en código pero que ayuda a hacer lo mismo, gracias!

Usuario anónimo

user•

Uff de verdad que esto si es una clase muy bien explicada.

Usuario anónimo

user•

Excelente explicacion comparto mi avance en colab con el dataframe desde google drive

clic aqui

Usuario anónimo

user•

Una pregunta: como obtuviste el link para descargar el archivo??

# Para extraer los nombres de columnas int y float
movies.select_dtypes([int, float]).columns
# O directamente 'np.number' para extraer cualquier tipo numérico (incluidos int y float)
movies.select_dtypes([np.number]).columns

# Y finalmente:
movies.select_dtypes([np.number])
# Si se quiere extraer ya directamente todo el dataframe

def cols_of_type(col_type): # number, string
    cols = []
    if (col_type == 'number'):
        num = (movies.dtypes == float) | (movies.dtypes == int)
        cols = [c for c in num.index if num[c]]
    if (col_type == 'string'):
        strs = (movies.dtypes == object)
        cols = [c for c in strs.index if strs[c]]
    
    return cols

# A diferencia de Numpy, Pandas permite cargar no solo datos numericos pero tambien **datos de texto** que vemos por ejemplo en las columnas de actores y **mezclar distintos tipos de datos**.
# int64 y float64 corresponden a los mismos dtypes de Numpy
# object es el dtype que permite manejar datos de texto
# columnas númericas y columnas de texto
movies.dtypes == float
movies.dtypes == &quot;int64&quot;

Inspección de los tipos de datos

Introducción al curso

Introducción al curso de Machine Learning Aplicado con Python

Cómo definir un problema de Machine Learning

Importancia de definir el problema en Machine Learning

Predecir el ingreso de películas de IMDB

Terminología de Machine Learning

Materiales del curso: Notebooks de Jupyter

El ciclo de ingeniería de Machine Learning

El ciclo de Machine Learning

Montar un ambiente de trabajo Pydata

Configuración del ambiente de trabajo con Google Collab

Qué es y cómo se utiliza Numpy

Arrays en Numpy

Operaciones aritméticas en Numpy

Preparación de los datos

Cargar los datos necesarios para el proyecto