Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Resumen

¿Qué tipos de datos existen en ciencia de datos?

Antes de zambullirnos en el vasto océano de la estadística descriptiva y empezar a diseccionar sets de datos, es crucial entender los tipos de datos con los que nos encontramos habitualmente en ciencia de datos. Los datos se dividen principalmente en dos categorías: categóricos y numéricos.

¿Qué son los datos categóricos?

Los datos categóricos son aquellos que no están representados por números. Pueden ser cadenas de texto, pero esencialmente son categorías. Por ejemplo:

Género de una persona: masculino, femenino.
Categoría de una película: terror, acción, drama.
Método de pago en un eCommerce: tarjeta de crédito, PayPal.

Estos datos pueden parecer numéricos en algunos casos, pero son simplemente categorías y deben interpretarse como tales.

Diferencia entre datos nominales y ordinales

Dentro de los datos categóricos, se pueden distinguir entre nominales y ordinales:

Ordinales: Existe una relación de orden entre las categorías. Por ejemplo, tamaños de ropa como pequeño, mediano y grande.
Nominales: Las categorías no tienen un orden natural. Ejemplo: colores de coches como rojo, azul, verde.

¿Y los datos numéricos?

En la otra orilla de la clasificación encontramos los datos numéricos. Este tipo de datos se representan exclusivamente con números y deben tratarse numéricamente. Ejemplos comunes incluyen:

Altura de una persona: medida en metros.
Edad: años de una persona.
Temperatura: en grados centígrados.

Además, los datos numéricos pueden ser categorizados en discretos y continuos, de la siguiente manera:

Discretos: Valores enteros. Ejemplo, un conjunto de edades como 15, 20, 25 años.
Continuos: Pueden tener una parte decimal, como 1.75 metros de altura o 18.5 grados de temperatura.

En términos computacionales, estas distinciones se traducen en el uso de tipos de variable enteras y floats.

¿Cómo trabajo con estos datos en un ambiente de notebooks?

Moverse en el mundo de la ciencia de datos significa trabajar en ambientes que faciliten la manipulación y análisis de información. Los notebooks son el espacio ideal para explorar datos.

¿Cómo inicio con el uso de herramientas?

Una herramienta destacada en este campo es DeepNote. Similar a Jupyter o Google Colab, DeepNote permite crear notebooks para analizar datos:

Inicio: Crea una cuenta gratuita y explora el panel de control para gestionar proyectos.
Ventaja colaborativa: Puedes trabajar en tiempo real con otros usuarios, visualizando y compartiendo cambios al instante.

Primeros pasos: Cargar un dataset

Para poner manos a la obra con análisis de datos, lo primero es cargar una base de datos en formato CSV utilizando Python y, específicamente, la librería Pandas.

import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('cars.csv')

# Mostrar el data frame
print(df)

Con Pandas, podemos rápidamente ver un resumen de los tipos de datos presentes y comenzar a generar estadísticas descriptivas que nos den una idea de la estructura del dataset.

Estadísticas descriptivas básicas con Pandas

Sin divagaciones innecesarias, Pandas nos ofrece la funcionalidad de generar estadísticas descriptivas con facilidad.

# Generar estadísticas descriptivas
describe_df = df.describe()
print(describe_df)

En una sola línea, Pandas nos muestra un sumario con medidas como el promedio, desviación estándar, y percentiles de las variables numéricas del dataset.

¿Por qué seguir explorando el tema?

Aprender a identificar y clasificar tipos de datos es solo el inicio. En lecciones futuras, se explorará en detalle conceptos claves como medidas de tendencia central y dispersión. Estos conocimientos proveerán una comprensión más profunda de cómo analizar conjuntos de datos de manera efectiva y detallada. ¡Así que sigue adelante, el viaje apenas comienza!

Brayan Alexis Lechon Andrango

Estudiante

Si quieres moverte mas rápido por los bloques de código, te invito a que revises la paleta de comandos que ofrece Deppnote, puedes acceder con ctrl+p , presionado Esc o dando click al icono de la parte inferior izquierda.

Se te desplegara un menu, es muy parecido a las jupyter notebook pero si tiene un par de diferencias para insertar celdas por debajo o encima. Dejo un pequeño resumen de los comandos mas utilizados a mi criterio.

ctrl + k añadir un bloque de código por encima del bloque actual
ctrl + j añadir un bloque de codigo por debajo del bloque actual
ctrl+enter ejecutar el bloque actual
alt + shift + flecha arriba mover un bloque arriba
alt + shift + flecha abajo mover un bloque abajo
ctrl + shift + D duplicar el bloque

. vale la pena echarle un ojo :D

Anthony Ismael Manotoa Moreno

Estudiante

Definitivamente lo de los shortcuts es lo mejor de la vida, dejo una tabla con los que mencionaste más algunos otros:

Shortcut	Función
`Ctrl + Enter`	→ Ejecuta la el bloque de código.
`Shift + Enter`	→ Ejecuta la el bloque de código y crea uno nuevo debajo.
`Ctrl + Shift + M`	→ Transforma un bloque de código a uno de markdown.
`Ctrl + Shift + Y`	→ Transforma un bloque de markdonw a uno de código.
`Ctrl + J`	→ Crea un nuevo bloque debajo.
`Ctrl + K`	→ Crea un nuevo bloque encima.
`Ctrl + Shift + Del`	→ Elimina un bloque.
`Alt + Shift + ↑`	→ Mover un bloque arriba.
`Alt + Shift + ↓`	→ Mover un bloque abajo.
`Alt + ↑ o ↓`	→ Navega entre los bloques.
`Ctrl + Shift + D`	→ Duplicar un bloque.
`Esc`	→ Abre la paleta de comandos.

Ronaldo Tejedor Simarra

Estudiante

Excelente aporte

Mario Esser

Miguel Angel Velazquez Romero

Andres López

Alexis Villalva

Pablo Reyes Abarca

Carli Code

Profesor

Nicolás Muriel

Jhonatan Mackalister Duran Pinilla

Andrés Felipe Sierra Álvarez

Cristian A Mora A

Juan Diaz

Rene Rosas

Stanley Melgar

Miguel Angel Sierra Ruíz

Diego Camino Reinoso

David Alidhasem Manzanares Casio

Samuel Zurisaday Rivera Bravo

Alejandro Cuello Maure

Adrián Castillo

Marco Echave

Nicolás Perilla Melo

Bryan

Franklin Garcia

Pepe Sosa

César Andrés Baudi Ventura

jimmy ibañez

Andres Felipe Caballero Rodríguez

Javier Eguíluz

Dario Saavedra Contreras

Omar Daniel Centeno

Jaime Escobedo Vargas

Fernando Campos

Martin Torres Meza

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos