¿Qué tipos de datos existen en ciencia de datos?
Antes de zambullirnos en el vasto océano de la estadística descriptiva y empezar a diseccionar sets de datos, es crucial entender los tipos de datos con los que nos encontramos habitualmente en ciencia de datos. Los datos se dividen principalmente en dos categorías: categóricos y numéricos.
¿Qué son los datos categóricos?
Los datos categóricos son aquellos que no están representados por números. Pueden ser cadenas de texto, pero esencialmente son categorías. Por ejemplo:
- Género de una persona: masculino, femenino.
- Categoría de una película: terror, acción, drama.
- Método de pago en un eCommerce: tarjeta de crédito, PayPal.
Estos datos pueden parecer numéricos en algunos casos, pero son simplemente categorías y deben interpretarse como tales.
Diferencia entre datos nominales y ordinales
Dentro de los datos categóricos, se pueden distinguir entre nominales y ordinales:
- Ordinales: Existe una relación de orden entre las categorías. Por ejemplo, tamaños de ropa como pequeño, mediano y grande.
- Nominales: Las categorías no tienen un orden natural. Ejemplo: colores de coches como rojo, azul, verde.
¿Y los datos numéricos?
En la otra orilla de la clasificación encontramos los datos numéricos. Este tipo de datos se representan exclusivamente con números y deben tratarse numéricamente. Ejemplos comunes incluyen:
- Altura de una persona: medida en metros.
- Edad: años de una persona.
- Temperatura: en grados centígrados.
Además, los datos numéricos pueden ser categorizados en discretos y continuos, de la siguiente manera:
- Discretos: Valores enteros. Ejemplo, un conjunto de edades como 15, 20, 25 años.
- Continuos: Pueden tener una parte decimal, como 1.75 metros de altura o 18.5 grados de temperatura.
En términos computacionales, estas distinciones se traducen en el uso de tipos de variable enteras y floats.
¿Cómo trabajo con estos datos en un ambiente de notebooks?
Moverse en el mundo de la ciencia de datos significa trabajar en ambientes que faciliten la manipulación y análisis de información. Los notebooks son el espacio ideal para explorar datos.
¿Cómo inicio con el uso de herramientas?
Una herramienta destacada en este campo es DeepNote. Similar a Jupyter o Google Colab, DeepNote permite crear notebooks para analizar datos:
- Inicio: Crea una cuenta gratuita y explora el panel de control para gestionar proyectos.
- Ventaja colaborativa: Puedes trabajar en tiempo real con otros usuarios, visualizando y compartiendo cambios al instante.
Primeros pasos: Cargar un dataset
Para poner manos a la obra con análisis de datos, lo primero es cargar una base de datos en formato CSV utilizando Python y, específicamente, la librería Pandas.
import pandas as pd
df = pd.read_csv('cars.csv')
print(df)
Con Pandas, podemos rápidamente ver un resumen de los tipos de datos presentes y comenzar a generar estadísticas descriptivas que nos den una idea de la estructura del dataset.
Estadísticas descriptivas básicas con Pandas
Sin divagaciones innecesarias, Pandas nos ofrece la funcionalidad de generar estadísticas descriptivas con facilidad.
describe_df = df.describe()
print(describe_df)
En una sola línea, Pandas nos muestra un sumario con medidas como el promedio, desviación estándar, y percentiles de las variables numéricas del dataset.
¿Por qué seguir explorando el tema?
Aprender a identificar y clasificar tipos de datos es solo el inicio. En lecciones futuras, se explorará en detalle conceptos claves como medidas de tendencia central y dispersión. Estos conocimientos proveerán una comprensión más profunda de cómo analizar conjuntos de datos de manera efectiva y detallada. ¡Así que sigue adelante, el viaje apenas comienza!
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?