Crea una cuenta o inicia sesión

¡Continúa aprendiendo sin ningún costo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

18 Días
12 Hrs
7 Min
16 Seg

Tipos de datos

5/25
Recursos

Aportes 75

Preguntas 22

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Poner Deepnote en dark mode
En su documentación oficial mencionan que actualmente no tienen un dark mode desarrollado, pero esperan tenerlo en un futuro cercano. Mientas tanto, recomiendan instalar esta extensión y configurarla con estos valores:

  • Brightness +20
  • Contrast -20
  • Sepia off
  • Greyscale +15

.


Tip adicional: todas tus pestañas del navegador se verán así, por lo que te recomiendo usar Alt + Shift + D para activar y desactivar el dark mode de tu navegador (te será muy útil en cosas páginas como Deepnote o Drive, pero otras como Platzi, se ven mejor si lo desactivas)


.
El resultado será algo como esto:

Tipos de datos estadísticos

Datos categóricos

Los datos categóricos también conocidos como datos cualitativos, representan características como el género, el idioma, etc. de una persona. También pueden tomar valores numéricos, por ejemplo: 1 para mujeres y 0 para hombres. Hay que tener en cuenta que esos números no tienen significado matemático.
Los tipos de datos estadísticos categóricos se clasifican en:
.

  • Datos nominales: Otros de los tipos de datos estadísticos son los que tienen valores nominales que representan unidades discretas y se usan para etiquetar variables que no tienen un valor cuantitativo.
    Estos datos no tienen un orden, aunque cambiara el orden de sus valores, no cambia su significado.

  • Datos ordinales: Los datos ordinales representan unidades discretas y ordenadas. Por lo tanto, es casi lo mismo que los datos nominales, excepto que su orden es importante.
    Las escalas ordinales generalmente, se usan para medir características no numéricas como la felicidad, la satisfacción del cliente, etc.

.

Datos numéricos

Estos tipos de datos estadísticos también se conocen como datos cuantitativos, y se refieren a una medida o recuento. Se clasifican de la siguiente manera:
.

  • Datos discretos: Los datos estadísticos son discretos cuando sus valores son distintos y separados. Es decir, cuando los datos sólo pueden tomar ciertos valores.
    Este tipo de datos no se puede medir, pero se pueden contar. Básicamente representan información que se puede clasificar.
  • Datos continuos: Los datos continuos representan mediciones y, por lo tanto, sus valores. no se pueden contar, pero se pueden medir. A su vez, estos se clasifican de la siguiente manera:
    • Datos de intervalo: Los datos de intervalo representan unidades ordenadas que tienen la misma diferencia . Por lo tanto, hablamos de datos de intervalo cuando tenemos una variable que contiene valores numéricos que están ordenados y donde conocemos las diferencias exactas entre los valores.

.

El problema con los datos de valores de intervalo es que podemos sumar y restar, pero no podemos multiplicar, dividir o calcular razones. Debido a que no existe un cero verdadero, no se pueden aplicar muchas estadísticas descriptivas e inferenciales.
.

  • Datos de relación: También son unidades ordenadas que tienen la misma diferencia. Los datos de relación son los mismos que los valores de intervalo, con la diferencia de que tienen un cero absoluto.

Por si no sabias:
JUPYTER. Son unos “cuadernos” o notebooks, en los que puedes programar por bloques. Como si escribieras un cuaderno. En una porcion, ejecutas una linea sin que tengas que correr todo el programa. Busca ANACONDA
KAGGLE. Es una web que tiene concursos para analistas de datos y programadores, tiene bases de datos de uso libre.
COLAB. Es el Jupyter de Google, es decir no descargas ni instalas nada, lo tienes todo en linea.
DEEPNOTE. Herramienta para crear trabajos en simultaneo con otros colaboradores con los que se pueden hacer cambios en tiempo real en tus lineas de codigo

Amigos les dejo el cheat sheet de ciencia de datos con PANDAS 😁

Fun Fact: El Fundador del Proyecto Jupyter es colombiano, paisa.
Se llama Fernando Pérez, es Físico de la Universidad de Antioquía y además de eso, otro proyecto destacable dentro de la comunidad es IPython

Si quieres moverte mas rápido por los bloques de código, te invito a que revises la paleta de comandos que ofrece Deppnote, puedes acceder con ctrl+p , presionado Esc o dando click al icono de la parte inferior izquierda.

Se te desplegara un menu, es muy parecido a las jupyter notebook pero si tiene un par de diferencias para insertar celdas por debajo o encima. Dejo un pequeño resumen de los comandos mas utilizados a mi criterio.

  • ctrl + k añadir un bloque de código por encima del bloque actual
  • ctrl + j añadir un bloque de codigo por debajo del bloque actual
  • ctrl+enter ejecutar el bloque actual
  • alt + shift + flecha arriba mover un bloque arriba
  • alt + shift + flecha abajo mover un bloque abajo
  • ctrl + shift + D duplicar el bloque

.
vale la pena echarle un ojo 😄

Pandas cheat sheets

  • Descarga la version completa en PDF dando click aca
  • Ve a la pagina oficial para conocer mas etalles
    .

Ojalá estas definiciones puedan ayudar a alguien.
.

Datos numéricos

Éste tipo de datos se relacionan con mediciones y pueden operarse matemáticamente.
.
Ejemplos: altura, temperatura, número de habitantes.
.

Datos numéricos discretos

Que los datos numéricos sean discretos significa que están restringidos de tal forma que entre dos de sus valores posibles no existe una cantidad infinita de otros posibles valores.
.
Usualmente este tipo de datos numéricos se asocian a los números enteros.
.
Ejemplos: años cumplidos, unidades despachadas, horas completas trabajadas.
.

Datos numéricos continuos

Que los datos numéricos sean continuos significa que entre dos valores cualquiera de éstos datos existe una cantidad infinita de otros posibles valores.
.
Usualmente este tipo de datos numéricos se asocian al conjunto de los números reales.

A medio curso descubrí este maravilloso canal donde te explican todo sobre el preprocesamiento de datos. Por tanto, se facilita tu camino en Deepnote. Descubre el porqué de sus comandos, su variedad y más. Espero te sirva

Valores cualitativos:
Son valores que clasifican o ordenan un dato, ejemplo, color del cabello, sirven para caracterizar o señalar pertenencia de un dato.

  • Ordinales: Es para dar una sensacion de orden en ocasiones son numeros, pero pueden ser palabras tambien ejemplo : Malo, Regular, Bueno, Excelente. Van de menor a mayor calidad

  • nominal: Es para clasficar o indicar pertenencia a algo. Ejemplo: Genero, nacionalidad, color de preferencia.

Antes de ver este curso ya usaba pandas. Entender que ahora el dtype de object no es un error sino que nos dice que es una variable categórica 😂

  • Tipos de datos

    categoricos:

    ordinal: Cuando existe una relacion de orden entre las categorías

    Nominal: cuando no existe esta relacion

    Numéricos:

    discreto: ejemplo EDAD (enteros)

    Continuos: Ejemplo altura (decimales)

  • Normalmente cuando pandas categoriza a una variable como objeto significa que no hay números allí, es una variable textual

  • Los boléanos TRUE o FALSE también están en las variables categóricas

  • Las variables numéricas esta en int64 (formato por defecto para variables enteras) y float64( formato por defecto para las variables continuas)

Un aporte con algunos cheat sheets para python
https://www.utc.fr/~jlaforet/Suppl/python-cheatsheets.pdf

Para los que estan tomando esta clase recientemente, para agregar el archivo csv, tienen que desplegar el right side bar, seleccionar project y en Files agregar el archivo.

Cuando intenté hacer los siguientes ejercicios, si solo agregaba

df.dtypes

me salía un error porque la variable df no estaba declarada, así que lo hice fue agregar todo de la siguiente forma.

import pandas as pd
df = pd.read_csv('cars.csv')
df.dtypes

espero que esto les ayude

No me quedé tan tranquilo con la definición de las subdivisiones de los datos, entonces investigué por ahí algo más amplio, les dejo lo que encontré por si a alguien le sirve:

Categóricos. Una variable categórica es una variable con un número limitado de valores distintos o categorías

  • Ordinal. Una variable puede tratarse como nominal cuando sus valores representan categorías sin clasificación intrínseca (por ejemplo, el departamento de la empresa en la que trabaja un empleado). Ejemplos de variables nominales incluyen la región, el código postal y la afiliación religiosa.

  • Nominal. Una variable puede ser tratada como ordinal cuando sus valores representan categorías con alguna clasificación intrínseca (por ejemplo, niveles de satisfacción de servicio de altamente insatisfecho a altamente satisfecho). Ejemplos de variables ordinales incluyen puntuaciones de actitud que representan grado de satisfacción o confianza y puntuaciones de calificación de preferencia.

**Numéricos. **

  • Discretos. El término discreto implica distinto o separado. Por lo tanto, los datos discretos se refieren al tipo de datos cuantitativos que se basan en los recuentos. Contienen solo valores finitos, cuya subdivisión no es posible. Incluye aquellos valores que solo se pueden contar en números enteros y están separados, lo que significa que los datos no se pueden dividir en fracciones o decimales. Por ejemplo: La cantidad de estudiantes en la escuela, la cantidad de autos en el estacionamiento, la cantidad de computadoras en un laboratorio de computadoras, la cantidad de animales en un zoológico, etc…

  • Continuos. Los datos continuos se describen como un conjunto de observaciones ininterrumpidas; Eso se puede medir en una escala. Puede tomar cualquier valor numérico, dentro de un rango finito o infinito de valor posible. Estadísticamente, el rango se refiere a la diferencia entre la observación más alta y más baja. Los datos continuos se pueden dividir en fracciones y decimales, es decir, se pueden subdividir significativamente en partes más pequeñas de acuerdo con la precisión de la medición. Por ejemplo, edad, altura o peso de una persona, tiempo necesario para completar una tarea, temperatura, tiempo, dinero, etc.

Yo pronunciaría en inglés, fonéticamente Jupyter como “yúpiter”.

Un saludo, mi perfil de Contador me limita con algunas tecnologias, pero aca estoy aprendiendo y motivado, espero me apoyen en algunas preguntas… o aclaraciones. gracias

****Tipos de datos


df.dtypes
#con este comando podemos ver los tipos de datos que tiene mi data frame, las categorias puede ser las siguentes
#obeject: es una variable textual solo textos 
#int64: formato por defecto de pandas para los enteros 
#bool: variables booleanas sin son falas o verdaderas 
#float64: formato con defecto para las variables continuas que serian datos numericos 


#con este comando podemos mirara las columnas de data flame original
#cada columna corresponde a un estadistico, una medida descriptiva
# que romendena a conteo, promedios(mean) desviacion estandar(std), y por ultimo los cuarttiles 
#este el conjunto estándar para medir los data frem

> 

Admiro mucho la calma con la que explica el docente y además la claridad de los conceptos.

Categórico == Datos que tienen categorías
Numérico == Datos que tienen un valor por su naturaleza

Alimentando la curiosidad, va mi código de la clase utilizando VSCode e instalando pandas en macOS Big Sur.

import pandas as pd

df = pd.read_csv('a-003-ksm-66.csv')
df = pd.DataFrame(df)
print(df)
print(df.dtypes)

Saludos

Reciban cálido saludo
De antemano muchas gracias por el esfuerzo y la calidad de las clases.
recomiendo que tengan un solo entorno / ambiente para desarrollar los talleres… deberia ser homogenea la arquitectura,
es decir. si vamos a estar en deepnote o anaconda o cmder. todos en el mismo entorno. soy data science de ibm - coursera y ellos todo lo tienen en una misma plataforma (anaconda).
todo el set de cursos se basa en la misma plataforma!!
no cambian!!!

Sdos y gracias

gracias

Deepnote es similar al R (R Studio)…

Otra forma de interpretar los tipos de datos son los tipos de variables y estas pueden ser: cuantitativas y cualitativas

    • CUALITATIVAS: son las que me indican cualidades, gustos, atributos, etc. Se pueden clasificar en nominales y ordinales.
  1. *Nominales: Son aquellas que me indican atributos, cualidades, etc sin expresar categorías superiores e inferiores, ejemplo: El genero, masculino, femenino. Método de pago: cash, debit card, credit card, etc.
  2. Ordinales: Son aquellas que me indican atributos, cualidades, etc de forma jerarquizada, de forma categórica. Por ejemplo: Estrato socioeconómico: bajo, medio, alto. Experiencia del usuario: buena, regular, mala. Cargos en una empresa: presidente, vicepresidente, gerente, coordinador, supervisor, etc.
  • CUANTITATIVAS: Son aquellas que se pueden “cuantificar”, que se pueden expresar mediante números. Por ejemplo, la edad: 15, 20, 50, 67. Altura: 170 cm, 200 cm, etc. Se pueden clasificar como discretas y continuas

Que clase tan buena.

Aunque el proyecto en deepnote esta compartido, recomiendo hacerlo uno mismo

  1. Nos da un conocimiento del deepnote
  2. Ejecutamos las instrucciones, y es prueba y error es la que nos ayuda a aprender.

TIPOS DE DATOS

  1. Categóricos

    • Ordinal
    • Nominal
  2. Numéricos

    • Discretos
    • Continuos

there are two categories of data types, the first one is numeric data and the second one is categoric data, the numeric data have two subcategories, discreet data, and continuous data, discreet like the number of children in your family like 3, you can’t have 2,5 children, and continue as the weather 25.645562 (float). for categorical data, we have two subcategories too, ordinal y nominal, nominal describes a variable that does not have a natural order, and ordinal is one where the order matter but not the difference btw values.

⚠️ today we have more categories for numeric data: ration and interval

se que me estoy solo en este mundo... pero me entristece haber aprendido VIM y la terminal a fin de ser más eficiente y no tener que usar el mouse... pero los archivos jupiter sí o sí exigen el uso del mouse y estar retirado del mundo de la terminal de linux :( Solo quería desahogarme
Pandas es una librería de Python que proporciona estructura de datos y herramientas de análisis de datos, para trabajar con los datos de una manera más eficiente. Es como el Excel de Python, pues nos permite manejar información de hojas de cálculo con Python. Pandas se basa en dos estructuras de datos principales, Series y DataFrames. Una Serie es una estructura de datos unidimensional que puede almacenar cualquier tipo de dato, un DataFrame es una estructura de datos bidimensional que consta de filas y de columnas. Pandas nos permite manipular, limpiar y analizar datos de una manera fácil. Para instalar Pandas: pip install pandas Para leer un archivo de hojas de cálculo, un CSV, usamos la función `read_csv()`, lo que va hacer es leer el csv y retornanos un DataFrame con los ejes etiquetados. ```js import pandas as pd data_frame = pd.read_csv("dataset.csv") print(data_frame) #OUTPUT Country Item Type Sales Channel Order Priority 0 Tuvalu Baby Food Offline H 1 East Timor Meat Online L 2 Norway Baby Food Online L 3 Portugal Baby Food Online H 4 Honduras Snacks Online L 5 New Zealand Fruits Online H 6 Moldova Personal Care Online L ``` Para acceder a los datos de un DataFrame o Serie tenemos diferentes tipos de métodos o atributos, algunos son: * `describe()`: Muestra las estadísticas descriptivas del DataFrame o Serie, como la media, mediana y desviación estandar. * `head()`**:** Muestra las primeras filas del DataFrame o de la Serie. * `tail()`**:** Muestra las últimas filas del DataFrame o de la Serie * `info()`**:** Muestra información sobre el DataFrame o la Serie, como el tipo de datos y el número de filas y columnas.
````js import pandas as pd data_frame = pd.read_csv("dataset.csv") print(data_frame) #OUTPUT Country Item Type Sales Channel Order Priority 0 Tuvalu Baby Food Offline H 1 East Timor Meat Online L 2 Norway Baby Food Online L 3 Portugal Baby Food Online H 4 Honduras Snacks Online L 5 New Zealand Fruits Online H 6 Moldova Personal Care Online L ```import pandas as pd data\_frame = pd.read\_csv("dataset.csv") print(data\_frame) \#OUTPUT Country Item Type Sales Channel Order Priority 0 Tuvalu Baby Food Offline H 1 East Timor Meat Online L 2 Norway Baby Food Online L 3 Portugal Baby Food Online H 4 Honduras Snacks Online L 5 New Zealand Fruits Online H 6 Moldova Personal Care Online L ````
Pandas es una librería de Python que proporciona estructura de datos y herramientas de análisis de datos, para trabajar con los datos de una manera más eficiente. Es como el Excel de Python, pues nos permite manejar información de hojas de cálculo con Python. Pandas se basa en dos estructuras de datos principales, Series y DataFrames. Una Serie es una estructura de datos unidimensional que puede almacenar cualquier tipo de dato, un DataFrame es una estructura de datos bidimensional que consta de filas y de columnas. Pandas nos permite manipular, limpiar y analizar datos de una manera fácil. Para instalar Pandas: pip install pandas Para leer un archivo de hojas de cálculo, un CSV, usamos la función `read_csv()`, lo que va hacer es leer el csv y retornanos un DataFrame con los ejes etiquetados. ```js import pandas as pd data_frame = pd.read_csv("dataset.csv") print(data_frame) #OUTPUT Country Item Type Sales Channel Order Priority 0 Tuvalu Baby Food Offline H 1 East Timor Meat Online L 2 Norway Baby Food Online L 3 Portugal Baby Food Online H 4 Honduras Snacks Online L 5 New Zealand Fruits Online H 6 Moldova Personal Care Online L ```import pandas as pd data\_frame = pd.read\_csv("dataset.csv") print(data\_frame) \#OUTPUT Country Item Type Sales Channel Order Priority 0 Tuvalu Baby Food Offline H 1 East Timor Meat Online L 2 Norway Baby Food Online L 3 Portugal Baby Food Online H 4 Honduras Snacks Online L 5 New Zealand Fruits Online H 6 Moldova Personal Care Online L Para acceder a los datos de un DataFrame o Serie tenemos diferentes tipos de métodos o atributos, algunos son: * `describe()`: Muestra las estadísticas descriptivas del DataFrame o Serie, como la media, mediana y desviación estandar. * `head()`**:** Muestra las primeras filas del DataFrame o de la Serie. * `tail()`**:** Muestra las últimas filas del DataFrame o de la Serie * `info()`**:** Muestra información sobre el DataFrame o la Serie, como el tipo de datos y el número de filas y columnas. *
Pandas es una librería de Python que proporciona estructura de datos y herramientas de análisis de datos, para trabajar con los datos de una manera más eficiente. Es como el Excel de Python, pues nos permite manejar información de hojas de cálculo con Python. Pandas se basa en dos estructuras de datos principales, Series y DataFrames. Una Serie es una estructura de datos unidimensional que puede almacenar cualquier tipo de dato, un DataFrame es una estructura de datos bidimensional que consta de filas y de columnas. Pandas nos permite manipular, limpiar y analizar datos de una manera fácil. Para instalar Pandas: pip install pandas Para leer un archivo de hojas de cálculo, un CSV, usamos la función `read_csv()`, lo que va hacer es leer el csv y retornanos un DataFrame con los ejes etiquetados. import pandas as pd data\_frame = pd.read\_csv("dataset.csv") print(data\_frame) \#OUTPUT Country Item Type Sales Channel Order Priority 0 Tuvalu Baby Food Offline H 1 East Timor Meat Online L 2 Norway Baby Food Online L 3 Portugal Baby Food Online H 4 Honduras Snacks Online L 5 New Zealand Fruits Online H 6 Moldova Personal Care Online L Para acceder a los datos de un DataFrame o Serie tenemos diferentes tipos de métodos o atributos, algunos son: * `describe()`: Muestra las estadísticas descriptivas del DataFrame o Serie, como la media, mediana y desviación estandar. * `head()`**:** Muestra las primeras filas del DataFrame o de la Serie. * `tail()`**:** Muestra las últimas filas del DataFrame o de la Serie * `info()`**:** Muestra información sobre el DataFrame o la Serie, como el tipo de datos y el número de filas y columnas. *
## Tipos de datos estadísticos Los datos estadísticos se pueden clasificar en dos grandes grupos: **datos cualitativos** y **datos cuantitativos**. Cada uno de estos grupos se subdivide a su vez en dos tipos: ## Datos cualitativos Los datos cualitativos son aquellos que describen atributos o características de los individuos o elementos que se estudian. No se pueden medir en unidades numéricas, sino que se expresan mediante palabras o categorías. Se dividen en dos tipos: * **Datos nominales:** Son aquellos que clasifican a los individuos en categorías sin que exista un orden entre ellas. Por ejemplo: el color del cabello (negro, castaño, rubio), el género (masculino, femenino), la religión (católica, cristiana, protestante), etc. * **Datos ordinales:** Son aquellos que clasifican a los individuos en categorías que sí tienen un orden. Por ejemplo: el nivel de estudios (primaria, secundaria, universidad), la posición en una carrera (primero, segundo, tercero), la calidad de un producto (buena, regular, mala), etc. **Ejemplos de datos cualitativos:** * El color favorito de los estudiantes de una clase. * La marca de teléfono celular que utilizan los habitantes de una ciudad. * La opinión de los clientes sobre la calidad de un servicio. ## Datos cuantitativos Los datos cuantitativos son aquellos que se expresan en números y representan magnitudes o cantidades. Se pueden medir y someter a operaciones matemáticas. Se dividen en dos tipos: * **Datos cuantitativos discretos:** Son aquellos que solo pueden tomar valores enteros y no pueden fraccionarse. Por ejemplo: el número de hermanos que tiene una persona, la cantidad de goles que marca un equipo en un partido, el número de páginas de un libro, etc. * **Datos cuantitativos continuos:** Son aquellos que pueden tomar cualquier valor dentro de un intervalo determinado. Por ejemplo: la altura de las personas, el peso de los objetos, la temperatura ambiente, etc. **Ejemplos de datos cuantitativos:** * La edad de los alumnos de una escuela. * El tiempo que tardan los empleados en realizar una tarea. * Las ventas diarias de una tienda. **Es importante tener en cuenta que la misma variable puede ser cualitativa o cuantitativa dependiendo del contexto en el que se analice.** Por ejemplo, la variable "color" puede ser cualitativa si se utiliza para clasificar los coches por su color, pero puede ser cuantitativa si se utiliza para medir la longitud de onda de la luz.
Si lo trabajan desde google Colab, van a tener un error en la linea 5372 debido a los datos, pero se puede "omitir" de la siguiente manera: `df = pd.read_csv('cars.csv',on_bad_lines='skip')`
Si no les funciona cambien el csv por un archivo excel
Hola! Es posible trabajar también con Visual Studio Code, solo es necesario tener instalado el PIP de pandas en tu máquina y descargar los archivos .csv para trabajar en el curso: ![](https://static.platzi.com/media/user_upload/image-4127b25a-eeed-4672-a81b-7d898d983e8a.jpg)
Buena clase, Me costo seguir en Deepnote, tuve que acudir a fuentes externas. Pero los conceptos de estadística descriptiva fueron muy claros.
import pandas as pd
df=pd.read_csv('cars.csv')
df
df.dtypes
df.describe()

Me gusto esta clase y aprendi a como usar el entorno de deepnote por el momento al modo que quiero emplearlo. Espero seguir aprendiendo mas adelante.

🫠🫠

5. Tipos de datos

  • Categóricos (género, categoría de película, método de pago)

    • Ordinal
    • Nominal
  • Numéricos (edad, altura, temperatura)

    • Discretos
    • Continuos

    Deepnote

Por si alguien quiere correr el archivo cars.csv, a mi me funcionó hacieno de ‘/work/cars.csv’

Buena clase.

Comparto los siguientes apuntes de algunos términos:

**Datos ordinales: **
es un tipo de variable categórica en la que el orden de las categorías tiene un significado. Por ejemplo, si tenemos una variable que indica el nivel de estudios de las personas (primaria, secundaria, bachillerato, licenciatura, posgrado), podríamos decir que se trata de una variable ordinal, ya que el orden de las categorías (primaria, secundaria, bachillerato, licenciatura, posgrado) tiene un significado lógico. Es decir, una persona que ha completado la licenciatura tiene un nivel de estudios mayor que alguien que solo ha completado la secundaria. También no podemos asumir que existe una diferencia constante entre las categorías. Por ejemplo, no podemos asumir que la diferencia entre el nivel de estudios “secundaria” y “bachillerato” es la misma que la diferencia entre “bachillerato” y “licenciatura”.

Dato nóminal: un tipo de **dato nóminal **es un tipo de variable categórica en la que las categorías no tienen un orden o jerarquía especial. Por ejemplo, si tenemos una variable que indica el color del cabello de las personas (rubio, moreno, pelirrojo, negro), podríamos decir que se trata de una variable nóminal, ya que no existe un orden lógico entre las categorías (no podemos decir que el color “moreno” sea mayor o menor que el color “rubio”).
Es importante tener en cuenta que, al tratarse de un tipo de variable categórica, no podemos realizar operaciones matemáticas con las categorías de una variable nóminal.

Una unidad discreta es una unidad de medida que solo puede tomar valores discretos, es decir, valores que pueden ser contabilizados y enumerados. Algunos ejemplos de unidades discretas son el número de personas en una habitación, el número de libros en una biblioteca o el número de unidades vendidas de un producto. Algunos ejemplos de unidades discretas son el número de personas en una habitación, el número de libros en una biblioteca o el número de unidades vendidas de un producto.

Es importante tener en cuenta que las **unidades discretas **no se pueden usar para medir variables continuas, ya que estas variables pueden tomar cualquier valor dentro de un rango determinado, y no solo valores discretos. Por ejemplo, no podríamos medir la altura de las personas usando unidades discretas, ya que la altura puede tomar cualquier valor entre el mínimo y el máximo posibles (por ejemplo, 1.50 metros o 2.10 metros). En este caso, necesitaríamos usar una unidad de medida continua, como los centímetros o los metros.

Dato continuo: Un tipo de dato continuo es un tipo de variable que puede tomar cualquier valor dentro de un rango determinado. Por ejemplo, la altura de las personas es una variable continua, ya que puede tomar cualquier valor entre el mínimo y el máximo posibles (por ejemplo, 1.50 metros o 2.10 metros).

Es importante tener en cuenta que, al tratarse de una variable continua, podemos realizar todas las operaciones matemáticas con los valores de la variable (como sumas, restas, multiplicaciones y divisiones). Además, podemos usar técnicas estadísticas como el promedio, la mediana o la moda para analizar los datos de una variable continua.
Es importante tener en cuenta que, aunque una variable continua puede tomar cualquier valor dentro de un rango determinado, en la práctica es difícil medir una variable continua con una precisión infinita. Por ejemplo, aunque teóricamente podríamos medir la altura de las personas con una precisión de decimales, en la práctica es más común medir la altura en centímetros o en metros. Esto se conoce como “error de medición”

Este es un buen recurso donde explican los temas con ejemplos y preguntas https://www.youtube.com/watch?v=Tb3sgUSd2SQ

Tipos de Datos
Entre los datos nos encotramos principalmente con datos de tipo:

  • Categoricos: Son datos que nos dan información no numérica, pueden ser:
    • Ordinales: Datos que poseen un orden (prelación) deterninado.
    • Nominal: Datos que no tienen un orden, tienen la misma relación gerárgica
  • Numéricos: Son datos que nos dan información numérica, pueden ser:
    • Discretos: Datos numéricos que pueden ser representados con los números reales
    • Continuos: Datos que poseen un “salto”, generalmente son números enteros

Trabajo en código

  • Usaremos la herramienta deepnote, que permite trabajar con notebooks de python
  • Pandas tiene el método describe() que nos brinda información estadistica de los datos numéricos del dataframe df.describe()
  • Para ver el tipo de datos almacenados en un dataframe podemos invocar el atributo dtypes de pandas df.dtypes

Uso practico de estadística descriptiva.

Información resumida de esta clase
#EstudiantesDePlatzi

  • Todos los datos existen en 2 categorías principales: Los datos categóricos y los datos numéricos

  • Categóricos: No son números y se conocen como categorías, pueden ser ordinal o nominal

  • Numéricos: Son números y deben ser tratados de acuerdo a ellos, pueden ser discretos o continuos

  • Cuando tenemos variables discretas significa que son números enteros y cuando son variables continuas se conocen como float

  • Pandas es conocido como el Excel de Python

  • Aprenderemos a usar DeepNote

  • Podemos enlazar DeepNote con nuestro GitHub

  • Con el comando dtype de la librería de pandas puedo observar que tipos de datos se encuentran dentro de mi DataFrame

  • Cuando pandas me identifica una columna como un objeto, significa que los datos de esta columna no son numéricos

  • Con el comando describe obtengo datos estadísticos de mi DataFrame, dentro de estos datos puedo encontrar: El conteo, el promedio, el Max y Min y los percentiles 25%, 50% y 75 %

  • Los percentiles 25%, 50% y 75% se conocen como los cuartiles

  • Existen 2 tipos de estadísticos descriptivos: Medidas de tendencia centra y medidas de dispersión

  • Las medidas de tendencia central mide el promedio de los datos y las medidas de dispersión me dicen, respecto a esa medida de tendencia central, que tan dispersos están los datos

Para Google Colab:

import pandas as pd
df = pd.read_csv('/content/sample_data/cars.csv')
df
import pandas as pd

df = pd.read_csv(“dataset_sample.csv”)

df.describe()

Excelente clase y curso.

Excelente curso.

Deepnote es una gran herramienta para añadir a nuestro toolbox de data scientist 🚀😎🥇✔

Tipos de datos

Aunque podemos clasificar nuestra información de muchas maneras, en estadística descriptiva resulta útil claisficarla en dos grandes grupos: datos cuantitativos y datos cualitativos.
.

Datos cuantitativos

También conocidos como datos numéricos, son datos extraídos de un proceso de medición. A su vez, estos datos se clasifican en:
.

  • Datos cuantitativos continuos: si nuestros valores pueden ser cualquier fracción de nuestra unidad de medida.
  • Datos cuantitativos discretos: si nuestra medición es un conteo simple.

.

Datos cualitativos

También conocidos como datos categóricos, representan propiedades de el objeto de estudio que pueden tomar un número reducido de valores. Este tipo de datos también tiene dos sub categorías:
.

  • Datos cualitativos ordinales: si las categorías tienen un orden inherente.
  • Datos cualitativos nominales: si no hay un orden obvio para las categorías.

No es tan amigable. Es mejor colab para iniciar

HELP, el video se corta/traba en 12:13

wow, que clase tan clara!

Muy buen inicio, tener muy claras las bases de los cursos anteriores a este

Datos categóricos: tambien llamados cualitativos son los que definen categorias, o caracteristicas no medibles, tambien pueden distiguirse porque no se pueden hacer operaciones algebraicas con estos:

  • Ordinal: Son aquellos donde el orden es representativo por ejemplo: Los niveles escolares, la etapa de una enfermedad, los lugares de una carrera, el grado militar, es decir todos aquellos datos donde el orden represente relevancia.

  • Nominales: Son todos aquellos datos donde el orden no es tan representativo, por ejemplo, el sexo, las clases sociales de una poblacion, el color del cabello, la raza de perritos, marcas de tenis…

Datos numéricos: Tambien se les llaman datos cuantitativos, son todos aquellos que podemos contar o definir numericamente.

  • Discretos: Son aquellos que podemos definir con numeros enteros naturales, por ejemplo la cantidad de autos q se fabrican digamos en un mes, cantidad de productos vendidos, cantidad de arboles cortados, numero de amigos o parejas sentimentales, votos por casilla…

  • Continuos: son todos aquellos datos que estan definidos en la recta real, por jemplo, el peso, la altura, el tiempo q tarda una persona ejercitandoes, los litros de agua gastados en tu casa, el consumo de eléctricidad en una fabrica, la distancia de los lineas de tensión…

PERO MUESTRALO COMO HACER NO ME FOTOS

TIPOS DE DATOS:

Categóricos:

  • Ordinal: Existe una jerarquita o relación de orden en las categorías
  • Nominal: No existe una jerarquita en las categorías

Numéricos:

  • Discretos: Entero, ej: La edad
  • Continuos: Decimal ej: La altura

Si quieren aprender mas sobre los entornos de trabajo como deepnote o google colab. Pueden revisar este curso

Maravillosa clase. Para seguir estudiando estadísticas.

Tenemos 2 tipos de datos:

  1. Categóricos (género, categoría de película, método de pago) -> ordinal y nominal
  2. Numéricos (edad, altura, temperatura) -> discretos y continuos

A la librería Pandas se le conoce también como “El excel de Python”

Es genial la herramienta Deepnote

Deepnote es sencillamente maravilloso! Dificil volver al editor de codigo luego de conocerlo. 😃

Deepnote es demasiado bonito y facil de usar. Me gusta.

Qué bonito es Deepnote, sin duda alguna, mi nueva herramienta favorita.

Espero muchos más cursos con este profesor, explica todo con mucha claridad.

Hola,

Les comparto un artículo donde se describe la diferencia entre tipo de variables discretas y continuas. Aquí

Saludos!

Hola!
El curso claramente esta centrado en estadística descriptiva, sin embargo, les quiero compartir algunas cosas que aprendí del Curso de Manipulación y Análisis de Datos con Pandas y Python (acá la liga: https://tuit.es/gk31v). Si tu camino es la ciencia de datos y aunque no lo sea, te recomiendo muchísimo ese curso.

  1. Se puede generar una variable que almacene el path de donde estaremos tomando los archivos que estaremos revisando con ayuda de pandas y, con respecto a ese path y apoyados con la función format, podemos pasar el nombre del archivo que usaremos para cargar la variable de dataframe. Esto aplica en casos en donde los archivos tienen una ruta diferente al home de ejecución de nuestro programa/notebook

  2. El profe Pacho uso la función dtypes para obtener las características de los campos dentro del dataframe, podemos de igual forma hacer uso de la función info()

  3. El uso de describe realiza un filtro en donde sólo considera a los campos cuyo tipo de dato es numérico. Aquellos que forman parte de los datos categóricos (que aparecen en el listado como tipo object y bool), no están considerados dentro de las operaciones de describe. Podemos agregarlos, usando la función describe como >> describe(include = ‘all’), sin embargo, como no contienen valores con los cuales podamos realizar las operaciones matemáticas, nos retornara un valor nulo. Hay forma de que estos datos tomen sentido a las operaciones, ya que un dato categórico podría verse desde la perspectiva de base de datos como un valor de catálogo y, con ello, podemos realizar funciones de agrupación, por ejemplo, sin embargo, es posible que estos temas no formen parte del foco central de este curso y de ahí mi recomendación para profundizar en ello 😃

from icecream import ic
import pandas as pd

dir_pandas = './files/{}'

def run():
    df = pd.read_csv(dir_pandas.format('cars.csv'))
    ic(df.info())
    ic(df.dtypes)
    ic(df.describe())


if __name__ == '__main__':
    run()

Hey team, there’s my deepnote for the notes
Link

Por si la diferencia entre datos nominales y ordinales no quedó muy clara:

  • Nominales: No pueden ser ordenados. Por ejemplo: nombres, marcas, colores…
  • Ordinales: Consisten de grupos o categorías que siguen un orden estricto. Por ejemplo, escalas como:
    • de feo a delicioso
    • no me gusta - casi no me gusta - neutral - me gusta un poco - me gusta
    • nunca - casi nunca - ocasionalmente - casi siempre - siempre

Tipos de datos, ojo hay mas, pero estos son los principales

https://pandas.pydata.org/docs/user_guide/index.html
Documentación de Pandas, va a ser muy útil para manipular datos.