Análisis Univariado: analiza a cada variable por separado, entender sus característica.
Análisis Bivariado: analiza la relacion de cada par de variables. Permite buscar relaciones intrinsecas entre los datos
Análisis Multivariado: analiza el efecto simultaneo de multiples variables. Analiza la variables como un conjunto
En el comienzo de la EDA, el análisis univariado te va a dar informacion mucho mas valiosa que comenzar con todas las variables al mismo tiempo. Te ayuda a analizar la contribución individual de una variable sobre las demas para luego incrementar la cantidad de variables y analizar los efectos en conjunto.
Gracias por el aporte.
¿Y el texto de los tipos de datos?, qué mal que se suba sólo el gráfico. xD
Cualitativos
Categóricos
Este tipo de datos representa las características de un objeto; por ejemplo, género, estado civil, tipo de dirección o categorías de las películas. Estos datos a menudo se denominan conjuntos de datos cualitativos en estadística.
Una variable que describe datos categóricos se denomina variable categórica. Estos tipos de variables pueden tener uno de un número limitado de valores. Es más fácil para los estudiantes de informática entender los valores categóricos como tipos enumerados o enumeraciones de variables. Hay diferentes tipos de variables categóricas:
Ordinal
En las escalas ordinales, el orden de los valores es un factor significativo.
Una encuesta donde se me muestran 5 valores y debo de escoger uno de ellos
Nominal
Estos se practican para etiquetar variables sin ningún valor cuantitativo. Las escalas se conocen generalmente como etiquetas. Y estas escalas son mutuamente excluyentes y no tienen ninguna importancia numérica. Veamos algunos ejemplos:
Genero, los idiomas que se hablan en un país en particular, Especies biológicas, Partes de la oración en gramática, Rangos taxonómicos en biología
Las escalas nominales se consideran escalas cualitativas y las medidas se toman utilizando las escalas cualitativas.
Ejemplo, podría ser una escala para evaluar, de cinco valores ordinales diferentes: totalmente de acuerdo / de acuerdo / neutral / en desacuerdo / totalmente en desacuerdo.
Este tipo de escala son llamadas Likert., para este tipo de datos, se permite aplicar la mediana como medida de tendencia central; sin embargo, el promedio no esta permitido.
Interval
En las escalas de intervalo, tanto el orden como las diferencias exactas entre los valores son significativos. Las escalas de intervalo se utilizan ampliamente en estadística, por ejemplo, en la medida de las tendencias centrales: media, mediana, moda y desviaciones estándar. Los ejemplos incluyen la ubicación en coordenadas cartesianas y la dirección medida en grados desde el norte magnético. La media, la mediana y la moda están permitidas en datos de intervalo.
Ratio
Contienen orden, valores exactos y cero absoluto, lo que permite su uso en estadísticas descriptivas e inferenciales. Estas escalas ofrecen numerosas posibilidades para el análisis estadístico. Las operaciones matemáticas, la medida de las tendencias centrales y la medida de la dispersión y el coeficiente de variación también se pueden calcular a partir de tales escalas.
Los ejemplos incluyen una medida de energía, masa, longitud, duración, energía eléctrica, ángulo plano y volumen.
Cuantitativos
Numéricos
Estos datos tienen un sentido de medición involucrado en ellos; por ejemplo, la edad, la altura, el peso, la presión arterial, la frecuencia cardíaca, la temperatura, el número de dientes, el número de huesos y el número de miembros de la familia de una persona. Estos datos a menudo se denominan datos cuantitativos en las estadísticas. El conjunto de datos numérico puede ser de tipo discreto o continuo.
Estos son datos que son contables y sus valores se pueden enumerar. Por ejemplo, si lanzamos una moneda, el número de caras en 200 lanzamientos de moneda puede tomar valores de 0 a 200 casos (finitos).
Una variable que representa un conjunto de datos discreto se denomina variable discreta. La variable discreta toma un número fijo de valores distintos. Por ejemplo, la variable País puede tener valores como Nepal, India, Noruega y Japón. La variable Rango de un alumno en un aula puede tomar valores de 1, 2, 3, 4, 5, etc.
Continuo ⇒ número de amigos, calificación.
Una variable que puede tener un número infinito de valores numéricos dentro de un rango específico se clasifica como datos continuos. Una variable que describe datos continuos es una variable continua. Por ejemplo, ¿cuál es la temperatura de tu ciudad hoy?
Muchas gracias por el resumen.
hola chas gracias por el aporte. Sabes que viendo el video me da la impresión de que ambos difieren en la datos numéricos. el profesor dice que los discretos son los que se miden en números enteros y no con fracción, a diferencia de ti que planteas lo contrario.
Tipos de Datos
Los datos se dividen en cualitativos y cuantitativos, en elprimer caso los podemos agrupar a su vez en ordinales y nominales, y el segundo, los numericos, pueden ser discretos y/o continuos
Me sorprende que nadie comentó la referencia a poder tener "un millón de amigos", je. Gran toque
Los tipos de datos que se pueden encontrar en un conjunto de datos pueden ser clasificados en cuatro categorías principales: numéricos, categóricos, ordinales y secuenciales. Cada tipo de dato se puede analizar de diferentes maneras.👍🧑🏫💭
Datos numéricos:
Este tipo de datos incluye valores medidos o contables, como la edad, el ingreso y la altura.
Los análisis numéricos incluyen la descripción estadística básica, como la media, la desviación estándar, el rango y la distribución.
Datos categóricos:
Este tipo de datos incluye valores que se pueden clasificar en categorías, como género, raza, tipo de producto, etc.
Los análisis categóricos incluyen la frecuencia y la proporción, así como las pruebas de independencia, como el test chi-squared.
Datos ordinales:
Este tipo de datos incluye valores que tienen un orden implícito, como la escala de satisfacción del cliente (muy insatisfecho, insatisfecho, neutral, satisfecho, muy satisfecho).
Los análisis ordinales incluyen la tabulación de frecuencias y las pruebas de tendencia, como la prueba de Wilcoxon.
Datos secuenciales:
Este tipo de datos incluye secuencias de eventos, como un registro de transacciones de compras de un cliente. Los análisis secuenciales incluyen la minería de datos y la análisis de secuencias.
Además de estas categorías, también existen otros tipos de datos como los datos de texto, imágenes y audio, que requieren análisis especializados y a menudo se combinan con otras técnicas de análisis de datos.
///////////////////////////////////////////////////////////////////////////////////////
En cuanto a las variables, hay dos tipos principales: variables independientes y variables dependientes. Las variables independientes son aquellas que se consideran causas o predictoras, mientras que las variables dependientes son aquellas que se consideran efectos o respuestas. En un análisis de datos, se busca identificar la relación entre las variables independientes y las dependientes y cómo las variables independientes afectan a las dependientes.
Los datos pueden clasificarse en categóricos y numéricos, y dentro de ellos en subtipos como nominales, ordinales, discretos y continuos. Según el objetivo, puedes aplicar análisis univariado, bivariado o multivariado. Empezar por una variable a la vez ayuda a comprender mejor el comportamiento individual antes de estudiar relaciones más complejas.
¿Por qué no considerar a la calificación como una variable categórica ordinal?
Se podría si lo manejas en una escala con "estados" como por ejemplo en Colombia antes se manejaba: Insuficiente, Aceptable, Sobresaliente y Excelente.
Sin embargo, lo normal ahora es que sea con números, por lo que son datos numéricos
¿Cómo que tipo de variables se clasifican las fechas? Ya sean expresadas en texto o número.
Como variables ordinales, las fechas son datos que siguen un orden (de pasado a futuro). Cuando te refieres a timestamps o intervalos de tiempo, si te refieres a un dato continuo.
Las fechas se clasifican como datos cuantitativos, ya que representan una medida y se pueden ordenar. Sin embargo, también pueden considerarse datos categóricos cuando se agrupan en categorías como años, meses o días de la semana. Por lo tanto, son un tipo de variable que puede encajar en ambas categorías dependiendo del contexto en que se utilicen. En análisis de datos, es común tratarlas como variables numéricas para realizar cálculos de tiempo o diferencias entre eventos.
Las fechas son un tipo de dato cuantitativo, ya que representan mediciones en el tiempo y pueden ser ordenadas en una secuencia. Sin embargo, en ciertos contextos, como en encuestas o clasificaciones, se pueden tratar como categóricas ordinales si se agrupan por períodos (por ejemplo, trimestres o años). En general, para análisis estadístico, se consideran datos cuantitativos. Es crucial entender cómo clasificarlos según el objetivo del análisis, especialmente en análisis exploratorio de datos.
Las variables de fechas se pueden clasificar en varias categorías, ya sean expresadas en números o texto:
Fechas Absolutas: Indican un momento específico en el tiempo (ej., "2023-10-01").
Fechas Relativas: Relacionan una fecha con otra (ej., "hace 3 días").
Fechas Formateadas como Texto: Se presentan en un formato legible (ej., "1 de octubre de 2023").
Partes de una Fecha: Incluyen componentes como día, mes y año, que pueden ser extraídos y analizados.
Estas clasificaciones son útiles en análisis de datos y permiten aplicar técnicas estadísticas y de visualización efectivas.
CLASIFICACIÓN DE LOS DATOS
Los datos pueden dividirse en dos grandes categorías:
Datos cualitativos o categóricos: Estos describen cualidades o categorías y se dividen en dos tipos:
Ordinales: Tienen un orden natural. Ejemplo: Lunes, martes, miércoles.
Nominales: No tienen un orden específico. Ejemplo: Género, preferencia ("a favor" o "en contra"), categoría de película.
Además, características como el sabor o la textura de un material son datos categóricos sin orden.
Datos cuantitativos o numéricos: Estos representan cantidades y se dividen en:
Continuos: Pueden tomar cualquier valor dentro de un rango. Ejemplo: Altura, peso, temperatura o volumen.
Discretos: Solo toman valores específicos, como números enteros. Ejemplo: Número de amigos (no puedes tener 5.5 amigos).
Nota: Un mismo dato numérico puede ser continuo o discreto dependiendo del contexto. Por ejemplo, una calificación en algunas universidades puede redondearse (discreta) o expresarse con decimales (continua).
TIPOS DE ANÁLISIS DE DATOS
Existen tres tipos principales de análisis según las variables que examines:
Análisis univariado: Se analiza cada variable de manera individual para entender sus características.
Análisis bivariado: Examina las relaciones entre dos variables. Ejemplo:
¿Si cambia una variable, la otra también cambia?
¿Hay más datos en una categoría que en otra?
Análisis multivariado: Estudia todas las variables de forma conjunta. Puedes analizar pares, tercias o más combinaciones. Este enfoque es útil para identificar relaciones complejas entre múltiples datos. Consejo: Es mejor comenzar con el análisis univariado para entender cada variable antes de pasar al multivariado. Esto te dará una mejor comprensión de las contribuciones individuales y cómo se relacionan con otras variables.
Datos Cuantitativos y Cualitativos
Datos Cuantitativos: Son datos que se pueden medir y expresar con números. Estos datos te permiten hacer cálculos matemáticos como sumar, restar, multiplicar, etc. Se dividen en dos tipos:
Datos Numéricos: Son los que puedes contar o medir. Por ejemplo, la altura de una persona, el peso de un objeto, o la cantidad de manzanas que tienes.
Datos Cualitativos: Son datos que describen cualidades o características y no se pueden medir con números. Se dividen en dos tipos:
Datos Categóricos: Estos datos clasifican o agrupan algo. Por ejemplo, el color de los ojos (azules, verdes, marrones) o el tipo de música que te gusta (pop, rock, clásica).
Categórico y Numérico
Categórico: Estos datos ponen las cosas en categorías o grupos. No tienen un orden específico. Ejemplos:
Tipos de frutas (manzana, plátano, naranja)
Marcas de autos (Toyota, Ford, BMW)
Numérico: Estos datos tienen valores numéricos y se pueden contar o medir. Ejemplos:
Edad de las personas (14 años, 15 años)
Número de hermanos que tienes (1, 2, 3)
Ordinal y Nominal
Ordinal: Estos datos categóricos tienen un orden específico. Por ejemplo:
Tamaños de camisetas (pequeño, mediano, grande)
Clasificación en una carrera (primer lugar, segundo lugar, tercer lugar)
Nominal: Estos datos categóricos no tienen un orden específico. Por ejemplo:
Colores favoritos (rojo, azul, verde)
Género de películas (comedia, acción, drama)
Discreto y Continuo
Discreto: Estos datos numéricos solo pueden tomar valores específicos y no pueden ser divididos. Por ejemplo:
Número de estudiantes en una clase (20, 21, 22)
Cantidad de coches en un estacionamiento (15, 16, 17)
Continuo: Estos datos numéricos pueden tomar cualquier valor dentro de un rango. Por ejemplo:
Altura de una persona (1.65 metros, 1.66 metros, 1.67 metros)
La temperatura en un día (20.5°C, 21.3°C, 22.1°C)
Yo quiero tener un millón de amigos
Y asi más fuerte poder cantar
Yo quiero tener un millón de amigos
Y asi más fuerte poder cantar
Es impresionante estos tipos de datos. Son muy utiles para el desarrollo y analisis de los datos ya que muchos datasets se clasifican por la categoria y otros elementos similares.
Variable o Dato
el ++sabor++ es ejemplo de ++variable++ categórica.
menta granizada, pistacho, DDL, vainilla.... son ejemplos de ++datos++ categóricos
la ++textura++ es ejemplo de ++variable++ categórica
rugoso, liso, áspero, suave... son ejemplos de ++datos++ categóricos
"altura en cm", "peso en kg", "longitud en cm" son variables:
para la variable "altura": 173, 168, 177, 155, 205 son datos
para la variable "peso": 68,75, 45, 91.... son datos