Bienvenida e introducción

1

Todo lo que aprenderás sobre el lenguaje R

2

Programación y Data Science

3

R y proyecto economía naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros cálculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qué es EDA: Exploratory Data Analysis

14

Gráficas de dispersión e histogramas.

15

Box Plot y su interpretación

16

EDA con dataset proyecto - Gráficas de dispersión.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gráficas de dispersión con más de dos variables - ggplot2

22

EDA con dataset proyecto usando gráficas de dispersión con más de dos variables - ggplot2 - plotly

La estadística de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la función cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la función cor en dataset proyecto.

27

Protegiéndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los cálculos.

29

Estadística y visualización aplicada a análisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualización

32

Viendo más información con facet wrap - Parte 1

33

Viendo más información con facet wrap - Parte 2

Organizar visualizaciones y código con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del análisis en un documento PDF.

Conclusiones Finales

35

Invitación a continuar recorriendo el mundo del data science.

Programación y Data Science

2/35
Recursos

La ciencia de datos es muy útil para cualquier área laboral. Actualmente estamos viviendo la cuarta revolución industrial gracias a la masiva cantidad de datos que generamos día a día, las empresas con estos datos buscan satisfacer de mejor forma nuestras necesidades, aquí nace el Big Data.

Big Data se compone de tres componentes claves:

  • Volumen: tiene una cantidad de datos mucho mayor a la soportada dentro de un Excel.
  • Velocidad: mayor a la acostumbrada con anterioridad.
  • Variedad: se manejan datos estructurados y no estructurados como fotos, mensajes, etc.

Un científico de datos necesita tener los conocimientos de:

  • Matemáticas y estadística.
  • Programación.
  • Conocimiento del negocio o contexto.
  • Habilidad para visualizar los datos y capacidad para comunicarlos.

Aportes 53

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Resumen:

Data science y programación van de la mano, un programador debe´ria conocer de ciencia de datos pues estos se encargan de recolectar los datos a través de las interfaces y los datos son la materia prima para la data sciencie. Se hace un recuento de la revolución industrial ( las revoluciones industriales). Hoy se vive la 4º revolución industrial, IoT, AI, los datos se producen constantemente, las empresas nos conocen por los datos que producimos.

Big Data es muchísimo mayor a las 16 mil columnas.
Volumen. Velocidad.Variedad son los requisitos, manejamos muchos datos no estructurados. Es decir, no en columnas.
Se requieren conocimientos de matemáticas estadística, programación, conocimiento de negocio y contexto, visualización y comunicación. Responder preguntas a través de los datos.

Comparto mis notas del curso utilizando la versión 4.0.2 de R y windows 10, espero les sean de utilidad dado que con el tiempo cambian algunas cosas, dejo los datasets y los scripts en el mismo repositorio

https://github.com/rb-one/Fundamentos_R/blob/master/Notes/notes.md

La veracidad se considera como el cuarto componente de Big Data

**BIG DATA **

Cuando hablamos de Big Data nos referimos a conjuntos de datos cuyo tamaño (volumen), complejidad (variedad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales.

**3 TÉRMINOS CLAVE **

  • VOLUMEN :
    se habla de big data cuando tenemos una cantidad de datos mucho más grande que la que soporta un excel (1048000 filas y 16000 columnas).
    algunas fuentes coinciden en que la cifra exacta de volumen de un conjunto de datos debe ser de más de 30 Teras para ser considerado big data

  • VELOCIDAD:
    habla de la velocidad con la que se generan datos.

  • VARIEDAD:
    hace referencia a que ahora manejamos datos estructurados (filas y columnas) y no estructurados (fotos , tuits)

¿Que necesitan abarcar los Científicos de Datos:

  • Matemáticas y Estadística
  • Programación
  • Conocimiento sobre el negocio y el contexto donde se encuentran los datos
  • Habilidad para visualizarlos y para comunicarlos.

¿Para qué aprender ciencias de datos?

A que perfiles le sirve aprender ciencia de datos:

  • Ingenieros
  • programadores
  • Si estas en el mundo social como en Marketing, periodismo de datos
  • Si en tu día a día debes interpretar y analizar datos
  • Cuando excel ya no te sirve, se queda corto para el trabajo, la velocidad de procesamiento
  • Cuando necesitas presentar visualmente resultados como informes

.

.

Características del Big Data


Volumen: excel ya se nos queda corto, manejamos más de 1.048.000 filas y 16.000 columnas

Velocidad: estamos acostumbrados a la rapidez en el procesamiento de los datos un ejemplo de ello es el uso de las redes sociales y el valor del tiempo

Variedad: manejamos datos estructurados y no estructurados

     Estructurado 👉 bases de datos con tablas en filas y columnas

     No Estructurados 👉 fotos, videos, mensajes en redes, audios

Small Data

Los científicos de datos no sólo trabajan Big Data 🤔 también Small Data.

Este lo usan en el trabajo diario en las empresas, desarrollo personal

¿Qué necesitamos para trabajar Big Data y Small Data?

Desarrollar la habilidad de responder preguntas a través de los datos

Vine buscando oro y encontré diamantes invaluables!

Apasionante el Mundo de Data Science

Data science y la programación son importantes ya que por medio de estos se obtiene información relevante que va de acuerdo con los objetivos y metas que una organización se propone, esto hace que la toma de decisiones sea informada y más eficiente, lo cual permite obtener predicciones o probabilidades de escenarios donde se permitan realizar un análisis más adecuado y direccionado.

La Big Data es necesario ya que por medio de esta se puede procesar datos a mayor escala, esta tiene 3 componentes claves:

  • Volumen
  • Velocidad de los datos ya que permite procesar mayor cantidad
  • Variedad ya que existen datos estructurados y no estructurados

Para esto se necesita conocimiento matemático, de programación, conocimiento del negocio y la visualización de los datos al igual que la comunicación que con estos datos se pueden responder preguntas a través de probabilidades, estadísticas

Empezando el curso con mucha espectativa

Small Data

Necesitamos: Mates-Estadistica, Programacion, Conocimiento-Contexto, Visualizacion-Comunicacion

Me gustaría que me recomendaran que temas de matemáticas a parte de estadística y probabilidad es necesario manejar para ser científico de datos?

Excelente introducción

No sabía de small data!

Este curso promete!

Emocionante poder vivir en una nueva era como la 4ta Rev Industrial. Hay que aprovechar todas las ventajas que esto supone y estar al dia de todo lo nuevo que esta en demanda

¿Que necesitan abarcar los Científicos de Datos:

  • Matemáticas y Estadística

  • Programación

  • Conocimiento sobre el negocio y el contexto donde se
    -encuentran los datos

  • Habilidad para visualizarlos y para comunicarlos.

V’s of big data:
velocity, volume, variety, veracity, value

La cuarta revolución industrial es la que toma decisiones en base a procesar grandes cantidades de información para la toma de decisiones.

Componentes claves del Big Data:
-Volumen
-Velocidad
-Variedad

cada día aprendo más de este mundo, espero aplicarlo mas adelante

Me parece importante resaltar que no solo es importante aprender un lenguaje como R o Python en otros casos para manipular Big Data, como bien lo dice Sonia en el video, estos lenguajes (en este caso R) son muy útiles para manejar Small Data porque la versatilidad del lenguaje nos permite tener un mejor manejo de los datos y en ese sentido resulta muy útil manipular grandes y no tan grandes conjuntos de datos a través de estos lenguajes.

Muy interesante

Hola Sandra es posible manejar dataset de 3.000.000 de registros con R sin latencia o que truene la consulta?

Big Data: Volumen, Velocidad, Variedad

HOY 4ta Revolucion industrial: Big Data

1969 3ra Revolucion industrial: Electronica

1870 2da Revolucion industrial: Energia electrica

1784 1ra Revolucion Industrial: Maquina de vapor

Data Science

Data Science

componentes claves de big data

  • volumen: cantidad de datos mucho más grande de lo que cabe en un excel.
  • velocidad: debido a la gran velocidad de interacciones todo el tiempo.
  • variedad: manejo de datos estructurados y no estructurados.

Super…Curso 😃

Sobre todo visualizar y comunicar resultados.

Excelente inicio de curso…

4 Revolución industrial

Tengo conocimiento que bigdata es posible aplicarlo No a grandes volumenes de datos, con el fin de optimizar modelos de negocio. pero no necesariamente se necesita gran volumen de datos. Estoy en lo correcto ?

Big data revolution…

interesante!

Llegue aquí por curiosidad pero esto debo aprenderlo xD

El concepto de SMALL DATA no es tan conocido porque siempre se piensa en términos de BIGDATA Es interesante el concepto que presenta Sonia al tener en cuenta este segmento de datos tienen la misma relevancia que los grandes volumenes de datos.

De los 4 componentes claves del Big Data: volumen, velocidad, variedad y veracidad, pensaría que el reto más grande de tratar es el de veracidad, ya que cada vez es más complejo poder validar que un dato es correcto o no. ¿Creen que si es así, o puede haber un reto más complejo de abordar entre estos componentes?

Grandes expectativas con este curso, espero estar al nivel y que pueda aprovecharlo

Excelente introduccion, con muchas expectativas en el curso,

Sin saber hice mi tesis de ingeniero analizando small data con un estudio de mercado, así que aprender de Big Data no será completamente desconocido 😃

Muy a la expectativa!

Muy interesante video, listo para comenzar otra ruta de aprendizaje.

Así que la cuarta revolución industrial sucede con la cantidad masiva de datos.

Excelente introducción!! 😃

en base a experiencia personal, usualmente la small data es manejada a traves de herramientas como excel, pero excel tiene otro limitante y es el consumo de ram cuando se aplican varias formulas de excel para obtener un analisis de datos, dicho limite en por lo menos el computador de donde trabajo es de 16.000 lineas.
He visto que R me ayuda a sobrepasar ese limite y de hecho por varios ejemplos de youtubers estadisticos se pueden hacer cosas tremendas con small data.