Justificaci贸n y contexto de tu proyecto

1

C贸mo crear tu proyecto de ciencia de datos

2

Crea proyectos para afianzar tus conocimientos en ciencia de datos

3

Cada cu谩nto hacer un proyecto de datos

4

D贸nde sacar ideas para proyectos de ciencia de datos

5

Generar y comunicar un proyecto de datos

6

Casos: personas que ya pasaron por este camino

Quiz: Justificaci贸n y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Plantea una pregunta interesante

8

Obteniendo los datos para tu proyecto

9

Ejecutando: obteniendo los datos

10

Limpieza de la informaci贸n

11

Ejecutando: limpia tu conjunto de datos

12

Explora y encuentra patrones en la informaci贸n

13

Ejecutando: exploraci贸n de la informaci贸n

14

Ejecutando: completando la exploraci贸n de la informaci贸n

15

Enriquecimiento de los datos para an谩lisis profundo

16

Ejecutando: enriquecimiento de los datos

17

Aplicando un modelo de machine learning

18

Ejecutando: aplicando un modelo supervisado de machine learning

19

Ejecutando: aplicando un modelo no supervisado de machine learning

20

Ejecutando: aplicando un modelo no supervisado de anomal铆as

21

Prepara tu trabajo para comunicarlo con el mundo

22

Ejecutando: prepara tu trabajo para comunicarlo con el mundo

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Por qu茅 es importante comunicar los resultados

24

Escribiendo tu primer blogpost t茅cnico

25

Compartiendo en comunidad con tu primera presentaci贸n

26

C贸mo mejorar tu repositorio en GitHub para ciencia de datos

27

Haciendo deploy de tus modelos

28

Construyendo una aplicaci贸n full stack que consuma tu proyecto

Quiz: Comunicando los resultados

脷ltimos pasos

29

Elige terminar: es mejor terminado que perfecto

30

Recuerda los objetivos del proyecto: practicar y carta de presentaci贸n

31

Comparte tu proyecto

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Explora y encuentra patrones en la informaci贸n

12/31
Recursos

Aportes 9

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

El EDA es para conocer los datos que tenemos 馃搳

Y es que puede pasar que luego de haber recolectado informaci贸n a煤n nos haga falta para responder nuestra pregunta. El EDA (Exploratory Data Analysis) entonces nos hace ver lo que tenemos y lo que podemos hacer con los datos.

驴Y c贸mo podemos podemos hacer un EDA?

Ve de lo m谩s peque帽o a lo m谩s grande. Y de lo m谩s general a lo m谩s espec铆fico.

Un buen inicio es hacer una breve descripci贸n estad铆stica de nuestro dataframe usando df.info(). Luego pasa al an谩lisis univariable, bivariable y multivariable. Adem谩s, recuerda que necesitas mucha visualizaci贸n de datos.

An谩lisis univariable

Aqu铆 buscas entender lo que representa cada variable (columna) por s铆 sola. Puedes usar distribuciones o histogramas.

An谩lisis bivariable

En este caso, tu objetivo es entender la relaci贸n entre dos variables de inter茅s. Puedes usar distribuciones e histogramas, pero ya a帽ades un hue seg煤n necesites. Las correlaciones son muy usadas tambi茅n.

An谩lisis multivariable

Ahora ya necesitas entender la relaci贸n entre 3 o m谩s variables.


Toma el Curso de An谩lisis Exploratorio de Datos para entender m谩s.

El curso de An谩lisis Exploratorio de Datos deben reestructurarlo completamente, fue muy lamentable el curso a diferencia de otros que hay en el learning path de Data Science y esto lo digo con mucha pena.

df.memory_usage( )

Devuelve la cantidad de memoria que utiliza cada columna en bytes. Es 煤til especialmente cuando trabajamos con grandes dataframes.

Empece a encontrar patrones en el tr谩nsito y la verdad es que me llena de alegr铆a ver c贸mo se comporta el transporte automovil铆stico en la ciudad de Montevideo, Uruguay:

Les dejo dos funciones imprescindibles para que puedan visualizar y luego optimizar el tama帽o en memoria de su dataset.

memory_usage = df_data.memory_usage(deep=True) / 1024 ** 2
memory_usage.loc['total'] = memory_usage.sum()
memory_usage = memory_usage.to_frame(name="memory usage of variable (MB)")
memory_usage.style.bar(subset=["memory usage of variable (MB)",], color='#ee1f5f', axis=0).format("{:.6f} MB")
def reduce_memory_usage(df, verbose=True):
    numerics = ["int8", "int16", "int32", "int64", "float16", "float32", "float64"]
    start_mem = df.memory_usage().sum() / 1024 ** 2
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == "int":
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if (
                    c_min > np.finfo(np.float16).min
                    and c_max < np.finfo(np.float16).max
                ):
                    df[col] = df[col].astype(np.float16)
                elif (
                    c_min > np.finfo(np.float32).min
                    and c_max < np.finfo(np.float32).max
                ):
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
    end_mem = df.memory_usage().sum() / 1024 ** 2
    if verbose:
        print(
            "Mem. usage decreased to {:.2f} Mb ({:.1f}% reduction)".format(
                end_mem, 100 * (start_mem - end_mem) / start_mem
            )
        )
    return df

df_data = reduce_memory_usage(df_data, verbose=True)
import pandas as pd
import matplotlib.pyplot as plt

# An谩lisis bivariable de 'cobertura_bruta' y 'cobertura_neta'
plt.scatter(data_limpia['cobertura_bruta'], data_limpia['cobertura_neta'])
plt.title('Relaci贸n entre Cobertura Bruta y Neta')
plt.xlabel('Cobertura Bruta')
plt.ylabel('Cobertura Neta')
plt.show()

Este c贸digo representa los valores de 鈥榗obertura_bruta鈥 en el eje xy 鈥榗obertura_neta鈥 en el eje y. Observar la dispersi贸n de puntos en un gr谩fico de dispersi贸n puede proporcionar una idea inicial sobre la relaci贸n entre estas dos variables.

Adem谩s del gr谩fico de dispersi贸n, existen varias t茅cnicas de an谩lisis bivariable que podr铆an ser aplicadas dependiendo de las variables que desees analizar. Estos incluyen tablas de contingencia, coeficientes de evaluaci贸n, gr谩ficos de l铆neas, histogramas, entre otros, para explorar la relaci贸n entre diferentes pares de variables en tu conjunto de datos.

sos genial se帽or Ricardo

EL GOOGLE COLAB LO CORRE MUY BIEN

me enamore del profe muy lindo curso carajos, lo demas es solo para llenar