PlatziDataChallenge #2

Pregunta de la clase:
Jose Antonio Padron Fernandez

Jose Antonio Padron Fernandez

EstudiantePregunta

PlatziDataChallenge Parte 2, estoy muy emocionado al ver tantos estudiantes haber decidido participar en el PlatziDataChallenge. ¡Subamos el nivel! El reto lo compone lo siguiente:

  • Aprobar este curso https://platzi.com/cursos/terminal/
  • Obtener los archivos
    Questions.csv
    y
    Tags.csv
    desde
  • Cargar esos dos CSVs con una función que lea todos los .csv de una carpeta (es decir, leer los CSVs sin espeficicar el path completo) y hacer un merge por la columna
    id
  • Compartir los 3 mejores insights que has encontrado.

Tip: Recuerda estar siempre vigilando tu RAM y frecuencia del procesador.

4 respuestas
    Mayra Carolina Morataya Guerra

    Mayra Carolina Morataya Guerra

    Estudiante

    El top 3 de usuarios que mas publican: Usuario Total 179736 1727 610569 1517 651174 1476

    El usuario 18300 tiene el score mas alto: 5524

    El top 10 de los Tags es:

    • python: 601070
    • django: 62243
    • python-2.7: 34205
    • pandas: 26735
    • python-3.x: 26493
    • numpy: 25659
    • list: 18709
    • matplotlib: 16410
    • regex: 13883
    • dictionary : 13282

    PLATZI.png

    Emmanuel Guerra Sánchez

    Emmanuel Guerra Sánchez

    Estudiante

    Reto (casi) completado

    Me faltaría visualizar también si hay una relación entre el número de palabras válidas y el score de la pregunta 🤔

    Carolina Acosta Muñoz

    Carolina Acosta Muñoz

    Estudiante

    Un poco tarde pero lo logré. Los 3 insights que quiero compartir:

    1. Número total de usuarios en el dataset Questions
    df_tot['OwnerUserId'].nunique() 213927
    1. Top 10 de Tags más usados
    df_tot.groupby('Tag')['Tag'].count().sort_values(ascending=False)[1:11] Tag django 62818 python-2.7 34616 pandas 26854 python-3.x 26814 numpy 25848 list 18951 matplotlib 16521 regex 14047 dictionary 13413 tkinter 10766 Name: Tag, dtype: int64
    1. Top 10 de Tags con más altos scores
    df_tot.groupby('Tag')['Score'].sum().sort_values(ascending=False)[1:11] Tag django 116416.0 numpy 67737.0 list 60352.0 pandas 51380.0 string 46363.0 python-3.x 44465.0 python-2.7 42602.0 matplotlib 42090.0 dictionary 39003.0 pip 25354.0 Name: Score, dtype: float64

    Otros insights aquí