Jose Antonio Padron Fernandez

EstudiantePregunta

PlatziDataChallenge Parte 2, estoy muy emocionado al ver tantos estudiantes haber decidido participar en el PlatziDataChallenge. ¡Subamos el nivel! El reto lo compone lo siguiente:

Aprobar este curso https://platzi.com/cursos/terminal/
Obtener los archivos
Questions.csv
y
Tags.csv
desde
Cargar esos dos CSVs con una función que lea todos los .csv de una carpeta (es decir, leer los CSVs sin espeficicar el path completo) y hacer un merge por la columna
id
Compartir los 3 mejores insights que has encontrado.

Tip: Recuerda estar siempre vigilando tu RAM y frecuencia del procesador.

David Esteban Solorzano Taborda

Estudiante

Aun no completo el reto sin embargo pude ver que la mayoria de tags son de python y utilize wordcloud para practicar lo realizado en el ultimo meetup

https://github.com/estebansolo/DataChallenges/blob/master/StackOverflow/challenge.ipynb

Mayra Carolina Morataya Guerra

Estudiante

El top 3 de usuarios que mas publican: Usuario Total 179736 1727 610569 1517 651174 1476

El usuario 18300 tiene el score mas alto: 5524

El top 10 de los Tags es:

python: 601070
django: 62243
python-2.7: 34205
pandas: 26735
python-3.x: 26493
numpy: 25659
list: 18709
matplotlib: 16410
regex: 13883
dictionary : 13282

Emmanuel Guerra Sánchez

Estudiante

Reto (casi) completado

Me faltaría visualizar también si hay una relación entre el número de palabras válidas y el score de la pregunta 🤔

Carolina Acosta Muñoz

Estudiante

Un poco tarde pero lo logré. Los 3 insights que quiero compartir:

Número total de usuarios en el dataset Questions

df_tot['OwnerUserId'].nunique()

213927

Top 10 de Tags más usados

df_tot.groupby('Tag')['Tag'].count().sort_values(ascending=False)[1:11]

Tag
django        62818
python-2.7    34616
pandas        26854
python-3.x    26814
numpy         25848
list          18951
matplotlib    16521
regex         14047
dictionary    13413
tkinter       10766
Name: Tag, dtype: int64

Top 10 de Tags con más altos scores

df_tot.groupby('Tag')['Score'].sum().sort_values(ascending=False)[1:11]

Tag
django        116416.0
numpy          67737.0
list           60352.0
pandas         51380.0
string         46363.0
python-3.x     44465.0
python-2.7     42602.0
matplotlib     42090.0
dictionary     39003.0
pip            25354.0
Name: Score, dtype: float64

Otros insights aquí

PlatziDataChallenge #2