Jose Antonio Padron Fernandez
EstudiantePreguntaPlatziDataChallenge Parte 2, estoy muy emocionado al ver tantos estudiantes haber decidido participar en el PlatziDataChallenge. ¡Subamos el nivel! El reto lo compone lo siguiente:
- Aprobar este curso https://platzi.com/cursos/terminal/
- Obtener los archivos y
Questions.csvdesdeTags.csv - Cargar esos dos CSVs con una función que lea todos los .csv de una carpeta (es decir, leer los CSVs sin espeficicar el path completo) y hacer un merge por la columna
id - Compartir los 3 mejores insights que has encontrado.
Tip: Recuerda estar siempre vigilando tu RAM y frecuencia del procesador.
- python: 601070
- django: 62243
- python-2.7: 34205
- pandas: 26735
- python-3.x: 26493
- numpy: 25659
- list: 18709
- matplotlib: 16410
- regex: 13883
- dictionary : 13282
- Número total de usuarios en el dataset Questions
- Top 10 de Tags más usados
- Top 10 de Tags con más altos scores
David Esteban Solorzano Taborda
EstudianteAun no completo el reto sin embargo pude ver que la mayoria de tags son de python y utilize wordcloud para practicar lo realizado en el ultimo meetup
https://github.com/estebansolo/DataChallenges/blob/master/StackOverflow/challenge.ipynb
Mayra Carolina Morataya Guerra
EstudianteEl top 3 de usuarios que mas publican: Usuario Total 179736 1727 610569 1517 651174 1476
El usuario 18300 tiene el score mas alto: 5524
El top 10 de los Tags es:
Emmanuel Guerra Sánchez
EstudianteReto (casi) completado
Me faltaría visualizar también si hay una relación entre el número de palabras válidas y el score de la pregunta 🤔
Carolina Acosta Muñoz
EstudianteUn poco tarde pero lo logré. Los 3 insights que quiero compartir:
df_tot['OwnerUserId'].nunique() 213927
df_tot.groupby('Tag')['Tag'].count().sort_values(ascending=False)[1:11] Tag django 62818 python-2.7 34616 pandas 26854 python-3.x 26814 numpy 25848 list 18951 matplotlib 16521 regex 14047 dictionary 13413 tkinter 10766 Name: Tag, dtype: int64
df_tot.groupby('Tag')['Score'].sum().sort_values(ascending=False)[1:11] Tag django 116416.0 numpy 67737.0 list 60352.0 pandas 51380.0 string 46363.0 python-3.x 44465.0 python-2.7 42602.0 matplotlib 42090.0 dictionary 39003.0 pip 25354.0 Name: Score, dtype: float64
Otros insights aquí