En realidad, analizando este tipo de datos se encuentran aspectos relacionados con los sistemas complejos. Un ejemplo es que tanto en el libro de Moby Dick como en cualquier obra ( un periódico, la biblia, etc.) la distribución de palabras sigue una ley de potencias (o power law). Una explicación a este fenómeno se da con la criticalidad auto-organizada. Para verificar si se cumple esta ley de potencias se debe verifica una tendencia linear graficando en escala logarítmica ambos ejes (un gráfico log-log). En el caso del libro de Moby Dick tenemos:
Esto se conoce como la ley de Zipf. En el libro “How nature works” de Per Bak muestra este ejemplo:
Una forma de tener el gráfico log-log de la distribución de palabras en el libro “Moby Dick” es (cuando ya tenemos el fdist) usando:
a=list(fdist.values())
a=np.array(a)
a=np.sort(a)
a=a[::-1]
plt.yscale('log')
plt.xscale('log')
plt.plot(a)
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?