El siguiente es un análisis exploratorio para resolver una curiosidad: ¿A qué le canta el folclore Argentino?. El Objetivo es, inicialmente, extraer las palabras más utilizadas. Luego trataremos de ampliar el análisis tratando de agrupar las canciones en distintas categorías, descubrir temáticas en común, agrupar autores por estilo, etc. Pero vamos paso a paso…
Conjunto de Datos
Los datos fueron extraidos de http://www.mifolkloreargentino.com.ar/:
- Cantidad de Artistas: 132
- Cantidad de Canciones: 3665
Hay que tener en cuenta que el Universo de canciones a analizar no es completamente exhaustivo y está acotado a lo disponible en la fuente de datos, igualmente consideramos que 3600 canciones de las más populares es una muestra interesante para analizar. Otra consideración importante es que si varios artistas cantan la misma canción, las palabras de dicha canción serán contabilizadas todas las veces.
Pre-Análisis del Conjunto de datos
Las siguientes tablas pueden ayudar a dar un poco de contexto de qué estamos analizando:
Algunos ejemplos de canciones analizadas:
Cantidad de Canciones de cada artista (Top 10)
Canciones más repetidas en el conjunto de datos:
Análisis de las Canciones
Lo que hicimos fue simplemente descargar todas las canciones, armar una pequeña base de datos y recorrerla con un pequeño programita que recorre todas las letras y va contando cada una de las palabras. Para los curiosos, acá dejamos el link al código al final del artículo.
Palabra más utilizada en el Folklore Argentino
Nube de Palabras para las 50 palabras más usadas
Conclusiones
El autor del post quiere reconocer que se emocionó cuando descubrió que la palabra más usada en el Folklore Argentino es amor.
Del lado técnico, es una tristeza que no exista una base de datos unificada y libre con esta información. Sería bueno empezar a generarla y tener de manera prolija datos como letra de la canción, autor, fecha, versiones, estilo musical, etc. La misma sería de muchísimo valor para la academia e investigadores de nuestra cultura musical.
Próximos pasos
El siguiente análisis deja ganas de seguir explorando la información: ¿Qué comida se menciona más? ¿Qué bebida? ¿Qué provincia? ¿Cómo se compara el ranking de palabras con otros géneros musicales como el Rock Nacional, el Tango o el Cuarteto? ¿Quién es el artista más meloso? Si pudieramos acceder a más información podríamos realizar análisis mucho más exhaustivos: ¿Cómo evolucionaron las temáticas a lo largo del tiempo? ¿Quién es el autor más versionado? etc. Dejamos las preguntas, y los datos recopilados, para los curiosos que tengan ganas de explorar aún más esta info.