Introducción
El portal preciosclaros.gob.ar es una iniciativa de la Dirección Nacional de Defensa del consumidor lanzada en mayo de 2016. Así se anunciaba:
https://www.youtube.com/watch?v=q2Pkbmj46G0
El sitio provee una amplia información sobre los productos en góndola de todas las cadenas de supermercado del país. Desde la descripción de precios y marcas hasta la ubicación en los diferentes puntos de venta.
Desde Open Data Córdoba relevamos y analizamos la publicación de los precios con el objetivo de visualizar el impacto de la última devaluación en los productos que consumen los argentinos.
Conjunto de Datos
Para este informe se analizó una base de datos que consta de:
- 43932 cantidad de productos
- 956 cantidad de sucursales de todo el país.
- Para un período de 5 semanas
- Generando una fuente de datos de más de 27594485 precios. (Precios de Productos que varian por Sucursal)
Para más detalle, se adjunta al final algunas consideraciones metodológicas.
Principales Descubrimientos
Aumento por Empresa dueña de Cadenas
Aumento por Fabricantes
Aumento por Cadenas
Aumentos por Categoria
Aumentos por Provincia
Algunas conclusiones e inquietudes
Open Data Córdoba considera al análisis de datos relevantes como una importante herramienta para el empoderamiento de la ciudadanía, la mejora en la creación de Políticas y sobre todo generando un necesario debate público.
Además consideramos rotundamente que la base de datos de Precios Claros deberían ser pública y accesible a toda la ciudadanía. Esta base de datos debería incorporarse al Portal de Datos Abiertos de la Nación porque posee un valor enorme para economistas, estudiantes e investigadores. La información existe y que dicho acceso sea solamente a través de herramientas se scraping es un desperdicio.
Este artículo propone ser un disparador de qué preguntas se le pueden hacer a estos datos. En próximos artículos estaremos profundizando sobre distintos subconjuntos. Además, esta base que generamos es abierta y, hasta que definimos dónde publicarla, pueden consultar por la misma a través de nuestro twitter.
Consideraciones Metodológicas
Fuente de Datos
El programa Precios Claros sigue funcionando a pesar del escaso impulso y publicidad. Desde el sitio se pueden comparar los precios y los productos que conforman la canasta alimentaria. Es una importante herramienta de consulta para que los consumidores puedan visualizar los precios de las sucursales más cercanas antes de cualquier compra. El acceso a mayor información sobre los precios de las diferentes cadenas de supermercados empoderan a los compradores en su organización y economía familiar.
El portal está concebido para consultas en tiempo real de un conjunto de productos, no para hacer un análisis de inflación.
Se desconoce la frecuencia de actualización de la información, pero se considera al precio que se publicita como el vigente. Con una radiografía diaria del sitio se puede hacer un análisis comparado de los precios y calcular el porcentaje de aumento durante los últimos dos meses en diferentes provincias y localidades.
En definitiva poder observar las variaciones de precios por sucursales, cadenas de supermercados, analizar las categorías de productos, marcas y fabricantes.
¿Cómo se obtuvieron los precios?
Se realizó un scraper con un software eficaz que navega de forma automática por un sitio web. El software se programa en base a un conjunto de reglas para extraer información “cruda” del portal Precios Claros. Los datos recolectados luego son almacenados de manera estructurada para permitir su análisis.
La totalidad de precios es Inmensa, tal es así que tiene una demora casi de 24 horas por cada relevamiento produciendo una enorme cantidad de datos. Por este motivo, evitamos ejecutarlo en computadoras propias y lo alojamos en la plataforma scrapinghub.com
La etapa posterior fue la de transformar, limpiar y aumentar los datos para que estén computables. Cabe aclarar que todo el código es abierto y libre. (links)
Limpieza de Datos
Se realizó una tarea de limpieza en los datos para remover algunos valores extremos y nos enfocamos en visualizar aquellos productos cuyo aumento variaba entre -35% y 75%. A posterior dejamos aquellos valores fuera del rango para futuros informes que pueden aportar otro valor al estudio.