Archivo de la categoría: periodismo de datos

Evolución de sueldos por género en Córdoba

En el nuevo portal de gobierno abierto de la ciudad de Córdoba se publican datos de la Caja de Jubilaciones y retiros de Córdoba sobre el haber medio de los beneficiarios según sexo por sector (2003 a 2016).

Estos datos muestran la evolución de la jubilación promedio por cada sector de actividad y por género. Si bien no existen formalmente diferencias de sueldos por género para un mismo cargo es posible que debido a que en general los hombres ocupan los cargos de mayor jerarquía y sueldo estos últimos cobran finalmente un jubilación mayor.

De esta forma podemos ver que en casi todos los casos, en promedio, la jubilación de un hombre es mayor a la de una mujer.

Al estar los datos desagregados por actividad es posible ver el grado de diferencia de género que hay en cada rubro. Si se toma el valor de la jubilación promedio mes a mes entre 2003 y julio de 2016 para hombres y para mujeres es posible definir un coeficiente simple.

Jubilación hombre / jubilación mujeres * 1000

De modo que un valor de 1000 significa que ese mes los hombres y las mujeres en promedio cobran la misma jubilación. En el siguiente gráfico se muestran todos los rubros en toda la serie. El gráfico es interactivo por lo cual se pueden ocultar o mostrar cada una de las series simplemente clickeando sobre su nombre a la derecha. También es posible ampliar gráfico, de esta forma se podrá apreciar mucho mejor los datos y las funciones interactivas que incluye.

Lo destacable del gráfico son claramente los dos extremos. Por un lado EPEC es la categoría con mayor diferencia de sueldo. En 2003 la jubilación promedio era 65% superior y actualmente es 55%. Si bien bajo (como todas las series) es la que claramente tiene mayores diferencias.

En el otro extremo estan los docentes. En 2003 el promedio era sólo 5% favorable a los hombres, hoy es levemente (menos del 1%) favorable a las mujeres.

Estos datos puestos en conjunto muestran una realidad que todos ya intuíamos. En general, los puestos más importantes son (fueron es mejor, ya que hablamos de jubilados que ya no ejercen) ejercidos por hombres.

En el trabajo diario que desempeño para la Municipalidad de Córdoba también tenemos nuestros propios análisis de genero en desarrollo (y prontos a liberar). Bueno sería que EPEC y las demás instituciones de gobierno y privadas comiencen a hacer sus propios estudios.

IPC Córdoba vs Paritarias

Navegando por la pagina de Estadísticas de la Provincia de Córdoba, nos encontramos con un archivo conteniendo el IPC de Córdoba desde 1968. Así que propusimos visualizar un poco esos datos:

inflación historico

Luego, nos pareció interesante compararlo con el acuerdo paritario promedio, para reflejar el desfazaje entre la inflación (según el IPC de Córdoba) y el incremento salarial de los trabajadores producto de la negociación paritaria. Para los últimos 5 años, el resultado es el siguiente:

ipc vs paritaria

Desde Open Data Córdoba fomentamos la liberación de datos y el uso de los mismos por parte del periodismo, como así también la práctica de transparentar el análisis que se hizo para que los resultados puedan ser reproducidos y verificados.

Link al archivo conteniendo los datos del IPC Córdoba.

Link al análisis y la fuente de datos de los reportes.

Modernizando el sistema electoral

Vivimos actualmente en Argentina un debate acerca de la necesidad de modernizar nuestro sistema de votación. Claramente el sistema actual es mejorable y a partir de sus fallas visibles se propone como solución un sistema denominado de boleta electrónica [1] con máquinas [2] dispuestas para el caso.

La discusión papel vs electrónico parece una simplificación del problema. Una elección no es un acto indivisible, consta de varias etapas y en cada una de ellas cada sistema tiene sus pros y sus contras. No tenemos que elegir uno de las dos, podemos tomar lo mejor de cada uno.

En cualquier caso la pregunta no es voto electrónico si o voto electrónico no, es más amplia: ¿Qué podemos hacer para agilizar y transparentar todo el proceso electoral?

Las boletas partidarias independientes que usamos hoy tienen múltiples defectos y en general se superan con la Boleta Única en Papel. La impresión desmedida de boletas, ausencia de boletas de un partido, el reemplazo de boletas por versiones falsificadas, la complejidad y demoras en el corte de boletas se resuelven dejando de lado las boletas tipo sábanas.

En general si se le pregunta a las personas a favor del voto electrónico por las ventajas de este medio se inclinan por la velocidad y la transparencia.

Los defensores del voto en papel plantean la universalidad en la posibilidad de controlar y auditar el día de la elección.

Paradójicamente los argumentos a favor del voto en papel son más complejos y vienen de personas más afines a la tecnología.

Lo cierto es que esperar resultados hasta altas horas de la noche es en general molesto y despierta la suspicacia de muchos.

Reducir el tiempo en que los primeros resultados llegan a la ciudadanía no se consigue necesariamente con el voto electrónico, estas demoras están mucho más relacionadas a las acciones posteriores a la votación, no a la jornada electoral. La jornada electoral termina en ambos casos a la misma hora.

El sistema actual post votación incluye:

  • El traslado de las urnas y actas hasta una oficina del correo (u otros lugares habilitados)
  • El envío de un fax de baja calidad, con números escritos a mano al centro de cómputos.
  • La interpretación de esos números por un scanner o un operador.

Esta es la clave de la tan discutida demora. El método actual es inseguro, lento e inexacto. Las propuestas integrales de voto electrónico lo resuelven (o al menos lo proponen) mejor que el sistema actual, más seguro y más rápido.

Disponer de métodos de carga de los datos que no impliquen números en puño y letra y el envío faxes puede ser la clave.

Este cambio puede aplicarse sin necesidad de que el votante emita su voto en una máquina. Puede emitirse y controlarse el voto en papel y luego resolverse con una máquina (que podría ser un teléfono o tablet especialmente dispuesto para el caso) por escuela en un momento posterior a la votación.

El software usado para el envío de datos debe ser abierto y estar al alcance de todos los partidos que podrán enviar los datos a sus centros de cómputos al mismo momento que la justicia electoral.

La seguridad en la transferencia de estos datos debe ser auditada abiertamente por especialistas, universidades, organizaciones y los mismos partidos políticos.

Esta parte del proceso es la más delicada pero en cualquier caso sería superadora en tiempo, calidad, transparencia y exactitud del sistema de faxes actual.

Otros aspectos a modernizar

Padrones electorales

No parece ser parte del proceso eleccionario pero es importante y si de modernización hablamos, tienen mucho que mejorar.

En los municipios de Córdoba (y posiblemente en otros distritos) los partidos políticos tienen derecho a recibir los padrones para control 15 días antes de las elecciones. Al no estar especificado el formato en algunos casos los partidos reciben copias en papel, en algunos casos en PDF y en contadas ocasiones en un formato listo para análisis más extensos.

Un partido político debería poder analizar:

Muchos de estos análisis no pueden hacerse con padrones en el estado actual.

Los partidos políticos requieren modernizarse para garantizar que el control en esta etapa es posible y se realiza sin limitaciones técnicas. El material que utilizan ya podría venir filtrado y analizado según controles que se consideren de utilidad.

La justicia electoral debe además garantizar la estandarización en la que los datos de domicilio son almacenados. Hoy existen numerosos electores con domicilios dudosos o poco específicos. La denominación Calle Pública s/n hoy es muy usada, barrios privados que solo tienen un domicilio y centenares de electores no especificados, etc.

Datos electorales

Actualmente los datos de los resultados de las elecciones dejan mucho que desear. En primera instancia, en el conteo provisorio, los datos están sin validar y con errores. Luego del conteo definitivo los datos son entregados con  menor nivel de detalles.

Gradualmente, elección a elección han habido mejoras en la publicación. De todas formas todavía puede transparentarse mucho más.

El orden de publicación de los datos no respeta un criterio de proporcionalidad entre distritos. De esta forma muchas veces los resultados varían más de lo deseado a lo largo de la noche del conteo de votos. Ordenar la publicación de los datos ayudaría a aumentar la confianza en los resultados.

Cierre

Hay mucho para hacer para volver más transparente y ágil nuestro proceso electoral. En general una computadora (impresora, teléfono o cualquier dispositivo) no aumenta la transparencia, es una caja negra.

Los que recibimos llamadas telefónicas los domingos con consultas técnicas de todo tipo, los que hacemos colas en los cajeros automáticos, hasta los que usamos simples máquinas expendedoras de cualquier producto lo hemos visto. No es fácil interactuar y entender cabalmente cómo funcionan estos equipos. No somos ágiles usándolos, no los comprendemos.

Necesitamos que la jornada electoral donde todos participamos y controlamos sea auditable sin ninguna complejidad extra. Cualquier persona con un nivel básico de conocimiento debe poder ser parte del proceso.

Las máquinas aumentan notablemente la complejidad y los requerimientos de seguridad. Son caras, generan basura electrónica no reciclable, quedan obsoletas con facilidad, etc.

Es por esto que nos definimos a favor de la boleta única en papel con transmisión moderna de resultados pero con miles de ojos mirando y auditando el proceso.

1- Es en realidad voto electrónico pero se eligió esta denominación en CABA para evitar trámites administrativos que hubieran requerido aprobación en la legislatura.
2- Algunos defensores de este sistema indicaron que esta máquina es solo una impresora pero claramente el equipo internamente es una computadora.

Mapa de Empresas Argentinas Involucradas en el Panamá Papers

El día de ayer (Lunes 9 de Mayo del 2016) el sitio web https://offshoreleaks.icij.org/ publicó la base de datos de las compañias Offshore que se vieron involucradas escándalo de los Panamá Papers.

Desde OpenDataCórdoba filtramos los datos de las 270 Compañías Argentinas y nos tomamos la molestia de geolocalizarlas en un Mapa para una mejor visualización.

A los curiosos, les dejamos el link:

https://www.google.com/maps/d/viewer?mid=1y5wh_ZdhutXO-S6X9V2wRDIAmSo.

La liberación de este tipo de información no solo es de suma importancia para el Periodismo y la Justicia, sino que le provee a los ciudadanos de materia prima para poder hacer sus propios análisis y obtener sus propias conclusiones.

Desde OpenDataCórdoba fomentamos la apertura de datos que permita un acceso más transparente a las fuentes de información.

Análisis de Irregularidades en el Escrutinio Provisorio – PASO Presidenciales 2015

Desde OpenDataCórdoba nos propusimos analizar los datos del escrutinio provisorio de las PASO Presidenciales 2015 realizadas el pasado Domingo 9 de Agosto. Cabe destacar que el analisis fue acotado en el tiempo y de continuarse es probable que se encuentren más observaciones. Los resultados no son exhaustivos ni pretenden abarcar el 100% de las irregularidades, se entiende que los datos entregados son provisorios y pueden variar de los definitivos. Igualmente se ejecutó el análisis de manera tal que se pueda repetir nuevamente con los datos finales de las elecciones.

Objetivo del Análisis

Analizar los resultados provisorios de las Elecciones PASO Presidenciales de todas las mesas del territorio Argentino en busca de posibles irregularidades en el proceso de conteo y carga de datos.

Se buscó analizar de manera explorativa tanto los datos presentes en el telegrama como posibles errores en el ingreso de datos al sistema de recuento que generen discrepancias entre lo que dice el papel y lo que quedó registrado en el sistema.

Para cada análisis se detallan las mesas encontradas para que los lectores puedan consultar en www.resultados.gob.ar por dichos telegramas para aportar comentarios y sumar información.

El tiempo invertido en el análisis quedó delimitado por una tarde de mates. (Aproximadamente 2.5 termos.)

Hallazgos

  1. Se encontraron y analizaron un total de 62 mesas con irregularidades que representan aprox un 0.007% del total de mesas.
  2. Las Irregularidades que se encontraron fueron:
    1. Mesas en las cuales, en el telegrama, el Total De Votos es Mayor al total de Votantes en Dicha Mesa y por ende, en los datos registrados en el sistema se transporta el error.
      1. Ejemplo: Buenos Aires – Moron – 0669 – 364
    2. Mesas en las cuales, en el telegrama, los números escritos eran ilegibles o «confusos» y por ende, los datos ingresados al sistema difieren al del telegrama.
      1. Buenos Aires – Almirante Brown – 0018A – 169
    3. Mesas en las cuales, en el telegrama, se observaba una coherencia en los datos pero la cantidad de votos resulta sospechosa dado que se aleja a los valores normales de las restantes mesas de dicho circuito.
    4. Mesas en las cuales, en el sistema, aparecía cargado para la Alianza UNA, la Cantidad Total de Votos de la mesa en vez de los votos correspondientes al Candidato. Esta fue la irregularidad más extraña que se encontró dado que es un error sistemático y que se repite en varias mesas. Este es un error en la carga de datos, dado que en el telegrama los casilleros de dicho candidato estaban vacios o eran menores.
      1. Ejemplo: Buenos Aires – Vicente Lopez – 1000 – 516

Procedimiento

1) Se buscó y verificó manualmente las mesas donde más votos se obtuvieron por partido. Una vez identificadas, se contrastó una por una en la página web www.resultados.gob.ar. Se llegó a analizar las primeras 35 mesas, y en todas se encontraron alguna de las irregularidades antes mencionadas.

Se adjunta listado y detalle:

top 35 mesas mas votadas

2) Se calculó por Provincia, Municipio, y Circuito, el promedio y desviación estándar de los votos de cada Alianza. Se identificó luego, aquellos circuitos con mesas donde la cantidad de votos para la alianza difiere en mas de 7 Desviaciones Estandar de la media. (valores estadísticamente menos probables donde se podría inferir una mayor probabilidad de irregularidad). La cantidad 7  fue definida en base a obtener una submuestra lo suficientemente chica como para poder revisarlo a mano en una hora.

Se adjunta listado:

conteos_sospechosos_completo

 

Conclusiones

Las mesas con irregularidades encontradas al día de la fecha representan aproximadamente un 0.01% de las mesas escrutadas, por lo que las posibilidades de que representen un cambio en las tendencias nacionales es poca. (Desde la opinión de quien escribe)

El objetivo de este artículo no apunta a identificar la posibilidad o no de un fraude electoral sino a demostrar cómo una política de Datos Abierta (que promovemos desde OpenDataCórdoba) puede ayudar a transparentar y mejorar el procedimiento electoral al permitir que el ciudadanos participe activamente controlando el proceso de ingreso y recuento de votos.

En algún momento las elecciones deberán pasar por procesos de evaluación más complejos. Desde los padrones hasta los resultados tenemos mucho para hacer. Este tipo de análisis es una forma de mostrar que lo que tenemos hoy en día en cuanto a transparencia electoral es limitado.

Detalles

Los detalles del análisis pueden encontrarse en esta página web. El análisis se continua haciendo por lo que el link puede contener material incompleto. Se reciben comentarios, sugerencias y correcciones.

 

¿Cuantas personas votan por cada domicilio?

En este momento, en la televisión, un funcionario de la Justicia Electoral de la Provincia de Córdoba indica que el método de control de los padrones previo a las elecciones es la publicación en papel de los mismos. Estos padrones se exponen en todas las comisarías de la provincia y es responsabilidad de los partidos políticos y los ciudadanos hacer el control y denuncias si fuera necesario.

Año 2015, parece mucho. Va de nuevo:

El control de los padrones electorales es responsabilidad de los partidos políticos y los ciudadanos y se hace en papel.

Hace algunos días llegó a nuestras manos una versión digital (una planilla de Excel, debería ser abierta y accesible para todos) del padrón usado para las últimas elecciones a intendente en la ciudad de Villa Allende.

Este set de datos es bastante simple y no permite demasiados análisis. Sólo incluye los nombres, apellidos, domicilios y escuela de votación de cada ciudadano.

Un problema con estos datos es el nombre de las calles. Por ejemplo la misma calle Duarte Quiros puede aparecer tambien como D. Quiros u otras variantes. Esta dificultad puede resolverse parcialmente (y así lo hicimos) usando herramientas como OpenRefine. Al momento de hacer un análisis estricto basado en los domicilios esta es un dificultad importante. La existencia nombres de calles duplicadas también lo es.

A pesar de estas dificultades hicimos un análisis simple preguntándonos.

¿Cuantos votantes hay en cada domicilio? 

Antes de liberar este estudio quitamos los nombres, apellidos y DNIs del set de datos inicial. Intentamos con esto anonimizar los datos y centrarnos en los domicilios y no en las personas.
Estos datos y el procesamiento pueden verse aquí. Usamos GitHub como plataforma ya que permite a otros rehacer el proceso, mejorarlo, proponer cambios, validarlo, etc.

Los resultados finales deben analizarse cuidadosamente. El primer domicilio -por ejemplo- corresponde al Hogar Padre Lucchese.
Los datos están disponibles aquí:

domicilio votantes
jeronimo-luis-de-cabrera 256 140
chacabuco 201 67
paso-de-los-andes 501 43
paso-de-los-andes 0 43
jeronimo-luis-de-cabrera 0 29
barcelona 2084 25
duarte-quiros 434 20
san-clemente 1614 20
elpidio-gonzalez 1500 19

 

Andres Snitcofsky (@rusosnith) tomo estos datos y los puso en interesante mapa (lo hizo antes de refinarse con OpenRefine).

Villa allende votacion

El equipo periodístico de los SRT tomo estos datos e hizo avances interesantes en CBA24N.  Lo mismo hicieron en La Voz del Interior en este informe. Son buenos ejemplos de como las comunidades de programadores y periodistas podemos complementarnos e interactuar.

Proyección de Votos: Elecciones Santa Fe

A partir de los resultados reñidos en las elecciones de Santa Fe, desde el grupo Open Data Córdoba surgió la idea de tratar de «adivinar» quién será el ganador de las elecciones una vez finalice el escrutinio final. Para lograrlo decidimos analizar los datos disponibles en http://elecciones.santafe.gov.ar/descargas#.

Punto de partida:
En el escrutinio provisorio realizado en la provincia de Santa Fe quedaron sin escrutar 347 mesas:
 – 304 telegramas fueron desestimados.
 – 33 mesas no fueron cargadas.

 

Objetivos planteados:
 – Calcular la proporción «promedio»  de votos de una mesa por seccional.
 – Multiplicar esos valores promedio por la cantidad de mesas no escrutadas por seccional.
 – Sumar los votos a los escrutados.
 – Calcular proyección del Resultado final de las elecciones.

 

Los resultados fueron:
 – Segun esta proyección gana el FRENTE PROGRESISTA CIVICO Y SOCIAL por aproximadamente 2600 votos.

 

Conclusiones:
Más allá de la conclusión del análisis en si, es bueno remarcar:
 – No es la primera vez que se utilizan datos públicos para ayudar a transparentar  el proceso electoral. (Link)
 – Estos datos y análisis permiten una mayor participación ciudadana en la Política Nacional.
 – Generar esta información y hacerla pública permiten crear indicadores y cifras que ayuden a la transparencia electoral.
 – Las políticas de datos abiertos otorgan a los ciudadanos y a los partidos políticos de herramientas y materia prima para consolidar un sistema democrático más transparente.

Desde Open Data Córdoba esperamos que más gobiernos se sumen a esta iniciativa de publicar datos sobre los resultados electorales.

Colaboradores
@tin_nqn_  – Martín Gaitan
@pdelboca  – Patricio del Boca
@jairotrad  – Jairo Trad
@frod_f  – Franco Rodriguez

Promedio de Votos en Secciones DesestimadasPromedio de Votos en Mesas Pendientes
(Gráficos con los detalles de promedios en Secciones con mesas desestimadas y pendientes.)

Mediathon ECI 2014 – Taller de Periodismo de Datos

El pasado viernes 7 de noviembre en el edificio de la Incubadora de Empresas de la UNC se llevó a cabo la Mediathon ECI 2014, en el marco de las III Jornadas de Comunicación Digital de la Escuela de Ciencias de la Información de la UNC.

Durante todo el día, estudiantes y egresados de la Escuela de Ciencias de la Información de la UNC, junto a programadores del grupo Open Data Córdoba, dieron forma a proyectos de análisis y visualización de datos que surgieron de las inquietudes de los propios participantes.

Luego de una breve introducción sobre las herramientas necesarias para trabajar en Periodismo de Datos, las formas de acceder a Bases de Datos Públicos e introducir a los estudiantes en algunos conceptos que tienen que ver con el trabajo de los programadores, y que permiten contar con datos susceptibles de ser analizados; se formaron los grupos y comenzó un intenso trabajo de búsqueda de datos y análisis de la información, que decantó en cuatro proyectos que se presentaron al finalizar la jornada.

Los participantes destacaron la apertura de este espacio, por su interdisciplina y la posibilidad de hacer periodismo utilizando herramientas digitales, que les permiten crear y estimular el espíritu emprendedor.

 

Las propuestas

  • “Bajo la lupa” es una investigación sobre los perfiles de los posibles candidatos para la gobernación de la provincia de Córdoba en 2015. Flavia Fochesato, Maria Inés Condat, Lucía Moreno y Ariel Rivadaneyra encontraron dificultades en acceder a información pública sobre las figuras políticas, lo que interpretan como falta de transparencia en los candidatos.

 

  • “Proyecto 700 escuelas” se propuso indagar en la partida presupuestaria que el Estado envía a distintas instituciones del país. Debieron reorganizar los datos para clasificarlos por provincias ya que sólo aparecían los nombres de las ciudades donde se encuentran las escuelas beneficiadas. Agustín Lorenzo, Micaela Zapata y Mónico Mategazza fueron los autores de esta investigación.

 

  • “Publicaciones científicas en la UNC” está destinado a organizar la base de datos de publicaciones por disciplina y unidad académica. Uno de los obstáculos es que la información está en una base de datos cerrada por lo que requiere abonar una tasa para acceder a ella. Sus integrantes fueron Marysol Farneda, Josefina Cordera, Adrián Pino y Pablo Celayes.

 

  • “DataBum” consistió en un relevamiento de aquellas industrias químicas que existen en la ciudad de Córdoba. La propuesta pretende ofrecer a los vecinos una idea de cuáles son las zonas donde está permitida la ubicación de industrias y a la vez, revisar si tienen una correcta habilitación de acuerdo a su actividad para prevenir posibles accidentes. Los miembros del equipo fueron Gonzalo Reyes, Julia Buyatti, Manuel Ruiz, Magdalena Bagliardelli, Elena Brizuela y Franco Luque.