Big Data – Ejercicio utilizando datos de documento PDF

Ingresos presupuestados

26 de abril de 2017.  Comparto un ejemplo de gestión de macro-datos (BigData) con programación R.   Convierto un documento PDF, en texto, para realizar ejercicios con los mismos datos.

Tradicionalmente las comunidades profesionales y técnicas en su proceso de investigación, documentación, validación y/o seguimiento a temas que competen a su accionar requieren obtener datos estadísticos de tablas que solo están disponibles en textos o documentos no estructurados para ser procesados a través de métodos informáticos.

Todos necesitamos información para documentarnos. Tomemos por caso de ejemplo del seguimiento o monitorización del cumplimiento de políticas públicas, sea esta tarea realizada por hacedores o investigadores de las economía, sociólogía. De esta forma pueden detectar variaciones en comparación con períodos anteriores u otros tipos de referencias en ámbitos que abarcan la salud; la justicia, los periodistas, entre otros.

Escuchamos con frecuencia que la información existe, el tema es saber dónde buscarla. Y otra situación es con qué agilidad podríamos procesarla pues reitero, no está siempre estructurada en forma de datos. Muchos de estos documentos, archivos o ficheros electrónicos están disponibles en la WEB, en formato PDF, Word u otros; aparentemente no muy útiles desde el punto de vista informático.

Por otro lado, entre las Tecnologías Emergentes de la Información aparace BigData o los datos masivos disponibles en la web, que hace de la Ciencia de Datos merecedora de seguimiento y entusiasmo.

Contamos con 3.5 mil millones (millardos) de conexiones a la web. No diremos que sean personas, sino conexiones de dispositivos, aunque la mayoría de dispositivos personales como lo es un computador o un móvil inteligente (dispositivos móviles que se conectan a la web y tienen capacidad de ejecutar instrucciones, que abarcan celulares, tabletas, cámaras de vídeo, tocamúsica). Esto es el 50% de la población mundial. Esto logrado en unos 25 años (desde 1992). Sin embargo se estima que habrán más 20+ (¿50?) millardos de conexiones para el año 2020.

Sin duda pocos entienden el impacto de forma práctica, pero tenemos la percepción de que existe mucha información disponble y habrá aún más cuando todos los dispositivos *inteligentes* que conforman la denominada **Internet de las Cosas (IoT, del inglés)**. De forma cada vez más global, la ONU y organismos multilaterales abogan por la transparencia en las informaciones; apoyados en estándares de Datos Abiertos desde el punto de vista informático, para que las instituciones públicas los provean para mejorar la colaboración de la sociedad en el seguimiento a las decisiones públicas. El lector puede visitar información publicada en la pagina web de la Oficina Presidencial de Tecnología de la Información y Comunicaciones.

Caso: Ejecución Presupuestaria del mes 2017, Gobierno República Dominicana.  El portal de la Dirección General de Presupuesto tiene publicada la ejecución presupuestaria del primer trimestre (enero-marzo) del año 2017. Sólo aparece el documento en formato de lectura humana (PDF) en el enlace: Informe Primer Trimestre 2017.

En caso de que quisiéramos realizar proyecciones, los necesitaríamos en formato **Excel**, lo que realizaremos con el siguiente procedimiento:

* Descarguemos el archivo a nuestro equipo.
* Transformemos el archivo **PDF a Texto** (pues combina palabras y numerales).
* Localicemos las páginas donde están ubicadas las informaciones necesitadas.
* Extraigamos estas informaciones creando un archivo de texto con valores separados por comas.
* Los datos deben ser comparados visualmente para cualquier ajuste en caso de que la data esté inconsistente, o fuera de su tabulación correcta.

Este ejemplo no espera más que ilustrar las capacidades actuales para reproducir esta información, aunque podría ser más ágil y fácil si estuvieran los datos disponibles.

Digamos que el informe de la pagina 5 que se presenta como sigue:

Ejemplo de reporte.

Cuadro 1. Recaudación de ingresos por clasificación económica.

Luego de ejecutar estas rutinas programáticas en lenguaje R (mayores detalles en github), tenemos la capacidad de generar uno incluyendo en las barras la información del año 2016:

Ingresos presupuestados

Gráfico de ingresos gubernamental primer trimestre 2016 vs 2017.

¡Disfrútenlo!