Análisis en la administración del recursos del estado

Matías Nicolas Massa Villela - Francisco Javier Pérez San Martín- Pablo Esteban Zúñiga Varela

Hito 3

INTRO Y MOTIVACION

Es sabido por todos que las entidades gubernamentales manejan grandes flujos de dinero. Es por esto por lo que, a modo de ser más transparentes, el gobierno entrega información sobre quien contrata y cuanta remuneración mensual recibirá junto con otros datos. Dada esta información, nace la motivación de fiscalizar como están utilizando nuestros recursos quienes administran el gobierno. De esta forma, se espera revisar los datos entregados por el gobierno con el fin de corroborar que las personas contratadas son de aporte para el gobierno y no un simple contrato por conveniencia personal. Con esto se espera obtener información útil a la hora de elegir a nuestros representantes, pues podemos ver como lo han estado haciendo en el pasado. Así, nuestra pregunta de investigación es: ¿Hay gente de contratación dudosa en el gobierno?, y de ser así ¿Cómo podemos identificarlas? Finalmente, se define una persona de contratación dudosa o “apitutada” como una persona que cumple con los siguientes puntos:

  1. Recibe un sueldo mayor al promedio según su educación y grado EU’s (rol en el gobierno)
  2. Ha trabajado durante periodos extraños para el gobierno
  3. Que esté relacionado con el presidente de turno o a algún partido político de la coalición de turno.

A la par, se trabajará con un dataset que contempla información sobre sueldos promedio según la educación de una persona en Chile, información relevante para el primer punto.

EXPERIMENTOS

En primer lugar, se espera aplicar algoritmos de custering en el dataset con tal de evaluar si existen anomalías o no. Para esto se usará distintos tipos de clustering (k-means y jerárquico) junto con normalización por el máximo y normal de los datos numéricos más relevantes del dataset. Luego, de llegar a encontrar anomalías, se aplicará un clasificador de árbol de decisión con tal de verificar si es posible identificar gente de dudosa contratación. Para esto se filtrará las personas que trabajaron menos de mil días para el gobierno y luego se revisará quienes ganan un sueldo superior al que deberían. Para esto se considera el promedio más la mitad de este como medida máxima aceptable. También, se recalca que se considera que una persona que ha trabado mucho tiempo para el gobierno es alguien que tiene permitido ganar más pues logra trascender gobiernos y aporta experiencia en su trabajo independiente de sus estudios, por lo que no se les considera apitutados.

LIMPIEZA DE DATOS

Dentro de los datos que nos entrega el gobierno podemos estudiar las personas contratadas separadas por años (2006 en adelante). Para nuestro dataset se considerarán los datos desde el 2013 al 2016, donde se contemplan unos 500 datos. Los atributos originales son los siguientes: Estamento, Apellido paterno, Apellido materno, Nombre, Grado EU’s, Calificación profesional, Cargo o función, Región, Asignaciones especiales, Unidad monetaria, Remuneración bruta mensualizada, Horas extraordinarias, Fecha de inicio, Fecha de término y Observaciones. La limpieza de datos consiste en juntar los apellidos y nombre en un solo atributo llamado nombres. Luego, juntar fecha de inicio y termino en un solo dato de Tiempo “trabajado en días”. Además, el último atributo, junto con remuneración se normalizarán para que ambos tengan el mismo peso a la hora de analizar el dataset. Finalmente, tanto región, unidad monetaria y observaciones se eliminarán pues no representan información relevante para nuestro análisis al presentar siempre el mismo valor o a la dificultad de incorporar su información al dataset.

Trabajo columnas de tablas usando excel

RESULTADOS Y ANALISIS

A continuación, se exponen los principales resultados de los experimentos realizados:

Clustering k-means, normalización normal:

Aplicando el método del codo vemos que el óptimo son 2 clusters. Al aplicar k-means no se nota nada significativo pues principalmente divide el dataset en quienes ganan más y quienes menos.

Jerárquico:

Al aplicar clustering jerárquico no encontramos un punto significativo donde identificar el número de clusters, tampoco un alto nivel de información relevante.

Clustering k-means, normalización por el máximo:

Para este proceso, al utilizar el método del codo también notamos un número de clusters óptimo de dos. En esta ocasión, si se nota una anomalía, pues no existen dos clusters separados, sino que existen clusters mezclados que podría indicar la existencia de gente apitutada infiltrada.

Clasificador:

Para realizar el clasificador se identificaron un número de gente apitutada de 41 personas en el data set de 500 (aprox). Luego se entrenó un árbol de decisión manteniendo la proporción e gente apitutada y gente no apitutada separando una porción del 20% como training set. Finalmente al probarlo el resultado fue óptimo con un accuracy de 96,7%.

CONCLUSIONES

En primer lugar, recalcamos la importancia de utilizar diversos algoritmos de minería de datos para abordar un problema. Esto porque, si bien pensamos inicialmente que clustering era la mejor alternativa, esto no fue tan concluyente como la información entregada por el clasificador, por lo que ambos se complementaron bastante bien. Por otro lado, se logró crear una herramienta útil ya que analizando los tres periodos previos a un gobierno se puede estudiar el comportamiento de éste, información relevante a la hora de saber por quién votar previo a una elección.

Hito 2

Como se tomó en cuenta comentarios compañeros y profesora

Tras leer los comentarios de nuestros compañeros sobre nuestro proyecto notamos que faltaba definir que es un trabajador “apitutado” y que la forma de presentar los datos fue explosiva, es decir, mucha información en poco tiempo. Cabe rescatar que la profesora nos recomendó usar Poderopedia, una página web que muestra los links entre distintas personas “relevantes” para el país. De esta forma definimos a una persona apitutada de manera tal que se comparan distintos datos, pero dando más importancia a unos sobre otros. Así la definición base es “Trabajador cuyo sueldo se aleja mucho del promedio según su educación.” Si bien esta definición es bastante simple es la principal idea comparar a los agentes del gobierno con el promedio de Chile. No obstante, otras consideraciones importantes son: tiempo trabajado para el gobierno, cargo o función, comparación de sueldo según Grado EUS’s y datos que se puedan extraer de Poderopedia. Así alguien que gane mucho en comparación con el sueldo promedio de su carrera en Chile y según su grado EUS’s, que haya trabajado mucho tiempo para el gobierno, y su cargo no es de gran relevancia se puede definir como una persona apitutada por el gobierno. Con respecto al uso de Poderopedia si bien esta es una página que entrega bastante información de los conocidos de figuras importantes, pero no de todas las personas pues es un sitio emergente. Se considerará entonces la información de esta página a la hora de evaluar si el clúster que nosotros identificamos como apitutados es respaldada por dicho sitio web. Es decir que revisará si las personas comparten algún lazo lejano con el presidente de turno ya sea amigos o familiares o si perecen a algún partido político.

Futuras indicaciones

Realizar el clúster y evaluar si efectivamente se encontró lo encontrado en base a la definición de apitutado y en base a Poderopedia. Puede darse también que no se encuentre grupo apitutado por lo que el procedimiento más natural es realizar varios tiempos de clúster distintos siempre y cuando sea lógico utilizar el algoritmo a este problema.

Datos

Los datos se trabajaron utilizando K-Means en R, se encontró utilizando la técnica del codo que 2 o 3 clusters podrían existir luego se procedió a aplicar K-means con k=2 y k=3

WSS: suma de la diferencia al cuadrado entre los puntos de cada cluster 

Clusters con k=3 

Clusters con k=2  

Hasta ahora se ha realizado el preprocesamiento y limpieza de datos más unos cuantos experimentos breves. En primer lugar, se realizó a exploración de datos tal que se pudo ver de forma general como eran éstos. Dado esto se procedió a ver como preprocesar los datos, para esto se utilizó lo aprendido en clases donde se evaluó si había atributos tales que se pudieran eliminar algunas y juntar otras. Así se decidió eliminar las columnas unidad monetaria, región y observaciones pues no presentaban información relevante para el análisis. También se decidió juntar las columnas nombres, apellido materno y apellido paterno es una sola llamada nombre, de igual forma fecha de inicio y fecha de término pasó a ser días trabajados. Para quienes siguen trabajando y no cuentan con fecha de término se considera la fecha actual.

Limpieza de datos

Hito 1

Introducción.

Una inquietud que suele tener la gran mayoría de las personas es el cómo sus gobiernos administra sus recursos, en particular se estipula que en nuestro país el “Pituto” es un medio de ingreso bastante utilizado es por ello que como grupo pretendemos realizar un análisis estadístico para investigar esto. Dentro de los muchos gastos e inversiones, está el tema del personal que éste contrata.Con el fin de realizar un estudio de esto contamos con los datasets de la dotación a contrata y a planta realizador por el gobierno en un año determinado proporcionados previamente por nuestro cuerpo docente. Sin embargo, ¿basta con revisar únicamente los sueldos para decir que tal persona es un “apitutado”? Claramente el problema es más complejo y contempla muchos otros factores ¿Cuánto tiempo trabajó?,¿Realmente trabajó?, ¿Qué nivel de educación posee?,¿La persona es transversal a cambio de gobierno o existe clara tendencia hacia un gobierno sobre otro?, etc. Estas son solo unas pocas de las muchas preguntas que debemos plantearnos previo a realizar el análisis antes de decir si efectivamente existe una clase “apitutada” dentro del personal contratado por el gobierno. La idea principal nace de comprar los gatos realizados por el gobierno a la hora de contratar personal, vale decir, a quien contrata, cuanto se le paga, etc. Una vez realizado esto se podrá realizar un análisis en la influencia de profesiones con respecto a los grados que estos alcanzan dentro de la organización y sus sueldos respectivos. Entre ciertos patrones que se pueden detectar esta una posible asignación de trabajo a personas que no poseen profesiones acorde a este( el ya conocido “pituto”), esto nace de poder apreciar como nuestro gobierno distribuye los ingresos dentro de su personal. Como resultado final se espera el observar la existencia o no de un grupo de apitutados en un gobierno y de existir que tan serio es el problema. De esta forma se espera contribuir con un dato de gran relevancia a la hora de votar en las próximas elecciones, no vaya a ser que no solo estemos votando por un candidato, sino que por el candidato más un grupo de gente que lo acompaña por detrás y nunca nos enteramos.

Descripción de los datos y exploración inicial

El dataset posee un número variable de datos (personas contratadas) según el año y si son a contrata o a planta. Los atributos para todos los datasets son los siguientes: Estamentos

  • Apellido Paterno
  • Apellido Materno
  • Nombres
  • Grado EUS
  • Calificación profesional o formación
  • Cargo o función
  • Región
  • Asignaciones especiales
  • Unidad Monetaria
  • Horas extraordinarias
  • Fecha de inicio (dd/mm/aaaa)
  • Fecha de término(dd/mm/aaaa)
  • Observaciones
  • De esta forma nos encontramos que no todos los atributos son relevantes. De esta forma, primero se planea eliminar los atributos que no entregan información relevante tales como “unidad monetaria” y “región”, pues el primero siempre esta en pesos y el segundo suele estar en “RM” y en solo unos pocos casos “V”. Posteriormente convertir dos atributos en uno como en el caso de “fecha de inicio” y “fecha de término” en uno de “Periodo de contratación” al igual que con “Nombre”, “Apellido Paterno” y “Apellido Materno” en uno solo de nombre y además normalizar, es decir, dejarlo sin tilde y con minúsculas. Con esto pasaremos de 14 atributos a solo 9:
  • Estamentos
  • Nombre (normalizado)
  • Grado EUS
  • Calificación profesional o formación
  • Cargo o función
  • Asignaciones especiales
  • Horas extraordinarias
  • Periodo de contratación
  • Observaciones
  • Por último se evaluará la opción de agregar un atributo extra para identificar el presidente de turno de un dato o uno donde aparezca el año donde este fue contratado y luego juntar todos los datasets. Esto último sería solo antes de realizar el clustering pues podría arrojar diferencias importantes según el gobierno de turno en relación a quienes contrata.

    Temática o problemática central

    Dentro de los deberes de los ciudadanos está el rol de fiscalizar que nuestros gobiernos actúen de forma propicia. Muchas veces solo vemos unas cuantas caras del gobierno pero no sabemos bien cómo opera éste por detrás ni cómo gastan los recursos. Con el fin de ver más allá del Presidente de la República y su gabinete de ministros, se propone revisar los datos que el gobierno dispone en su página web de transparencia en los cuales habla sobre el personal que contrata a planta y a contrata y nos entrega información relevante de estos trabajadores del gobierno. Para revisar los agentes menos conocidos del gobierno se realizará un análisis por año (ya que contamos la información de esta forma) sobre las personas contratadas por el gobierno, sus atributos y cómo estos evolucionan por año. Esto contempla revisar su sueldo, periodo por el cual se les contrata, nivel de educación alcanzado, si son familiares de algún político en el gobierno de turno, etc. De esta forma para abordar el problema se planea realizar primero una limpieza de los datos mediante filtros, dejando solo los datos más relevantes. Junto con esto se planea realizar múltiples gráficos que ayuden a comprender mejor el panorama al cual nos estamos enfrentando para encontrar alguna regularidad. Ya sea mediante análisis por año o por gobierno (periodos de 4 año años) se planea encontrar datos que sirvan como referencia para discriminar a los contratados por el gobierno. Por último se planea realizar un clustering de las personas contratadas. Con esto se espera poder identificar mejor el tipo de personal que es contratado, luego estudiar los clusterings para finalmente evaluar sci se puede decir, en base a los datos mencionados anteriormente y otros datos estadísticos de Chile en general, si efectivamente existe un cluster de gente que destaque considerablemente por sobre el promedio chilenos trabajando para el gobierno.

    Código utilizado para generar análisis:

    Se copiaron los datos de la página http://transparenciaactiva.presidencia.cl/2017/per_planta.html a un excel, se le cambió algunos nombres de los atribtos para que no tuvieran tildes y luego se exportó a RStudio con los comandos:

    library(readxl)
    gobierno2 <- read_excel("C:/Users/Pablo/Desktop/gobierno2.xlsx")

    Luego se generó el gráfico (luego de probar muchas cosas) con el comando:

    library(ggplot2)
    gob4<-ggplot(gobierno2,aes(gobierno2$Remuneracion,gobierno2$formacion))+geom_point(color="firebrick")+ theme(axis.text.x=element_text(angle=50, size=8,vjust=0.5))

    Finalmente, para ver dicho gráfico basta usar:

    gob4
    Representación de un Abstract Syntax Tree

    Remuneración vs formación académica