Es sabido por todos que las entidades gubernamentales manejan grandes flujos de dinero. Es por esto por lo que, a modo de ser más transparentes, el gobierno entrega información sobre quien contrata y cuanta remuneración mensual recibirá junto con otros datos. Dada esta información, nace la motivación de fiscalizar como están utilizando nuestros recursos quienes administran el gobierno. De esta forma, se espera revisar los datos entregados por el gobierno con el fin de corroborar que las personas contratadas son de aporte para el gobierno y no un simple contrato por conveniencia personal. Con esto se espera obtener información útil a la hora de elegir a nuestros representantes, pues podemos ver como lo han estado haciendo en el pasado. Así, nuestra pregunta de investigación es: ¿Hay gente de contratación dudosa en el gobierno?, y de ser así ¿Cómo podemos identificarlas? Finalmente, se define una persona de contratación dudosa o “apitutada” como una persona que cumple con los siguientes puntos:
A la par, se trabajará con un dataset que contempla información sobre sueldos promedio según la educación de una persona en Chile, información relevante para el primer punto.
En primer lugar, se espera aplicar algoritmos de custering en el dataset con tal de evaluar si existen anomalías o no. Para esto se usará distintos tipos de clustering (k-means y jerárquico) junto con normalización por el máximo y normal de los datos numéricos más relevantes del dataset. Luego, de llegar a encontrar anomalías, se aplicará un clasificador de árbol de decisión con tal de verificar si es posible identificar gente de dudosa contratación. Para esto se filtrará las personas que trabajaron menos de mil días para el gobierno y luego se revisará quienes ganan un sueldo superior al que deberían. Para esto se considera el promedio más la mitad de este como medida máxima aceptable. También, se recalca que se considera que una persona que ha trabado mucho tiempo para el gobierno es alguien que tiene permitido ganar más pues logra trascender gobiernos y aporta experiencia en su trabajo independiente de sus estudios, por lo que no se les considera apitutados.
Dentro de los datos que nos entrega el gobierno podemos estudiar las personas contratadas separadas por años (2006 en adelante). Para nuestro dataset se considerarán los datos desde el 2013 al 2016, donde se contemplan unos 500 datos. Los atributos originales son los siguientes: Estamento, Apellido paterno, Apellido materno, Nombre, Grado EU’s, Calificación profesional, Cargo o función, Región, Asignaciones especiales, Unidad monetaria, Remuneración bruta mensualizada, Horas extraordinarias, Fecha de inicio, Fecha de término y Observaciones. La limpieza de datos consiste en juntar los apellidos y nombre en un solo atributo llamado nombres. Luego, juntar fecha de inicio y termino en un solo dato de Tiempo “trabajado en días”. Además, el último atributo, junto con remuneración se normalizarán para que ambos tengan el mismo peso a la hora de analizar el dataset. Finalmente, tanto región, unidad monetaria y observaciones se eliminarán pues no representan información relevante para nuestro análisis al presentar siempre el mismo valor o a la dificultad de incorporar su información al dataset.
A continuación, se exponen los principales resultados de los experimentos realizados:
Aplicando el método del codo vemos que el óptimo son 2 clusters. Al aplicar k-means no se nota nada significativo pues principalmente divide el dataset en quienes ganan más y quienes menos.
Al aplicar clustering jerárquico no encontramos un punto significativo donde identificar el número de clusters, tampoco un alto nivel de información relevante.
Para este proceso, al utilizar el método del codo también notamos un número de clusters óptimo de dos. En esta ocasión, si se nota una anomalía, pues no existen dos clusters separados, sino que existen clusters mezclados que podría indicar la existencia de gente apitutada infiltrada.
Para realizar el clasificador se identificaron un número de gente apitutada de 41 personas en el data set de 500 (aprox). Luego se entrenó un árbol de decisión manteniendo la proporción e gente apitutada y gente no apitutada separando una porción del 20% como training set. Finalmente al probarlo el resultado fue óptimo con un accuracy de 96,7%.
En primer lugar, recalcamos la importancia de utilizar diversos algoritmos de minería de datos para abordar un problema. Esto porque, si bien pensamos inicialmente que clustering era la mejor alternativa, esto no fue tan concluyente como la información entregada por el clasificador, por lo que ambos se complementaron bastante bien. Por otro lado, se logró crear una herramienta útil ya que analizando los tres periodos previos a un gobierno se puede estudiar el comportamiento de éste, información relevante a la hora de saber por quién votar previo a una elección.
Tras leer los comentarios de nuestros compañeros sobre nuestro proyecto notamos que faltaba definir que es un trabajador “apitutado” y que la forma de presentar los datos fue explosiva, es decir, mucha información en poco tiempo. Cabe rescatar que la profesora nos recomendó usar Poderopedia, una página web que muestra los links entre distintas personas “relevantes” para el país. De esta forma definimos a una persona apitutada de manera tal que se comparan distintos datos, pero dando más importancia a unos sobre otros. Así la definición base es “Trabajador cuyo sueldo se aleja mucho del promedio según su educación.” Si bien esta definición es bastante simple es la principal idea comparar a los agentes del gobierno con el promedio de Chile. No obstante, otras consideraciones importantes son: tiempo trabajado para el gobierno, cargo o función, comparación de sueldo según Grado EUS’s y datos que se puedan extraer de Poderopedia. Así alguien que gane mucho en comparación con el sueldo promedio de su carrera en Chile y según su grado EUS’s, que haya trabajado mucho tiempo para el gobierno, y su cargo no es de gran relevancia se puede definir como una persona apitutada por el gobierno. Con respecto al uso de Poderopedia si bien esta es una página que entrega bastante información de los conocidos de figuras importantes, pero no de todas las personas pues es un sitio emergente. Se considerará entonces la información de esta página a la hora de evaluar si el clúster que nosotros identificamos como apitutados es respaldada por dicho sitio web. Es decir que revisará si las personas comparten algún lazo lejano con el presidente de turno ya sea amigos o familiares o si perecen a algún partido político.
Realizar el clúster y evaluar si efectivamente se encontró lo encontrado en base a la definición de apitutado y en base a Poderopedia. Puede darse también que no se encuentre grupo apitutado por lo que el procedimiento más natural es realizar varios tiempos de clúster distintos siempre y cuando sea lógico utilizar el algoritmo a este problema.
Los datos se trabajaron utilizando K-Means en R, se encontró utilizando la técnica del codo que 2 o 3 clusters podrían existir luego se procedió a aplicar K-means con k=2 y k=3
Hasta ahora se ha realizado el preprocesamiento y limpieza de datos más unos cuantos experimentos breves. En primer lugar, se realizó a exploración de datos tal que se pudo ver de forma general como eran éstos. Dado esto se procedió a ver como preprocesar los datos, para esto se utilizó lo aprendido en clases donde se evaluó si había atributos tales que se pudieran eliminar algunas y juntar otras. Así se decidió eliminar las columnas unidad monetaria, región y observaciones pues no presentaban información relevante para el análisis. También se decidió juntar las columnas nombres, apellido materno y apellido paterno es una sola llamada nombre, de igual forma fecha de inicio y fecha de término pasó a ser días trabajados. Para quienes siguen trabajando y no cuentan con fecha de término se considera la fecha actual.
Una inquietud que suele tener la gran mayoría de las personas es el cómo sus gobiernos administra sus recursos, en particular se estipula que en nuestro país el “Pituto” es un medio de ingreso bastante utilizado es por ello que como grupo pretendemos realizar un análisis estadístico para investigar esto. Dentro de los muchos gastos e inversiones, está el tema del personal que éste contrata.Con el fin de realizar un estudio de esto contamos con los datasets de la dotación a contrata y a planta realizador por el gobierno en un año determinado proporcionados previamente por nuestro cuerpo docente. Sin embargo, ¿basta con revisar únicamente los sueldos para decir que tal persona es un “apitutado”? Claramente el problema es más complejo y contempla muchos otros factores ¿Cuánto tiempo trabajó?,¿Realmente trabajó?, ¿Qué nivel de educación posee?,¿La persona es transversal a cambio de gobierno o existe clara tendencia hacia un gobierno sobre otro?, etc. Estas son solo unas pocas de las muchas preguntas que debemos plantearnos previo a realizar el análisis antes de decir si efectivamente existe una clase “apitutada” dentro del personal contratado por el gobierno. La idea principal nace de comprar los gatos realizados por el gobierno a la hora de contratar personal, vale decir, a quien contrata, cuanto se le paga, etc. Una vez realizado esto se podrá realizar un análisis en la influencia de profesiones con respecto a los grados que estos alcanzan dentro de la organización y sus sueldos respectivos. Entre ciertos patrones que se pueden detectar esta una posible asignación de trabajo a personas que no poseen profesiones acorde a este( el ya conocido “pituto”), esto nace de poder apreciar como nuestro gobierno distribuye los ingresos dentro de su personal. Como resultado final se espera el observar la existencia o no de un grupo de apitutados en un gobierno y de existir que tan serio es el problema. De esta forma se espera contribuir con un dato de gran relevancia a la hora de votar en las próximas elecciones, no vaya a ser que no solo estemos votando por un candidato, sino que por el candidato más un grupo de gente que lo acompaña por detrás y nunca nos enteramos.
El dataset posee un número variable de datos (personas contratadas) según el año y si son a contrata o a planta. Los atributos para todos los datasets son los siguientes: Estamentos
Dentro de los deberes de los ciudadanos está el rol de fiscalizar que nuestros gobiernos actúen de forma propicia. Muchas veces solo vemos unas cuantas caras del gobierno pero no sabemos bien cómo opera éste por detrás ni cómo gastan los recursos. Con el fin de ver más allá del Presidente de la República y su gabinete de ministros, se propone revisar los datos que el gobierno dispone en su página web de transparencia en los cuales habla sobre el personal que contrata a planta y a contrata y nos entrega información relevante de estos trabajadores del gobierno. Para revisar los agentes menos conocidos del gobierno se realizará un análisis por año (ya que contamos la información de esta forma) sobre las personas contratadas por el gobierno, sus atributos y cómo estos evolucionan por año. Esto contempla revisar su sueldo, periodo por el cual se les contrata, nivel de educación alcanzado, si son familiares de algún político en el gobierno de turno, etc. De esta forma para abordar el problema se planea realizar primero una limpieza de los datos mediante filtros, dejando solo los datos más relevantes. Junto con esto se planea realizar múltiples gráficos que ayuden a comprender mejor el panorama al cual nos estamos enfrentando para encontrar alguna regularidad. Ya sea mediante análisis por año o por gobierno (periodos de 4 año años) se planea encontrar datos que sirvan como referencia para discriminar a los contratados por el gobierno. Por último se planea realizar un clustering de las personas contratadas. Con esto se espera poder identificar mejor el tipo de personal que es contratado, luego estudiar los clusterings para finalmente evaluar sci se puede decir, en base a los datos mencionados anteriormente y otros datos estadísticos de Chile en general, si efectivamente existe un cluster de gente que destaque considerablemente por sobre el promedio chilenos trabajando para el gobierno.
Se copiaron los datos de la página http://transparenciaactiva.presidencia.cl/2017/per_planta.html a un excel, se le cambió algunos nombres de los atribtos para que no tuvieran tildes y luego se exportó a RStudio con los comandos:
library(readxl)
gobierno2 <- read_excel("C:/Users/Pablo/Desktop/gobierno2.xlsx")
Luego se generó el gráfico (luego de probar muchas cosas) con el comando:
library(ggplot2)
gob4<-ggplot(gobierno2,aes(gobierno2$Remuneracion,gobierno2$formacion))+geom_point(color="firebrick")+ theme(axis.text.x=element_text(angle=50, size=8,vjust=0.5))
Finalmente, para ver dicho gráfico basta usar:
gob4