Integrantes: | Carolina Contreras |
Juan Millán | |
Miguel Zúñiga | |
Profesora: | Bárbara Poblete |
Auxiliares: | Jose Miguel Herrera |
Mauricio Quezada | |
Curso: | Introducción a la minería de datos |
Durante los últimos años en Chile ha disminuido de forma constante el nivel de confianza y credibilidad que se les tiene a las personas que ejercen diferentes cargos públicos. La clase política ha perdido credibilidad debido a las irregularidades en el manejo de los dineros fiscales que se han destapado en los últimos años, casos como Penta, Caval y Corpesca involucran a altos cargos del gobierno, desde parlamentarios hasta Presidentes de la República, los cuales se han visto beneficiados con estas situaciones, en especial en el aspecto económico.
Conscientes por los temas actuales, el grupo decidió abarcar este proyecto con la base de datos entregada por el gobierno (Ley de Transparencia) para indagar en los sueldos de los funcionarios de planta de todos los ministerios y teorizar acerca de la relación que hay entre estos y su sueldo.
Para nuestro proyecto, hemos decidido investigar dos aristas menos polémicas de estos casos, como lo es la sobrevaloración de los sueldos y los puestos de trabajo ocupados por personas sin conocimientos para ellos, los que comúnmente se les conoce como "apitutados" .
Los datos fueron obtenidos desde el área de dotación de personal de planta de la página de transparencia del gobierno de Chile http://transparenciaactiva.presidencia.cl/. En ella se pueden encontrar por año y mes los sueldos de los funcionario, sus cargos, nivel de estudios, etc. de los cuales solo se consideraron aquellos cargos designados.
Estamento | Área a la que pertenece el funcionario |
Apellido paterno | |
Apellido materno | |
Nombres | |
Grado EUS | Escala de remuneración según según estamento, grado o jornada |
Calificación profesional o formación | Nivel de estudios |
Cargo o función | Puesto de trabajo |
Región | Donde es desempeñado el cargo |
Asignaciones especiales | Pagos extra por trabajos |
Unidad monetaria | Moneda en la que se calcula el sueldo |
Remuneración bruta mensualizada | Sueldo mensual |
Horas extraordinarias | Si/No |
Fecha de inicio (dd/mm/aaaa) |
Cuando ingreso al puesto de trabajo |
Fecha de término (dd/mm/aaaa) |
Cuando dejó del cargo. En caso de seguir en el, aparecen solo 0's |
Además, cuando un funcionario posee horas extras, es posible obtener una tabla extra con el detalle de esto, la cual cuenta con los siguientes parámetros:
Mes | Tiempo durante el que se realizaron las horas extras |
Nº total de horas diurnas |
Horas extras realizadas durante el día |
Unidad monetaria | Moneda con la que fueron pagadas las horas extras |
Valor total de horas diurnas |
Monto recibido por la cantidad de horas diurnas extras ejercidas |
Nº total de horas nocturnas |
Horas extras realizadas durante la noche |
Unidad monetaria | |
Valor total de horas nocturnas |
Monto recibido por la cantidad de horas nocturnas extras ejercidas |
Preliminarmente se tiene un dataset de 7599 filas correspondientes a los datos de Julio de 2017.
La problemática central será encontrar casos inusuales en cargos designados, tales como personas que están en cargos sin tener conocimientos para desempeñarse correctamente en esa área y aquellas a las que, comparadas con el sector privado, reciben un sueldo superior al que deberían.
Para esto, en primer lugar se tuvo que convertir todas las monedas a una común, para luego comparar datos entre sueldos de nuestro dataset versus el valor de mercado y así encontrar a aquellos trabajador que están sobre el promedio, todo esto considerando además que hay algunos que hacen horas extras, las cuales también se encuentran especificadas por cantidad extra de sueldo logrado.
También, veremos cargos en que se desempeñan las personas y su nivel de estudios, enfocándonos en el tipo de cargo, tales como jefatura, administrativo, directivo, entre otros y cómo se distribuye el sueldo también en estos casos.
Para comenzar a trabajar con las bases de datos, lo primero que se hizo con ellos fue generalizar el formato de los datos, eliminando las tildes
y ñ presentes en las bases de datos, todo esto ocupando las herramientas de busqueda y reemplazo disponibles en programas para hojas de cálculo tales como Excel y LibreOffice.
Luego, las tablas fueron llevadas a RStudio, donde usando los códigos que se ven a continuación, se eliminaron filas con datos NA en Estamentos y en calificación profesional, esto ya que son columnas claves para la existencia de una persona, y en caso de no estar, toda la fila se encuentra vacía. También se eliminaron personas cuyos suldos eran menores a $100.000, se pasaron todos los datos a letras mayúsculas. Es importante notar que se exluyó la columna GRADO EUS, esto ya que para nuestros propositos, este dato es prescindible
Codigo 1: Creación de tablas en R desde Excel
library(readxl) CrearTabla <- function(fileName){ name<- read_excel(fileName) name<-name[-c(1), ] #elimina primera fila NA return (name) } |
Codigo 2: Convierte minúsculas a mayúsculas, elimina filas NA y elimina columna "GRADO EUS"
tratar<-function(tabla){ #pasa tabla a mayusculas #elimina NA #elimina columnas innecesarias |
Luego, se estandarizaron los datos, agrupando a trabajadores con profesiones parecidas en una profesión común. Para esto se buscaron en la columna de "CALIFICAION PROFESIONAL O FORMACION" aquellas filas que contuvieran las palabras claves mostradas al lado derecho en la siguiente tabla y fueron reemplazadas por la profesión generalizada correspondiente:
Profesión generalizada | Palabras claves |
TECNICO | TECNICO |
ADMINISTRACION | ADMINISTRACION |
EJECUCION |
EJECUCION EJEC |
COMERCIAL | COMERCIAL |
INGENIERO |
INGENIERO INGENIERA ING |
ABOGADO |
ABOGADO ABOGADA DERECHO |
BIOLOGO |
BIOLOGO BIOLOGA |
CONTADOR |
CONTADOR CONTADORA |
PROFESOR |
PROFESOR PROFESORA PROF |
ENSEÑANZA MEDIA | MEDIA |
MEDICO | MEDICO |
SECRETARIA |
SECRETARIO SECRETARIA |
LICENCIADO |
LICENCIATURA LIC LICENCIADO LICENCIADA |
PERIODISTA | PERIODISTA |
ENSEÑANZA BASICA | BASICA |
EXPERTO |
EXPERTO EXPERTA |
ADMINISTRATIVO | ADMINISTRATIVO |
TRADUCTOR |
TRADUCTOR TRADUCTORA |
Después, se procedió a igualar monedas, esto ya que para los datos del Ministerio del Exterior (tabla de nombre "exterior") las monedas venian en 4 tipos: PESOS, PESOS CHILENOS, DOLAR, DOLARES AMERICANOS. En el siguiente código se muesta el procedimiento para desarrollar esto, donde se usa $655,3228 como el valor de 1 dólar estadounidense a pesos chilenos, correspondiente al 18 de Julio de 2017 (Los datos fueron sacados para Julio de 2017)
Codigo 3: Cambio de moneda
## Funcion que cambia moneda en tabla, cambiando NomActual por ## NomNuevo y con factor de conversion factorCon CambiaMoneda<- function(tabla, NomActual, NomNuevo, factorCon){ lineas=nrow(tabla) for (i in 1:lineas){ if (is.null(tabla$`Unidad monetaria`[i])){} else if (is.na(tabla$`Unidad monetaria`[i])){} else if(tabla$`Unidad monetaria`[i]==NomActual){ num=as.numeric(tabla$`RemuneraciOn bruta mensualizada`[i]) tabla$`RemuneraciOn bruta mensualizada` [i]<-round(num*factorCon) tabla$`Unidad monetaria`[i]<-NomNuevo } else{} } return (tabla) } |
Codigo 4: Cambio para cada moneda de base de datos del Ministerio de Exterior
unMonExt<-unique(exterior$`Unidad monetaria`)#array de tipo de moneda #si el tipo de moneda es NA o Null ignorar #si corresponde a dolares o dolares americanos convierte #si son pesos chilenos, convertir con factor 1 |
Para el hito 2, se realizó un primer análisis de datos a partir de la exploración de estos a través de histogramas y estadísticas, según nivel educacional versus remuneración, destacando en color rojo el tramo donde se encontraría el sueldo promedio de cada carrera.
Para gente solo con enseñanza media se obtiene el siguiente histograma:
Con las siguientes estadísticas:
Mínimo | 213.612 |
Mediana | 972.627 |
Promedio | 1.366.263 |
Máximo | 3.091.320 |
Promedio en el mercado | 284.625 |
Por su parte, para técnicos el histograma es:
Con estadísticas:
Mínimo | 170.423 |
Mediana | 1.909.380 |
Promedio | 1.985.129 |
Máximo | 6.265.776 |
Promedio en el mercado | 400.516 |
Para Ingenieros en Ejecución, su histograma es:
Con estadísticas:
Mínimo | 692.546 |
Mediana | 2.446.338 |
Promedio | 2.636.623 |
Máximo | 6.692.271 |
Sueldo promedio en el mercado | 810.406 |
Con los Ingenieros comerciales, se tiene:
Y estadísticas:
Mínimo | 193.511 |
Mediana | 3.608.070 |
Promedio | 3.821.461 |
Máximo | 9.673.062 |
Sueldo promedio en el mercado | 1.504.870 |
Mientras tanto, el histograma para abogados será:
Con estadísticas:
Mínimo | 815.809 |
Mediana | 3.938.528 |
Promedio | 3.883.352 |
Máximo | 9.121.809 |
Sueldo promedio en el mercado | 1.507.122 |
Finalmente, para médicos el histograma es:
Mínimo | 760.011 |
Mediana | 4.321.962 |
Promedio | 3.886.253 |
Máximo | 9.920.105 |
Sueldo promedio del mercado | 2.338.522 |
También se realizó un gráfico de barras para remuneraciones, con niveles educacionales 1, 2, 3, 4 y 5, correspondientes a Educación media, Técnicos, Ingenieros Comerciales, Abogados y Médicos, respectivamente.
Con el fin de comprobar si existen personas en puestos de trabajo para los cuales no están capacitados, se realiza un clustering.
En primer lugar se ocupó el método del codo, obteniendo que lo más idóneo sería ocupar 5 clusters tal como se ve en la siguiente figura:
A partir de esto se obtienen los siguientes resultados, considerando las variables de estamento, formación y tiempo trabajado en meses:
Donde se observa según color de cluster los siguientes tipos de personas:
Es en este último cluster donde la hipótesis se comprueba, ya que podemos ver personas que no presentan formación alta, pero que sí trabaja en estamentos importantes.
Aquí se trabaja sobre la hipótesis de que los sueldos en el sistema público suelen ser sobrevalorados con respecto a formación y cargo
Usando un proceso similar al anterior, se obtiene nuevamente que 5 clusters sería lo más correcto en este caso:
Para lo cual se obtiene el siguiente cluster:
De donde, al ser muchas variables para analizar, se hace difícil poder concluir algo a partir de él.
Para ver si es posible solucionar este problema, se elimina la variable de tiempo trabajado, obteniendo por el método del codo que lo ideal sería usar 3 o 5 clusters
Obteniendo el siguiente resultado usando 5 clusters:
De donde se observa una anomalía en el cluster verde, en donde se encuentra gente que gana un alto sueldo, que tiene formación media-baja y además posee un estamento medio.
Para ver qué correlaciones existen entre formaciones y cargos, se realizaron reglas de asociación para poder encontrarlas en las tablas de datos donde las formaciones no se encuentran generalizadas.
Los item más frecuentes para estas variables se muestran en las siguientes dos imágenes:
Donde vemos que la formación y el cargo más mencionado es contador y ficalizador, respectivamente.
Las 6 reglas de asociación con support más alto son:
Mientras que las 6 con mayor lift resultan ser:
Donde vemos que en ambos conjuntos el lift para las reglas resulta ser mayor que 1. Esto también se puede observar en el Scatter plot de todas las reglas
En donde la mayoría de las reglas tienen un support bajo.
También para explorar los resultados se hizo un gráfico de matriz agrupada, donde se observa que la regla más fuerte según el lift es {ADMINISTRATIVO} => {SECRETARIA} y su inversa. Mientras que la regla de mayor support es {ADMINISTRATIVO} => {ENSEÑANZA MEDIA}.
También se puede ver que cada cargo resulta tener formaciones bien definidas y con un alto lift (mayor que 1), por lo que en un futuro podría desarrollarse un clasificador para así poder, a partir de la formación de una persona, predecir a que cargo podría ser designado.
Por último, para este experimento se realiza un grafo de las 15 reglas con mayor lift, donde se observa de mejor forma las relaciones cargo/formación y viceversa.
Con el objetivo de encontrar discrepancias entre el nivel de formación, el estamento al que pertenecen y la remuneración que reciben los funcionarios, se decide hacer reglas de asociación que ocupen estos parámetros para ver si existe alguna tendencia, obteniendo en total 284 reglas.
Los niveles de estamento fueron generalizados y agrupados en niveles del 1 al 15, con 1 siendo el más bajo y 15 el más alto. La remuneración se encuentra dividida en 10^6.
Aquí, el método Scatterplot nos muestra un indicio similar al del experimento anterior, con reglas de bajo support pero alto lift.
El gráfico de matriz agrupada de las 100 reglas resulta no ser tan evidente como en el caso anterior, pero aún así se logra obtener una anomalía con respecto a la regla de mayor lift. Está es {nivel: 1, sueldo:1} => {AUXILIAR}, indicando que a pesar de estar en un nivel bajo, hay algunos auxiliares que llegarían a ganar hasta $1.000.000, por lo cual se requiere un mayor estudio de estos casos.
Además, a través del grafo de las 15 reglas de mayor lift podemos encontrar otra singularidad. Aquí, se obtiene que hay una fuerte relación entre administrativos y ganancias de $1.75 y $1.25 millones, lo cual resulta ser extraño debido a que con el experimento anterior, se logró encontrar que aquellas profesiones más esperables de ocupar estos puestos resultan ser técnicos, ingenieros en ejecución, enseñanza media y secretaria, lo cual no concuerda con los datos promedios de salarios en el mercado para estas profesiones.
Por último, se decidió hacer un experimento que calcula cuanto se ahorraría el estado al poner un sueldo máximo para sus funcionarios.
El método para calcular esto fue límitar aquellos sueldos por sobre el tope, igualándolos a él. Los topes ocupados fueron $2.5 millones, lo que es aproximadamente lo que gana el presidente boliviano, $3 millones, que es lo que suele ganar el presidente peruano, y 5 millones, lo más común en jefes de estados latinoamericanos tales como Argentina, Colombia y Ecuador*.
Los resultados obtenidos fueron los siguientes:
Sueldo máximo |
2,5 millones |
3 millones |
5 millones |
Ahorro |
$ 5.636.804.881 |
$3.893.826.328 |
$654.209.823 |
Cantidad alumnos estudiando gratis ingeniería por año (Arancel UChile: $5.175.300*) |
13.068 |
9.024 |
1.512 |
Subvención para padres de niño recién nacido (250.000 niños al año*) |
$270.566 |
$186.903 |
$31.402 |
Tiempo de ahorro para construcción de un hospital ($120 mil millones*) |
2 años |
2.6 años |
15 años |
Deuda historica profesores ($50 mil millones) |
10 meses |
1 año y 2 meses |
7 años |
A futuro, se podría ahondar en los siguientes puntos:
También es necesario hacer notar que uno de nuestros objetivos era comparar con bases de datos de otros paises, lo cual no se pudo realizar debido a que muchas naciones o no cuentan con una base de datos de este tipo o piden alguna clave para poder ingresar, siendo restringida a ciudadanos.
Tomando en consideración los datos anteriores, se nota una irregularidad con respecto a las personas con sólamente enseñanza media, con ingresos medios de $972.627 con inflación de 2,24 %(1), siendo que en el mercado la media es de $284.625 según datos proporcionados por tusalario para el año 2010 con inflación de 1,42%(2), lo cual, aunque sea considerando las diferencias de inflación, siguen siendo valores abismalmente altos para los funcionarios públicos, con aproximadamente 20 personas ganando sobre los 2 millones. También notamos que la mayoría de las personas poseen un sueldo menor al promedio, por lo tanto el grupo que gana más que el promedio es un grupo privilegiado, grupo que se espera encontrar en la próxima entrega usando clustering.
Para educación técnica se tiene el mismo fenómeno, donde según nuestros datos tienen un salario medio de $1.909.380 y según los datos de tusalario debería corresponder a $400.516.
Caso contrario es lo que ocurre con los médicos los cuales en el mercado poseen un sueldo promedio entre $1.950.384 en el primer año de egresados a $2.785.252 al quinto año de egresados según mifuturo.cl pero aún así se tienen profesionales con sueldos menores a 1 millon, por lo cual se deberá ampliar la base de datos de medicos para explorar si existen más casos asi o son simplemente casos aislados.
Se puede observar que en todos los histográmas presentados la mayoria de los trabajadores superan el millon de pesos en su salario, lo cual podría no ser extraño si se considera que la mayoría de los estudiados se encuentra en carreras tradicionales las cuales bordean el sueldo promedio $1.901.000 al quinto año de egresados según mifuturo.cl.
La distribución de los sueldos de los cargos de planta en el servicio público tienden a ser más altos que el promedio, siendo esperable que personas lleguen a estos cargos solo por este incentivo.
El tiempo trabajado por una persona parece no ser una variable determinante con respecto a la remuneración que recibe.
El dinero del gobierno podría invertirse en políticas públicas relacionadas más directamente con la población.
A pesar de que nuestras hipótesis parecen comprobarse con este trabajo, se requiere mayor estudio indagando en bases de datos más grandes para así observar que factores externos podrían afectar (por ejemplo: bonos, horas extras, vacaciones, entre otros).