Reporte Hito 3: 

Sueldo de funcionarios públicos, ¿Están sobrevalorados?

Integrantes: Carolina Contreras
  Juan Millán
  Miguel Zúñiga
Profesora: Bárbara Poblete
Auxiliares: Jose Miguel Herrera
  Mauricio Quezada
Curso: Introducción a la minería de datos

Introducción

Durante los últimos años en Chile ha disminuido de forma constante el nivel de confianza y credibilidad que se les tiene a las personas que ejercen diferentes cargos públicos. La clase política ha perdido credibilidad debido a las irregularidades en el manejo de los dineros fiscales que se han destapado en los últimos años, casos como Penta, Caval y Corpesca involucran a altos cargos del gobierno, desde parlamentarios hasta Presidentes de la República, los cuales se han visto beneficiados con estas situaciones, en especial en el aspecto económico.

Conscientes por los temas actuales, el grupo decidió abarcar este proyecto con la base de datos entregada por el gobierno (Ley de Transparencia) para indagar en los sueldos de los funcionarios de planta de todos los ministerios y teorizar acerca de la relación que hay entre estos y su sueldo.

Para nuestro proyecto, hemos decidido investigar dos aristas menos polémicas de estos casos, como lo es la sobrevaloración de los sueldos y los puestos de trabajo ocupados por personas sin conocimientos para ellos, los que comúnmente se les conoce como "apitutados" .

Descripción de datos

Los datos fueron obtenidos desde el área de dotación de personal de planta de la página de transparencia del gobierno de Chile http://transparenciaactiva.presidencia.cl/. En ella se pueden encontrar por año y mes los sueldos de los funcionario, sus cargos, nivel de estudios, etc. de los cuales solo se consideraron aquellos cargos designados.

Estamento Área a la que pertenece el funcionario
Apellido paterno  
Apellido materno  
Nombres  
Grado EUS Escala de remuneración según según estamento, grado o jornada
Calificación profesional o formación Nivel de estudios
Cargo o función Puesto de trabajo
Región Donde es desempeñado el cargo
Asignaciones especiales Pagos extra por trabajos
Unidad monetaria Moneda en la que se calcula el sueldo
Remuneración bruta mensualizada Sueldo mensual
Horas extraordinarias Si/No
Fecha de inicio
(dd/mm/aaaa)
Cuando ingreso al puesto de trabajo
Fecha de término
(dd/mm/aaaa)
Cuando dejó del cargo. En caso de seguir en el, aparecen solo 0's

Además, cuando un funcionario posee horas extras, es posible obtener una tabla extra con el detalle de esto, la cual cuenta con los siguientes parámetros:

Mes  Tiempo durante el que se realizaron las horas extras
Nº total de
horas diurnas
Horas extras realizadas durante el día
Unidad monetaria Moneda con la que fueron pagadas las horas extras
Valor total de
horas diurnas
Monto recibido por la cantidad de horas diurnas extras ejercidas
Nº total de
horas nocturnas
Horas extras realizadas durante la noche
Unidad monetaria  
Valor total de
horas nocturnas
Monto recibido por la cantidad de horas nocturnas extras ejercidas

Preliminarmente se tiene un dataset de 7599 filas correspondientes a los datos de Julio de 2017.

Problema a resolver

La problemática central será encontrar casos inusuales en cargos designados, tales como personas que están en cargos sin tener conocimientos para desempeñarse correctamente en esa área y aquellas a las que, comparadas con el sector privado, reciben un sueldo superior al que deberían.

Para esto, en primer lugar se tuvo que convertir todas las monedas a una común, para luego comparar datos entre sueldos de nuestro dataset versus el valor de mercado y así encontrar a aquellos trabajador que están sobre el promedio, todo esto considerando además que hay algunos que hacen horas extras, las cuales también se encuentran especificadas por cantidad extra de sueldo logrado.

También, veremos cargos en que se desempeñan las personas y su nivel de estudios, enfocándonos en el tipo de cargo, tales como jefatura, administrativo, directivo, entre otros y cómo se distribuye el sueldo también en estos casos.

Hipótesis

  1. “Existen personas en puestos de trabajos para los que no están capacitadas, además con sueldos demasiado altos.”
  2. “Existen personas cuyas sueldos son demasiado altos en relación a su formación y cargo en el sistema público.”
  3. ”El gobierno tiene dinero que podría invertirse de mejor manera.”

Limpieza de datos

Para comenzar a trabajar con las bases de datos, lo primero que se hizo con ellos fue generalizar el formato de los datos, eliminando las tildes
y ñ presentes en las bases de datos, todo esto ocupando las herramientas de busqueda y reemplazo disponibles en programas para hojas de cálculo tales como Excel y LibreOffice.

Luego, las tablas fueron llevadas a RStudio, donde usando los códigos que se ven a continuación, se eliminaron filas con datos NA en Estamentos y en calificación profesional, esto ya que son columnas claves para la existencia de una persona, y en caso de no estar, toda la fila se encuentra vacía. También se eliminaron personas cuyos suldos eran menores a $100.000, se pasaron todos los datos a letras mayúsculas. Es importante notar que se exluyó la columna GRADO EUS, esto ya que para nuestros propositos, este dato es prescindible

Codigo 1: Creación de tablas en R desde Excel

library(readxl)
CrearTabla <- function(fileName){
  name<- read_excel(fileName)
  name<-name[-c(1), ] #elimina primera fila NA
  return (name)
}

Codigo 2: Convierte minúsculas a mayúsculas, elimina filas NA y elimina columna "GRADO EUS"

tratar<-function(tabla){

  #pasa tabla a mayusculas
  tabla1 = as.data.frame(sapply(tabla,toupper),stringsAsFactors=FALSE) 

  #elimina NA
  tabla2<-tabla1[(is.na(tabla1$Estamento)==FALSE &          is.na(tabla$`CalificaciOn profesional o formaciOn`)==FALSE),]

  #elimina columnas innecesarias
  tabla2 <- tabla2[ ,!colnames(tabla2)=="Grado EUS"]
  return(tabla2)
}

Luego, se estandarizaron los datos, agrupando a trabajadores con profesiones parecidas en una profesión común. Para esto se buscaron en la columna de "CALIFICAION PROFESIONAL O FORMACION" aquellas filas que contuvieran las palabras claves mostradas al lado derecho en la siguiente tabla y fueron reemplazadas por la profesión generalizada correspondiente:

 

Profesión generalizada  Palabras claves
TECNICO TECNICO
ADMINISTRACION ADMINISTRACION
EJECUCION

EJECUCION

EJEC

COMERCIAL COMERCIAL
INGENIERO

INGENIERO

INGENIERA

ING

ABOGADO

ABOGADO

ABOGADA

DERECHO

BIOLOGO

BIOLOGO

BIOLOGA

CONTADOR

CONTADOR

CONTADORA

PROFESOR

PROFESOR

PROFESORA

PROF

ENSEÑANZA MEDIA MEDIA
MEDICO MEDICO
SECRETARIA

SECRETARIO

SECRETARIA

LICENCIADO

LICENCIATURA

LIC

LICENCIADO

LICENCIADA

PERIODISTA PERIODISTA
ENSEÑANZA BASICA BASICA
EXPERTO

EXPERTO

EXPERTA

ADMINISTRATIVO ADMINISTRATIVO
TRADUCTOR

TRADUCTOR

TRADUCTORA

 

Después, se procedió a igualar monedas, esto ya que para los datos del Ministerio del Exterior (tabla de nombre "exterior") las monedas venian en 4 tipos: PESOS, PESOS CHILENOS, DOLAR, DOLARES AMERICANOS. En el siguiente código se muesta el procedimiento para desarrollar esto, donde se usa $655,3228 como el valor de 1 dólar estadounidense a pesos chilenos, correspondiente al 18 de Julio de 2017 (Los datos fueron sacados para Julio de 2017)

Codigo 3: Cambio de moneda

## Funcion que cambia moneda en tabla, cambiando NomActual por
## NomNuevo y con factor 
de conversion factorCon
CambiaMoneda<- function(tabla, NomActual, NomNuevo, factorCon){
  lineas=nrow(tabla)
  for (i in 1:lineas){
    if (is.null(tabla$`Unidad monetaria`[i])){}
    else if (is.na(tabla$`Unidad monetaria`[i])){}
    else if(tabla$`Unidad monetaria`[i]==NomActual){
      num=as.numeric(tabla$`RemuneraciOn bruta mensualizada`[i])
      tabla$`RemuneraciOn bruta mensualizada` [i]<-round(num*factorCon)
      tabla$`Unidad monetaria`[i]<-NomNuevo
    }
    else{}
  }
  return (tabla)
}

Codigo 4: Cambio para cada moneda de base de datos del Ministerio de Exterior

unMonExt<-unique(exterior$`Unidad monetaria`)#array de tipo de moneda
len=length(unMonExt) #largo array
for (i in 1:len){

  #si el tipo de moneda es NA o Null ignorar
  if (is.na(unMonExt[i]) | is.null(unMonExt[i])){}

  #si corresponde a dolares o dolares americanos convierte
  else if (unMonExt[i]=="DOLAR" |unMonExt[i]=="DOLARES AMERICANOS")
    {exterior<- CambiaMoneda(exterior,unMonExt[i],"PESOS",655.3228)}

  #si son pesos chilenos, convertir con factor 1
  else if (unMonExt[i]=="PESOS CHILENOS"){
    exterior<- CambiaMoneda(exterior,"PESOS CHILENOS","PESOS",1)
  }
  else {}
}

Primer análisis de datos

Para el hito 2, se realizó un primer análisis de datos a partir de la exploración de estos a través de histogramas y estadísticas, según nivel educacional versus remuneración, destacando en color rojo el tramo donde se encontraría el sueldo promedio de cada carrera.

Para gente solo con enseñanza media se obtiene el siguiente histograma:

Con las siguientes estadísticas:

Mínimo  213.612
Mediana 972.627
Promedio 1.366.263
Máximo 3.091.320
Promedio en el mercado 284.625

Por su parte, para técnicos el histograma es:

Con estadísticas:

Mínimo 170.423
Mediana 1.909.380 
Promedio 1.985.129 
Máximo 6.265.776
Promedio en el mercado 400.516

Para Ingenieros en Ejecución, su histograma es:

Con estadísticas:

Mínimo 692.546   
Mediana 2.446.338
Promedio 2.636.623
Máximo 6.692.271
Sueldo promedio en el mercado 810.406

 

Con los Ingenieros comerciales, se tiene:

Y estadísticas:

Mínimo 193.511   
Mediana 3.608.070 
Promedio 3.821.461
Máximo 9.673.062
Sueldo promedio en el mercado 1.504.870

Mientras tanto, el histograma para abogados será:

Con estadísticas:

Mínimo 815.809   
Mediana 3.938.528
Promedio 3.883.352
Máximo 9.121.809
Sueldo promedio en el mercado 1.507.122

Finalmente, para médicos el histograma es:

Mínimo 760.011  
Mediana 4.321.962
Promedio 3.886.253 
Máximo 9.920.105
Sueldo promedio del mercado 2.338.522

 

También se realizó un gráfico de barras para remuneraciones, con niveles educacionales 1, 2, 3, 4 y 5, correspondientes a Educación media, Técnicos, Ingenieros Comerciales, Abogados y Médicos, respectivamente.

Experimentos

1. Clustering: Estamento/ Formación/ Tiempo trabajado

Con el fin de comprobar si existen personas en puestos de trabajo para los cuales no están capacitados, se realiza un clustering.

En primer lugar se ocupó el método del codo, obteniendo que lo más idóneo sería ocupar 5 clusters tal como se ve en la siguiente figura:

A partir de esto se obtienen los siguientes resultados, considerando las variables de estamento, formación y tiempo trabajado en meses:

Donde se observa según color de cluster los siguientes tipos de personas:

Es en este último cluster donde la hipótesis se comprueba, ya que podemos ver personas que no presentan formación alta, pero que sí trabaja en estamentos importantes. 

2. Clustering: Estamento/ Formación/ Tiempo trabajado/ Remuneración

Aquí se trabaja sobre la hipótesis de que los sueldos en el sistema público suelen ser sobrevalorados con respecto a formación y cargo

Usando un proceso similar al anterior, se obtiene nuevamente que 5 clusters sería lo más correcto en este caso:

Para lo cual se obtiene el siguiente cluster:

De donde, al ser muchas variables para analizar, se hace difícil poder concluir algo a partir de él.

Para ver si es posible solucionar este problema, se elimina la variable de tiempo trabajado, obteniendo por el método del codo que lo ideal sería usar 3 o 5 clusters

Obteniendo el siguiente resultado usando 5 clusters:

De donde se observa una anomalía en el cluster verde, en donde se encuentra gente que gana un alto sueldo, que tiene formación media-baja y además posee un estamento medio.

3. Reglas de asociación: Formación/ Cargo

Para ver qué correlaciones existen entre formaciones y cargos, se realizaron reglas de asociación para poder encontrarlas en las tablas de datos donde las formaciones no se encuentran generalizadas.

Los item más frecuentes para estas variables se muestran en las siguientes dos imágenes:

Donde vemos que la formación y el cargo más mencionado es contador y ficalizador, respectivamente.

Las 6 reglas de asociación con support más alto son:

Mientras que las 6 con mayor lift resultan ser:

Donde vemos que en ambos conjuntos el lift para las reglas resulta ser mayor que 1. Esto también se puede observar en el Scatter plot de todas las reglas

En donde la mayoría de las reglas tienen un support bajo.

También para explorar los resultados se hizo un gráfico de matriz agrupada, donde se observa que la regla más fuerte según el lift es {ADMINISTRATIVO} => {SECRETARIA} y su inversa. Mientras que la regla de mayor support es {ADMINISTRATIVO} => {ENSEÑANZA MEDIA}.

También se puede ver que cada cargo resulta tener formaciones bien definidas y con un alto lift (mayor que 1), por lo que en un futuro podría desarrollarse un clasificador para así poder, a partir de la formación de una persona, predecir a que cargo podría ser designado.

Por último, para este experimento se realiza un grafo de las 15 reglas con mayor lift, donde se observa de mejor forma las relaciones cargo/formación y viceversa.

4. Reglas de asociación: Formación/ Estamento/ Remuneración

Con el objetivo de encontrar discrepancias entre el nivel de formación, el estamento al que pertenecen y la remuneración que reciben los funcionarios, se decide hacer reglas de asociación que ocupen estos parámetros para ver si existe alguna tendencia, obteniendo en total 284 reglas.

Los niveles de estamento fueron generalizados y agrupados en niveles del 1 al 15, con 1 siendo el más bajo y 15 el más alto. La remuneración se encuentra dividida en 10^6.

Aquí, el método Scatterplot nos muestra un indicio similar al del experimento anterior, con reglas de bajo support pero alto lift.

El gráfico de matriz agrupada de las 100 reglas resulta no ser tan evidente como en el caso anterior, pero aún así se logra obtener una anomalía con respecto a la regla de mayor lift. Está es {nivel: 1, sueldo:1} => {AUXILIAR}, indicando que a pesar de estar en un nivel bajo, hay algunos auxiliares que llegarían a ganar hasta $1.000.000, por lo cual se requiere un mayor estudio de estos casos.

Además, a través del grafo de las 15 reglas de mayor lift podemos encontrar otra singularidad. Aquí, se obtiene que hay una fuerte relación entre administrativos y ganancias de $1.75 y $1.25 millones, lo cual resulta ser extraño debido a que con el experimento anterior, se logró encontrar que aquellas profesiones más esperables de ocupar estos puestos resultan ser técnicos, ingenieros en ejecución, enseñanza media y secretaria, lo cual no concuerda con los datos promedios de salarios en el mercado para estas profesiones.

5. Cálculos ahorros con sueldo tope

Por último, se decidió hacer un experimento que calcula cuanto se ahorraría el estado al poner un sueldo máximo para sus funcionarios.

El método para calcular esto fue límitar aquellos sueldos por sobre el tope, igualándolos a él. Los topes ocupados fueron $2.5 millones, lo que es aproximadamente lo que gana el presidente boliviano, $3 millones, que es lo que suele ganar el presidente peruano, y 5 millones, lo más común en jefes de estados latinoamericanos tales como Argentina, Colombia y Ecuador*.

Los resultados obtenidos fueron los siguientes:

Sueldo máximo

 2,5 millones

3 millones

5 millones

Ahorro

$ 5.636.804.881

$3.893.826.328

$654.209.823

Cantidad alumnos estudiando gratis ingeniería por año

(Arancel UChile: $5.175.300*)

13.068

9.024

1.512

Subvención para padres de niño recién nacido

(250.000 niños al año*)

$270.566

$186.903

$31.402

Tiempo de ahorro para construcción de un hospital

($120 mil millones*)

2 años

2.6 años

15 años

Deuda historica profesores

($50 mil millones)

10 meses

1 año y 2 meses

7 años

 

Planificación futura

A futuro, se podría ahondar en los siguientes puntos:

También es necesario hacer notar que uno de nuestros objetivos era comparar con bases de datos de otros paises, lo cual no se pudo realizar debido a que muchas naciones o no cuentan con una base de datos de este tipo o piden alguna clave para poder ingresar, siendo restringida a ciudadanos.

 

Conclusiones a partir del análisis

 Tomando en consideración los datos anteriores, se nota una irregularidad con respecto a las personas con sólamente enseñanza media, con ingresos medios de $972.627 con inflación de 2,24 %(1), siendo que en el mercado la media es de $284.625 según datos proporcionados por tusalario para el año 2010 con inflación de 1,42%(2), lo cual, aunque sea considerando las diferencias de inflación, siguen siendo valores abismalmente altos para los funcionarios públicos, con aproximadamente 20 personas ganando sobre los 2 millones. También notamos que la mayoría de las personas poseen un sueldo menor al promedio, por lo tanto el grupo que gana más que el promedio es un grupo privilegiado,  grupo que se espera encontrar en la próxima entrega usando clustering.

 Para educación técnica se tiene el mismo fenómeno, donde según nuestros datos tienen un salario medio de $1.909.380 y según los datos de tusalario debería corresponder a $400.516.

 Caso contrario es lo que ocurre con los médicos los cuales en el mercado poseen un sueldo promedio entre $1.950.384 en el primer año de egresados a $2.785.252  al quinto año de egresados según mifuturo.cl pero aún así se tienen profesionales con sueldos menores a 1 millon, por lo cual se deberá ampliar la base de datos de medicos para explorar si existen más casos asi o son simplemente casos aislados.

 Se puede observar que en todos los histográmas presentados la mayoria de los trabajadores superan el millon de pesos en su salario, lo cual podría no ser extraño si se considera que la mayoría de los estudiados se encuentra en carreras tradicionales las cuales bordean el sueldo promedio $1.901.000 al quinto año de egresados según mifuturo.cl.

 La distribución de los sueldos de los cargos de planta en el servicio público tienden a ser más altos que el promedio, siendo esperable que personas lleguen a estos cargos solo por este incentivo.

 El tiempo trabajado por una persona parece no ser una variable determinante con respecto a la remuneración que recibe.

 El dinero del gobierno podría invertirse en políticas públicas relacionadas más directamente con la población.

 A pesar de que nuestras hipótesis parecen comprobarse con este trabajo, se requiere mayor estudio indagando en bases de datos más grandes para así observar que factores externos podrían afectar (por ejemplo: bonos, horas extras, vacaciones, entre otros).