Descripción del Problema

Saber en qué lugares de la ciudad ubicar diferentes comercios, beneficios sociales, o publicidades puede ser una tarea difícil, ya que para saber la ubicación, queremos saber qué tipo de personas pasa por qué lugares.
Hay disponible mucha información de viajes de personas que transitan por toda la ciudad, por lo que analizar estos datos podría dar una idea de cómo se mueve la gente, saber en qué lugares pasan, y en particular saber de que tipo de gente se está hablando, diferentes cosas que se pueden averiguar son como por ejemplo el ingreso de las personas, la actividad que realizan, o el área en que se desenvuelven.

Descripción de los datos

Los datos fueron obtenidos del portal de datos del gobierno(http://datos.gob.cl/dataset/31616), por lo que son datos de libre uso para cualquier persona. Estos datos se obtuvieron mediante una encuesta realizada en 18.000 hogares ubicados en diferentes comunas de la Región Metropolitana durante 2012 y 2013.
El dataset consiste de una serie de tablas que contienen datos de las personas que participaron de la encuesta, de los hogares que fueron encuestados, y de los viajes que realizan estas personas habitualmente.
Lamentablemente no existe otra metadata además de las misma tablas que explique la información que contiene cada una de ellas, sin embargo, la mayoría de los nombres de las columnas son descifrables y entendibles por sí mismos.

Exploración de datos

El dataset se compone de 8 tablas que contienen datos generados por las encuestas y 59 otras tablas de parámetros, que son tablas en general más pequeñas, que contienen los significados de los identificadores utilizados en las tablas anteriores.

Las 8 trablas se pueden dividir en dos grandes grupos:

Tablas para Caracterizar a los usuarios

Tabla Hogares:

Se ven datos de la ubicación del hogar, número de personas que viven ahí, cantidad de vehículos y bicicletas disponibles, ingreso monetario del hogar y otros datos que aún no desciframos su significado, como “ImputadoDiv”, y “Factor”.

Tabla Personas

Identifica a una persona con un ID, la asocia a un hogar de la tabla Hogares, y guarda datos de la persona como sexo, utilización de pase escolar, año de nacimiento, uso de pase escolar, condición de adulto mayor, nivel de estudios y curso y horario de estudios, actividad y ocupación y actividad y ubicación del lugar de trabajo, condición de discapacidad, y de uso y conocimiento de transantiago y los ingresos que percibe esa persona.

Tabla Edadpersonas:

Tabla asociada directamente a la de personas que contiene la edad de las personas.

Tabla Vehiculos:

Tablaque asocia un vehículo y sus características a un hogar.

Tablas para caracterizar los viajes

Tabla Viajes:

Asocia la información de una persona con un viaje, la cual contiene información de la ubicación del origen y destino, el propósito del viaje, los medios de transporte utilizados, La hora del viaje realizado entre otros datos.

Tabla Etapas

Al parecer, representa un tramo del viaje, está asociado a un viaje y tiene la misma información anterior, como el origen y destino, el medio de transporte utilizado, el tiempo de espera en caso de que aplique, el recorrido de bus, taxi, tren, metro u otro medio de locomoción colectiva e información de estacionamiento de vehículo motorizado o bicicleta.

Tabla DistanciaViaje

Calcula para cada viaje la distancia utilizando tanto la distancia euclidiana(recta de inicio a fin), como la distancia Manhattan(trayecto).

Tabla ViajesDifusión

Asocia un viaje a algo llamado ModoDifusion que aún no desciframos qué significa.

Limpieza de datos

Integración de las tablas personas y viajes, de donde se obiene información del origen y destino de los viajes, hora de realización de éstos, propósito, cantidad de etapas realizadas, e información del ingreso de cada persona.
Utilización de los viajes sólo de ida: filtro de los viajes que tienen como propósito el valor “vuelta a casa.”
utilización de los viajes de las personas del tipo “trabajador”.
Utilización de datos de viajes que contienen las coordenadas de los orígenes y destinos de los viajes.
Transformación de coordenadas en formato UTM a geográficas.

Resultados

la clase sobre la que se quiso clasificar fue la clase de tramo de ingreso. Esta clase viene dada en el mismo dataset, y consiste de 7 diferentes clases divididas de la siguiente forma:

Tramo descripción
1 Menos de $200.000
2 Menos de $400.000
3 Menos de $800.000
4 Menos de $1.200.000
5 Menos de $2.400.000
6 $2.400.000 ó más
7 No contesta

Eliminamos el septimo tramo, ya que no aporta información.

La experimentación inicial se realizó utilizando principalmente Weka, en particular los clasificadores ZeroR y OneR, que se utilizan para comparar sus resultados “tontos” con los de clasificadores que puedan entregar mejores resultados.

Resultados zeroR

Zero R clasifica a todas las instancias como la clase mayoritaria(tramo 2) con los siguientes resultados:
Correctly Classified Instances 7551 41.6125 %
Precision 0.173
Recall 0.416

Resultados oneR

One R selecciona el atributo que mejor explica la clase de salida.
Correctly Classified Instances 8025 44.2246 %
Precision 0.344
Recall 0.442

A partir de estos clasificadores de control, probamos y comparamos varios clasificadores, siendo los que tienen mejores resultados los siguientes:

RandomSubSpace

Es un método que construye un árbol de decisión basado en un clasificador, mejora su accurracy utilizando aleatorización.
Para los experimentos utilizamos 3 diferentes árboles de decisión cuyos resultados se muestran a continuación:

RandomSubSpace con REP Tree

Correctly Classified Instances 8887 48.975 %
Precision 0.468
Recall 0.49

RandomSubSpace con J48

Correctly Classified Instances 8899 49.0411 %
Precision 0.468
Recall 0.49

RandomSubSpace con j48graft

Correctly Classified Instances 8901 49.0521 %
Precision 0.468
Recall 0.491

Los resultados obtenidos son mejores que ZeroR y OneR, pero no es lo suficientemente bueno.
Al no obtener buenos resultados con los clasificadores, se intenta ver las agrupaciones que se puedan dar naturalmente utilizando distintas formas de cluster:

Kmeans

Para saber cuántos clusters deberíamos buscar, utilizamos el Método del Codo, seleccionando así un K=3, ya que ese se ve como el punto donde justo cambia la dirección de la curva en la figura siguiente:

## Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Santiago,+Chile&zoom=11&size=640x640&scale=2&maptype=roadmap&language=en-EN&sensor=false
## Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address=Santiago,%20Chile&sensor=false

Se puede apreciar de los gráficos de ingreso, que los clusters están más o menos ordenados por el ingresos de las personas, siendo el cluster 2 el de menor ingresos y el cluster 3 el de mayores ingresos (con diferencias de $100.000 aproximadamente).
También, se puede notar cierta correlación con la cantidad de etapas de los viajes, siendo los viajes del cluster 2 los que presentan mayor cantidad de etapas y los del cluster 3 los que viajes compuestos por menos etapas.
Luego, mirando los mapas de origen y destino de las personas de los distintos clusters, se puede notar en particular que en el cluster 2, el origen de los viajes se localiza en comunas del sector sur y poniente, con un destino mayoritariamente concentrado en el sector centro-oriente. De los clusters 1 y 2, se observan orígenes dispersos por la ciudad y destinos igualmente dispersos pero con mayor presencia en las periferias.

Cluster Jerárquico: Ward

Al generar este dendograma, que se puede analizar visualmente, se puede decir que 3 clusters es la mejor opción con este tipo de clusterización. Ahora, haciendo el mismo análisis de inspección que realizamos anteriormente se obtiene lo siguiente:

## Map from URL : http://maps.googleapis.com/maps/api/staticmap?center=Santiago,+Chile&zoom=11&size=640x640&scale=2&maptype=roadmap&language=en-EN&sensor=false
## Information from URL : http://maps.googleapis.com/maps/api/geocode/json?address=Santiago,%20Chile&sensor=false

Los clusters se encuentran claramente divididos según la cantidad de ingresos que recibe cada persona que realiza un viaje, siendo el cluster 1 el de menor ingresos y el cluster 3 el de mayores ingresos.
De las horas de inicio de los viajes, podemos decir que en el cluster 3 los viajes inician en general más tarde que en los otros dos clusters. De la cantidad de etapas de los viajes, se puede ver que las personas del cluster 1 son las que más etapas realizan en sus viajes y las personas del cluster 3 las que en promedio realizan menos etapas.
A partir de los mapas de orígenes y destinos, podemos notar que los clusters 1 y 2 presentan orígenes dispersos dentro de Santiago (con poca presencia en las comunas del sector oriente) y destinos que se extienden hacia todos los sectores incluyendo las periferias. También, podemos notar que el cluster 3 presenta orígenes localizados en la zona oriente de Santiago y destinos mayormente concentrados en la zona centro-oriente de la ciudad.

Privacidad de datos

A primera vista, los datos que se recopilaron en esta encuesta no parecieren contener información sensible respecto a la privacidad de las personas, sin embargo, basta con hacer una serie de pequeñas inspecciones del contenido de las tablas del set de datos para darse cuenta que el liberar íntegramente estos datos constituye una irresponsabilidad muy grande en contra de la privacidad de las personas.
Basta con hacer unos pocos joins entre tablas, para tener información completa de un hogar: Número de integrantes, ingreso del hogar, número de vehículos, número de bicicletas, entre otros. Además, para cada integrante del hogar se tiene la información de su sueldo, sexo, edad, viajes que realiza (hacia dónde, cuánto se demora, por qué motivo viaja, hora de salida y de regreso a la casa, etc). Lo anterior podría parecer no constituir una grave falta contra la privacidad de las personas (asumiendo que no exista una forma de vincular los datos registrados con las personas directamente), pero el data set publicado comete el grave error de incluir coordenadas específicas de cada uno de los hogares (al parecer tomadas por GPS) las cuales permiten vincular toda la información respecto a una casa y sus integrantes a un punto geográfico (de mucha precisión).
Un ladrón podría por ejemplo inspeccionar el data set y seleccionar hogares de acuerdo a los bienes materiales que posea (como vehículos), a los horarios en que la casa se encuentre vacía o al tipo de integrantes que pueda encontrar dentro del hogar (por ejemplo personas de la 3ra edad o niños), lo cual sin duda alguna es producto de la falta cometida hacia la privacidad de las personas que participaron en esta encuesta.

Como no existe información adicional de estos datos, no sabemos si se realizó algún proceso de anonimizacion, ya que se podŕia por ejemplo haber modificado todas las coordenadas, manteniendo sólo un sector y no una dirección tan específica. Pero al realizar esta anonimización, se perdería parte de la información que podŕia ser valiosa. Sin embargo si es que se hubiese realizado la anonimización recién descrita, la información seguiría siendo perjudicial, ya que algunos hogares seguirían pareciendo “vulnerables” (según los datos proporcionados por el data set luego de la anonimización) y llamativos para eventuales ladrones.