Parte 1: Motivación y el contexto del terrorismo en el mundo (occidental).

¿El porqué de analizar el contexto global de terrorismo? Es la primera pregunta que surge el ver esta temática, ¿respuestas? la clara alza de actividad terrorista en los últimos años, sobre todo con el peak de cantidad de atentados el año 2014 posiblemente relacionado a la involucración de tropas califales del estado islámico, conocidas mayormente por ISIS, la mayor visualización de estos atentados frente a ataques ocurridos en Europa occidental o los cientos de reportes de la crisis que vive Siria sirven como muestra de que esta temática es un problema real.

El contexto mundial nos pone un marco; la guerra civil en Siria, Al Qaeda, el atentado de las torres gemelas, o la última explosión en Europa de refugiados y migrantes desde medio oriente por su constante clima de crisis nos entrega datos y posibles detonantes detrás de grandes eventos donde el objetivo de estos atentados es uno claro: infundir miedo en la población.

Sin embargo, y como se verá en posteriores visualizaciones, surge una importante duda… Si el conflicto en medio oriente partió en 2010, con atentados y el surgimiento de ISIS en todo el mundo, pero solo se hizo más fuerte la preocupación con los atentados de París, Bruselas o Manchester, es solo una mayor visualización del terrorismo por la ocurrencia de eventos en grandes países desarrollados y/o el terrorismo en países más pequeños es menos vistos y comunicado por los grandes medios, prácticamente haciendo invisible lo que ocurre en pequeños países.

Es debido a esto que queremos estudiar el terrorismo en el mundo los últimos 20 años de debida manera para ver qué factores lo caracterizan, distinguen por regiones y puedan dar respuesta a nuestras anteriores preguntas.

Parte 2: Metas e Hipótesis a Comprobar

Comprendida la motivación detrás de nuestra investigación el paso siguiente fue establecer metas claras en la línea de comprobar o refutar nuestra hipótesis sobre el terrorismo el en mundo:

“Existen factores que caracterizan un atentado terrorista, inciden en su probabilidad de éxito y estos varían en las regiones del mundo’’

Esta hipótesis va en la línea verificar los objetivos concretos que surgieron a partir del análisis del contexto del terrorismo y son:

Esta serie de objetivos van en la línea de comprobar, o refutar según corresponda, nuestra hipótesis principal

Parte 3. Nuestro Dataset y sus Características Principales

Para realizar este estudio del terrorismo mundial se utilizó como principal materia prima los datos reunidos por The National Consortium for the Study of Terrorism and Responses to Terrorism (START), un centro de educación e investigación de la universidad de MAryland que se enfoca en el estudio científico de las causas y consecuencias del terrorismo en el mundo y genera el Global Terrorism Database (GTD) que es un base de datos abierta que incluye sobre 180.000 datos de eventos terroristas a lo largo del mundo desde 1970 con actualizaciones anuales y que es considerada como “la base de datos no clasificada más completa sobre eventos terroristas en el mundo”

Dentro de sus características presenta:

A partir de esta extensa base de datos se tenía un buen punto de partida para trabajar en la línea de los objetivos planteados, sin embargo en primera instancia era necesario filtrar y realizar limpieza de datos para limitar el dataset a nuestros trabajo. Este proceso se vio principalmente en:

De los datos se logró ver que tenían x atributos con más de 180.000 registros de atentados terroristas. Además para el trabajo con clasificadores se notó que se tenían clases desbalanceadas con:

Junto al filtrado de atributos, y en base al estudio de algunos textos realizados a partir de global terrorism database, se destacaron un grupo de principales atributos (y sus subclases) que incidían en mayor manera en la tasa de éxito y caracterizaban en grandes rasgos los atentados, identificándose:

Parte 4: Principales experimentos realizados para el proyecto.

Ya en el trabajo efectivo de este proyecto se consideró dos principales enfoque de trabajo en vías de reflejar en ellas los objetivos propuestos y la verificación final de la hipótesis:

Para la clasificación se utilizó 5 algoritmos de clasificación:

en los cuales se procedió a escoger las mejores clasificaciones según sus métricas obtenidas, y sobre todo por el F1 Score dado por:

\(F1 = 2*\frac{precision*recall}{precision+recall}\)

Junto a esto se normalizaron las variables para evitar errores de clasificación realizados en el hito 2

Notar que todas aristas de trabajo están en la línea de estudiar lo sucedido, los eventos terroristas que han pasado y, a priori, no se abarca la posibilidad de realizar un predictor del éxito/fracaso de un atentado.

Parte 5: Hallazgos principales y análisis de resultados obtenidos.

Visualizaciones

En hitos anteriores se ovbservó como se distribuían ciertas variables que se consideran importantes para el análisis de este trabajo, sin embargo no se alcanzaba a recuperar de manera fácil y directa información respecto a la evolución temporal de dichas variables. Es por eso que en esta etapa final se decide por incorporar las siguientes visualizaciones que pretenden entregar mejores intuiciones respecto a los datos utilizados. Cabe destacar que se redujeron las regiones a mostrar para coincidir con las regiones utilizadas en la segunda parte de la sección de Clasificación, regiones en las cuales se centraron los análisis-por-región de este trabajo.

Clasificación exito de un atentado.

En la presente sección se mostrata el prodecimiento con el cual se trabajo los clasificadores de exito de un atentado terrorista. En primer lugar se presenta el filtrado del dataset el cual consiste en:

Se entrenaron distintos clasificadores entre los cuales se encuentran:

  • SVM

  • Decision Tree

  • Random Forrest

  • MLP

  • Regresión logistica

Los cuales fueron entrenados un total de 10 y se calcularon las metricas con los promedios de estas iteraciones.

Cabe destacar que al tratarse de variables categóricas se debieron procesar de forma que estas quedaran en formato one hot encoder, junto también se debió considerar que métodos como MLP y SVM requieren que los datos se encuentren normalizados, ya que MLP optimiza en base a descenso de gradiente y SVM es un problema de optimización cuadrático. En la posterior figura se presentan los F1 obtenidos para cada uno de estos clasificadores en el caso con datos normalizados y en el caso donde los datos no lo estuvieran.

Comparación de f1 score al no normalizar los datos .

Comparación de f1 score al no normalizar los datos .

Comparación de f1 score al normalizar los datos .

Comparación de f1 score al normalizar los datos .

Cabe destacar que al poseer un gran desbalance entre las clases evento fallido (Success==0) y evento existoso (Success==1). Se debio realizar ciertos procedimientos para arreglar esto. Entre los cuales se destacan dos metodos, subsampling de la clase 1, y el aplicar una matriz de costos balanceada que viene por defecto en sklearn en python.

Las matrices de costos agregan un regularizador a la función objetivo de cada uno de los clasificadores agregando peso a los datos de entrenamiento, en este caso dandole mas importancia a los datos con label 0.

Los desbalances vienen dados por:

Cantidad de eventos fallidos = 10270

Cantidad de eventos exitosos = 74817

El procedimiento a seguir fue entrenar distintos clasificadores y comparar su f1 promedio para determinar cual era el clasificador que se comportaba mejor.

Comparación f1 clasificadores matriz de costos balanceada.

Se obtuvo 0.72 para el MLP

Comparación de f1 score al aplicar una matriz de costos.

Comparación de f1 score al aplicar una matriz de costos.

Comparación de f1 score al aplicar subsampling

Comparación de f1 score al aplicar subsampling

Comparación entre sub sampling y matriz de costos.

Matriz de confusion al utilizar matriz de costos.

Matriz de confusion al utilizar subsampling.

Al comparar los resultados arrojados si bien el f1 score es mas alto en el caso de subssampling, se pudo observar que en su matriz de confusión este posee menos soporte ya que se trabaja con muchos menos datos. Por lo cual se considero que los resultados arrojados con los regularizadores de costos, serian los que seguiriamos estudiando ya que fueron bastante satisfactorios.

Obtención de features más importantes.

Para la obtencion de features más importantes en la tarea de obtener la caracteristica de exito. se procedio a realizar un entrenamiento de los mismos clasificadores bajo la matriz de costos balanceada, pero quitando ciertos atributos para así obtener con cuales atributos las metricas se reducen en mayor proporción.

Comparación F1 score al eliminar el target, Random Forrest f1=0.58

Comparación de f1 score al retirar el feature del target

Comparación de f1 score al retirar el feature del target

Comparación F1 score al eliminar el arma utilizada, Random Forrest f1=0.703

Comparación de f1 score al retirar el feature del grupo de arma utilizada

Comparación de f1 score al retirar el feature del grupo de arma utilizada

Comparación F1 score al eliminar la region, Random Forrest f1=0.724

Comparación de f1 score al retirar feature de region

Comparación de f1 score al retirar feature de region

Comparación F1 score al eliminar el tipo de ataque, Random Forrest f1=0.526

Comparación de f1 score al retirar feature de region

Comparación de f1 score al retirar feature de region

Luego de comparar estas metricas se pudo notar que la más influyente son el target y el tipo de ataque, ya que la tasa de bajada de las metricas fue mas notoria al retirar esa caracteristica.

Clasificadores de Región

Para Caracterizar las regiones y sus ataques, se decidio aplicar los lagoritmos de machine learning Decision Tree y Logistic Regression, para cada region como varaible de respuesta (1 si pertenece a la region a clasificar, 0 en caso contrario). Se generaron para cada región dataset de training y testing, con el 70% y 30% del dataset original. En cada caso los dataset de training y testing conservaban la misma tasa de respuesta.

Además se incorporaron al dataset variables que fueron ignoradas en la sección anterior, con la intención de tener más información con la cual clasificar. Estas variables fueron:

extended, categórica = 1 si el incidente tuvo una duración mayor a 24 hrs. crit1, categórica = 1 si el incidente corresponde a un ataque político, económico o religioso. crit3, categórica = 1 si la acción está fuera del contexto de las actividades legítimas de guerra, en la medida en que se dirige a los no combatientes (es decir, el acto debe estar fuera de los parámetros permitidos) suicide, categórica = 1 si fue un ataque suicida nperps, numérica igual al número de perpetradores. claimed, categórica = 1 si un grupo de personas se adjudican responsabilidad por el ataque. nkill, numérica igual al número de víctimas fatales. nwound, numérica igual al número de víctimas no fatales. nkillter, numérica igual número de víctimas fatales terroristas. nwoundte, númerica igual al número de víctimas no fatales terroristas. nhours, numérica igual a la duración del ataque en horas. ndays, numérica igual a la duración del ataque en días, si es que es extendido. ransom, categórica = 1 si el incidente envuelve una demanda monetaria.

A partir de los resultados se procedió a observar las variables que influyen en la clasificación. En el caso de los clasificadores Decision Tree se utiliza directamente el parametro importnace que entrega el modelo implementado con la librería Rpart de R, en el caso de los clasificadores Logistic Regression, se utiliza el parámetro z-score de los coeficientes que entrega el modelo de la ibrería glm en R, esto ya que según se investigó suele ser un buen indicador de importancia.

Se incorpora al análisis la curva de Lift acumulado y se muestra el valor en el percentil 8, esto debido a que, como se puede observar en la sección de Visualizaciones, en general las clases de regiones corresponden al 7-8% del dataset (exceptuando Medio Oriente), por lo tanto es interesante conocer el rendimiento de los clasificadores teniendo el umbral cercano a estos valores.

Se obtivieron los siguientes resultados.

Norte America

Sur America

Medio oriente Y Norte Africa

Europa de occidente

Europa de oriente

Para esta última región no se obtuvieron buenos clasificadores (fueron azarosos), por lo que no tiene valor analizar sus principales variables.

Análisis

Se puede observar como para las Regiones Norte América, Medio Oriente & Norte Africa y Europa de Occidente, la regresión logística obtuvo mucho mejor rendimiento general que el arbol de decisión. Lo contrario ocurre en la región de Sur america, donde el arbol de decisión resulto ser un mejor clasificador. En ambos casos se puede verificar que las variables más importantes de cada clasificador, por lo que se comprueba la hipotésis y la intuición acerca de la posibilidad de caracterizar los ataques de cada región. Se puede comprobar rápidamente, por ejemplo, que en el grafico “Duración promedio de ataques Extendidos” de la sección de visualizaciones, la región de sur américa presenta un comportamiento distinto y luego coherentemente el clasificador presenta la variable “extended” entre las variables mas importantes. El mismo ejercicio se puede hacer para la región de Norte América y la variable “weaptype1_txt” con el gráfico de “Tipo de Armas más frecuentes por año”. Un ejercicio interesante y que el equipo se ha propuesto realizar, es aprovechar el rendimiento de los clasificadores en los primeros percentiles (ver curvas lift) para combinar dichos clasificadores e intentar clasificar un dataset de testing por completo, y no de manera binaria(soló un región) como se han implementado en esta sección.

Parte 6. Conclusiones finales.

A partir del trabajo desarrollado y la aplicación de estas técnicas en el estudio del terrorismo en el mundo se logró una serie de aprendizajes. Con respecto a nuestra hipótesis se logró comprobar que hay ciertos atributos que son más relevantes que otros en el éxito/fracaso al analizar el estudio de clasificadores. Junto a esto se observó que los ataques se caracterizan de manera diferente en cada región, hecho que se evidenció en la segunda serie de clasificadores al estudiar el comportamiento en cada región por separado.

Esta comprobación de la hipótesis vino de la mano con el cumplimiento de los objetivos principales expuestos en un comienzo sobre comprobar la incidencia en la tasa de éxito y en su caracterización. Sin embargo no sólo se limitó solo a esto, pues considerando en parte el contexto mundial y la situación geopolítica del mundo, se logró dimensionar los factores principales que inciden en un evento terrorista, dando herramientas para entender porque se dieron peaks de atentados como los ocurridos en 2011 o 2014.

Además por la naturaleza misma del dataset no se encontró incentivos para realizar otras técnicas vistas en clases como clustering o reglas de asociación. Sin embargo, se pudo abordar (y entender) en como utilizar de buena manera las disponibles, como clasificadores. Otro aspecto relacionado que se percibió en perspectivas al trabajo realizado fue que el trabajo se enfocó demasiado en iterar sobre el que hacer con nuestro dataset sin plantearnos buscar otras fuentes de información, como más datasets, que pudieran ayudarnos a contestar nuestras preguntas iniciales y conseguir mejores resultados, cómo podrían haber sido estudios de opinión pública, indices de victimización, estadisticas de twitter sobre reacción inmediata sobre atentados, entre otros.

A finales de cuenta se finaliza el trabajo adquiriendo una gran cantidad de aprendizajes sobre minería de datos, los cuales fueron fuertemente respaldados por su aplicación en un interesante proyecto de estudio del terrorismo en el mundo en las últimas 20 décadas y dando un buen cierre al desarrollo de este curso.

Para cualquier persona interesada en conseguir los codigos con los cuales se consiguieron lso resultados vistos en este documento, se deja abierta la invitación a escribir a alguno de los correos de los autores.