Recapitulando
Luego del desafío anterior, enfocado al análisis de la incidencia de eventos históricos en el desarrollo de la industria cinematográfica en temas de contingencia, el proyecto continúa en la línea del “feminismo”, orientado a replicar el “test de Bechdel” en forma de un clasificador con el fin de determinar que películas son más o menos machistas que otras.
Con respecto a los datos, en esta oportunidad, se cruzaron los datos señalados con la base de películas de “bechdeltest.com”, donde se señala el puntaje de Bechdel (Bechdel Score) para cada película. Para ello se utiliza un script en Phyton que hacienda llamadas a una API obtuvo la información necesaria. Una vez descargados los datos, se hace join/merge con la base ya manejada en el conocido programa R.
¿Qué es el test de Bechdel?
Es una idea que nace en el comic “The rule”, por Alison Bechdel. Esta surge como una idea para evaluar la brecha de género en las películas a partir de 3 criterios base:
- En la película salen al menos dos personajes femeninos.
- Dichos personajes se hablan la una a la otra en algún momento.
- Dicha conversación tiene que tratar de algo más que no sea un hombre (no limitado a relaciones románticas, por ejemplo dos hermanas hablando de su padre no pasa el test).
Se pretende entonces usar Machine Learning para determinar si la película aprueba el test o no, sin contar con los diálogos de la película.
Exploración de la nueva data
Considerando que se tienen las clasificaciones de Bechdel asociadas a un subconjunto particular de la data manejada, se levanta una tabla para estos casos en particular, identificando los siguientes atributos de interés:
Utilizando tablas dinámicas con los resultados obtenidos al aplicar el test de Bechdel se obtuvieron las siguientes conclusiones:
- Las películas dirigidas por mujeres corresponden a un 10% del total de películas que se testearon con el test de Bechdel.
- Cuando una mujer dirige, en la gran mayoría de los casos ocurre que la primera mujer que aparece en el cast está más cercana a ser la protagonista.
- Al dirigir una mujer, el 68,23% de dichos filmes son de la categoría drama y el 5,82% son de terror, mientras que en una película dirigida por un hombre el 50,77% pertenecen al genero de drama y el 11,5% son de terror. Por lo tanto la diferencia entre los porcentajes obtenidos es significativa.
- Bajo el test de Bechdel, cuando la película es dirigida por una mujer el promedio de score obtenido es de 2,75 (siendo 3 el máximo). Mientras que en una película dirigida por un hombre el promedio es de 2,05.
Esto dice que en este caso las películas de hombre se quedan estancadas en el segundo criterio, en otras palabras, las mujeres en sus películas no hablan de algo que no sea hombres.
Además se realizaron pruebas con distintos clasificadores de weka y algunos de los resultados más interesantes se presentan a continuación:
Viendo el gráfico anterior se dice que entre las películas que no pasaron ningún nivel del test, 1,02% fueron dirigidos por una mujer, así se concluye con cada uno de los datos.Una gran conclusión que se destaca es que la tendencia de todas las curvas son positivas, esto quiere decir que a mayor score obtenido mayor participación de mujeres en los filmes.
Respecto al gráfico anterior, agrupando las siguientes curvas se tiene que rating y tamaño de elenco se presentan en cantidad, mientras que el presupuesto se ve en el eje de millones.
Por lo tanto, se ve que mientras menos score obtienen los filmes, mayor es el presupuesto del cual dispone. Además llama la atención en términos de presupuesto y tamaño de elenco la curva esta más inclinada a aquellas que están catalogadas con un menor score en el test de Bechdel.
Considerando estas observaciones se puede concluir que el hecho de que las mujeres (tanto directora como escritora) estén involucradas en la producción de la película favorece la participación de más mujeres dentro del filme.
Experimento
Probando con 27 clasificadores distintos (usando Weka) y viendo sus métricas correspondientes, se logró llegar a uno que lograra clasificar de mejor forma a los datos. A continuación se describen las métricas obtenidas con los mejores 3 clasificadores obtenidos. Dichos clasificadores corresponden a:
- LogitBoost: logit por clases
- DTNB: Mezcla entre tabla de decisiones y Naive Bayes
- J48Consolidated: J48 (árbol de decisión) con distinción de clases
Como se puede mostrar en la figura a continuación el clasificador que mejor clasifica (valga la redundancia) corresponde al LogitBoost, dado que lidera en la mayoría de las métricas de ajuste. Cabe destacar que esto podría cambiar si se quisiera aplicar otro tipo de criterio.
Tal como se comenta en el párrafo anterior el mejor clasificador, a nuestro criterio, es el LogitBoost, dado que posee el menor error cuadrático medio y la mayor cantidad de instancias correctamente clasificadas, a diferencia de los demás. De todas formas la magnitud de los errores sigue siendo muy grande, no obstante dentro de lo empírico no es tan dañino.
Luego viendo el Detailed Accuracy By Class del clasificador de LogitBoost se puede ver que la clase 3 provoca un aumento en las esperanzas obtenidas (ver la siguiente tabla). Esto tiene sentido ya que este corresponde a un criterio que considera los volúmenes de las clases, y dado que estas fueron calificadas por usuarios de manera manual, existe una sobrepoblación de estas observaciones en la muestra.
A modo de evaluar los distintos tipos de modelos, destacan 4 grupos: “Bayes“, “Meta“, “Rules” (reglas) y “Tree” (árboles de decisión). Se puede identificar entonces que, en promedio, los modelos de árboles de decisión lideran en las métricas de FP, Precisión y F-Measure, mientras que los asociados a “rules” presentan una mayor tasa de observaciones bien clasificadas y mejores tasas de TP. Por otro lado, los métodos bayesianos lideran en error cuadrático medio y ROC, y finalmente, los modelos “meta” (grupo que posee al modelo con mejores métricas de ajuste) lideran solamente en recall.
Conclusiones
De manera inicial, es importante señalar que los resultados obtenidos estan sujetos a discusión, dada las proporciones de la data para cada Bechdel Score (9,3%, 23,1%, 10,8% y 56,8%, respectivamente). Esto implica que se entrenan los clasificadores con una sobrepoblación de datos que en universo “cinematográfico” no son tan frecuentes.
No es sorprendente que el modelo de mejor ajuste sea un logit con clases, dado que el análisis exploratorio señaló comportamientos particulares para cada grupo de películas determinado por el Bechdel Score (y, por otro lado, hablamos de variables nominales, por lo que se requiere un modelo clasificador de variable categórica).
No se puede afirmar a ciencia cierta si el clasificador es realmente bueno, dado que no contamos con proporciones reales (del universo) asociadas al Bechdel Score, sino que solo con las proporciones muestrales. No obstante, muestra métricas de ajuste que, dentro del mundo empírico, son optimistas, dada la alta dificultad asociada a la construcción de un clasificador.
Si bien la familia de modelos bayesianos lidera en métricas de ajuste, los modelos “meta” (familia de modelos a la que pertenece LogitBoost) también muestran buenos indicadores, quedando en segundo lugar en muchas de las categorías observadas. También esta es una de las conclusiones a discutir, dado que no se consideran todos los modelos existentes, siendo estas métricas muy sensibles a valores bajos de los modelos escogidos.
Cabe recordar que uno de los objetivos planteados para este trabajo fue encontrar patrones o fenómenos no explícitos que se den de manera regular en éste ámbito, lo cual se llevó a cabo con el test de Bechdel, por lo que se puede afirmar que se cumplen los objetivos planteados al inicio del semestre.