Descripcion del Problema | Descripción de los Datos | Limpieza de los Datos | Exploración de Datos | Resultados | Conclusiones
Para conocer la distribución de las métricas, se generaron diferentes gráficos para los atributos a estudiar de modo de conocer el comportamiento de cada uno de estos. En las siguientes imágenes por ejemplo se aprecia que para tan solo 2 atributos, estas tienen comportamientos bastante diferentes lo cual hace pensar que no existirá un concenso entre todas ellas.
Teniendo en cuenta lo anterior, el siguiente boxplot resume el comportamiento de todas las métricas aplicadas sobre los el conjunto de pares a analizar para un total de 11255 declaraciones aproximadamente. Notar que ahora es evidente que no existe un consenso claro entre las métricas aplicadas, lo cual sugiere que probablemente el problema a resolver no es trivial. Todavía el texto de las declaraciones en este punto son textualmente aquellas encontradas en el código fuente, incluyendo información poco discriminante como los modificadores de visibilidad de los campos declarados o el propio “;” utilizado para finalizar una instrucción en C#.
Además, para investigar el comportamiento de cada métrica respecto a otra medida de similitud, se estudió qué tan relacionadas están los diferentes valores calculados de modo de conocer si existe o no relación entre estas. Así y tal como se exhibe a continuación, se elaboró una matriz de correlación entre las medidas (resumida solo a algunas métricas). En la figura se puede observar que si bien algunas métricas poseen una correlación cercana a una 1, otras incluso tienen valores negativos, por lo cual no es posible establecer una verdad absoluta a la hora de dirimir por la elección de un conjunto de estas sin realizar un previo estudio.