Conclusiones
La superioridad, por cada métrica de similitud, de la comparación basada en información pre-procesada sobre la correspondiente sin procesar (Raw) confirma nuestra intuición inicial de identificar los metadatos (atributos) y modificadores en las declaraciones de campos como especies de stop words. El proceso puede ser extrapolado a otros tipos de nodos como las declaraciones de propiedades, métodos y clases.
Numerosas variantes experimentales, basadas en las métricas de texto estudiadas, han mostrado un comportamiento superior a las distintas variantes basadas en criterios de Change Distiller. Por tanto, parece ser que asumiendo una postura personalizada de acuerdo al tipo de instrucción a comparar es posible mejorar los resultados existentes para tal algoritmo.
- Desafortunadamente los resultados no deben ser considerados concluyentes a falta de una mayor cantidad de datos positivos. Creemos que, identificando un umbral igual al mínimo entre todos los umbrales de todas las métricas es posible enfocar un estudio hacia la búsqueda de únicamente nuevos pares de tipos de nodos que sean positivos.
- El proceso empleado puede resumirse a:
- Recolectar pares de tipos de nodos de interés,
- Aplicar criterios de matching según las distintas estrategias de referencia (por ejemplo Change Distiller).
- Enfocar el etiquetado en aquellos elementos donde no exista un consenso dominante entre las estrategias de referencia aplicadas en b).
- Calcular valores de similitud según métricas de similitud de textos con las cuales se desea experimentar.
- Aplicar clustering para identificar categorías y en consecuencia umbrales por métricas para construir un criterio de matching.
- Categorizar las distintas dimensiones de pares de tipos de nodos según corresponda (al menos una por cada métrica de texto a explorar).
- Aplicar técnicas de clasificación (árboles de decisión).
- Aplicar análisis de asociación para contrastar resultados obtenidos mediante clasificación y/o identificar criterios híbridos.
- Incrementar la cantidad de positivos del conjunto inicial restringiendo la búsqueda a pares de nodos en el universo que satisfagan un umbral de exploración.
El proceso demostró ser efectivo, por tanto pudiese ser utilizado como metodología de una investigación futura de mayor envergadura.