Estudio final Hito 3, parte B
En esta parte se elige un dataset con menos características para compraboar si existía overfitting, o bien, ajustar el clasificador a que no necesite saber sobre ganadores o nominados en otros premios Esta parte del trabajo se reliza tambien porque se quiere añadir a la tabla el atributo Popularidad, para ver su poder o ayuda para clasificar los ganadores.
Cabe destacar que anteriormente se realizaron cluster comparando atributos para ver distintos grupos que contengan la misma relación y poder sacar aquellos que no siguen una misma regla respecto de popularidad con los otros atributos. En general se usan datos más actuales eliminando las películas más antiguas.
Se observa una distinta distribución de clases, esto hace alución a que el dataset usado en la parte anterior contenia datos erroneos. Posteriormente se descubre que estos datos eran generados al hacer merge de ganadores Oscar con ganadores en otros premios, muchas veces estos ganadores duplicandolos.
Nuevamente se realiza oversampling y subsampling.
Cabe destacar que se observa unos resultados más fidedignos con la dificultad del trabajo, donde arrojan resultados no tan buano como los anteriores, pero regulares en muchos casos. Siendo el cosa de Oversampling el mejor.
Se realiza el estudio del mejor k para el clasificador kneighboors
Luego de esto se realizan las comparaciones entre clasificadores.
Se observa que muchas veces los clasificadores fallan pero para el caso de el arbol de decisión, posee un gran promdio en casi todos los valores sobre todo para el caso de oversampling.
Finalmente se realiza cross-validation para corroborar los resultados anteriores, y que no sean generados por algun tipo de mal entrenamiento.
En esta ocasión ocurrieron buenos resultados tanto en Kneighboors como el arbol de decisión, lo que podría comprabar que los clasificadores estarían realizando el trabajo de manera correcta, es decir, se podría generar un predictor de ganadores de película en base a los datos usados, este no siendo tan perfecto.