Entrega Final - Grupo 12¶

Introducción a la Minería de Datos - Otoño 2018

Pedro Belmonte,
Jorge Fabry,
Víctor Garrido,
Pablo Ilabaca

Introducción¶

Motivación¶

La industria de los videojuegos es una de las más grandes industrias de entretenimiento a nivel mundial. Las mayores publicaciones se enfrentan codo a codo para conseguir el mayor éxito y con esto mayores ventas.

En esta industria, como en muchas otras, los críticos juegan un rol vital a la hora de definir la recepción que tendrá un juego. Casi siempre, los críticos reciben copias de juegos antes de que estos sean lanzados al público, por lo que tienen la primera palabra a la hora de publicitar si un juego es de calidad o no.

Dado esto, se da origen a un fenómeno en el que los críticos dan muy buena crítica a un juego, tal vez motivados por dinero o por quedar bien con los publicadores para seguir recibiendo acceso exclusivo a los juegos, y luego los usuarios dan un puntaje mucho menor, dejando una sensación de engaño y desencanto. A estos juegos con una gran diferencia de puntaje los llamaremos fiascos.

Ejemplos de Fiascos

Interesa entonces utilizar las herramientas que provee este curso para estudiar los distintos patrones que pueden surgir a la hora de puntuar la calidad de un juego. En específico, lograr crear un predictor para saber, ojalá con bastante seguridad, si un juego será un fiasco o no.

Hipótesis¶

Por la información manejada por los miembros del equipo, y lo que se ha observado de los últimos grandes fiascos en la industria de los videojuegos, se intuye que un factor importante a la hora de determinar si un juego será un fiasco o no será el publicador del juego. Esperamos que esta variable tenga alta correlación con los fiascos.

Data Set¶

Origen¶

Para explorar el fenómeno antes descrito, se utiliza el dataset extraido de https://www.kaggle.com/silver1996/videogames/data.

Este se construye de datos de Metacritic.com, el cual incluye 16719 entradas con los datos que se presentan a continuación.

import pandas as pd
import numpy as np
original_data = pd.read_csv('data/Video_Games_Sales_as_at_22_Dec_2016.csv',encoding='latin1')
print("(Filas x Columnas) = ",original_data.shape)
original_data.head()

(Filas x Columnas) =  (16719, 16)

Los gráficos presentados a continuación se contruyen con este data set, con la intención de extraer información útil de este.

Publicadores controversiales Puntajes por género

Se observa que el data set incluye muchas columnas con distintas variables, y también algunas filas que le faltan valores. Para comenzar a usar este data set se debe hacer una limpieza que solo deje datos que sean útiles.

Limpieza¶

El siguiente script en R busca limpiar y ordenar el data set para ser utilizado posteriormente por los clasificadores. Se borran varias columnas que no estarían disponibles cuando sale un juego, como ventas. También se borran columnas que no nos aportarán información al explorar a futuro, como el año de lanzamiento, o el nombre del juego.

Se busca tambien limitar la cantidad de valores distintos de varias columnas, para mantener el problema con baja dimensionalidad.

Tras esto, se tienen 8 columnas. La primera un número por cada juego. Las siguientes 6 son parámetros, y la última la clase a clasificiar del juego. La clase corresponde a si el juego es un fiasco o no.

data = pd.read_csv('data/data_para_clasificadores.csv',encoding='latin1')
data.head()

Cabe notar que las clases no están balanceadas.

print("Cantidad de Fiascos")
data['Is_Fiasco'].value_counts()

Cantidad de Fiascos

False    2169
True      179
Name: Is_Fiasco, dtype: int64

Adaptando el Data Set para clasificadores¶

Los clasificadores no pueden trabajar con Strings directamente. Vemos que Platform, Genre, Publisher y Rating son categorías que utilizan Strings, y hay que aplicar algún tipo de transformación para poder alimentarlas al clasificador.

Para esto, se utiliza un LabelBinarizer, que permite covertir las distintas categorías de una columna en columnas independientes. El resultado final es una matriz de dimensiones: 2348 rows x 34 columns.

from sklearn import preprocessing

## Se aplica LabelBinarizer columna por columna, y finalmente se unen los resultados
## En header se van guardando los nombres de cada columna para luego agregarlas al nuevo Data Set
lb = preprocessing.LabelBinarizer()

lb.fit(data["Platform"])
platform = lb.transform(data["Platform"])
header = lb.classes_

lb.fit(data["Genre"])
genre = lb.transform(data["Genre"])
header = np.append(header,lb.classes_)

lb.fit(data["Publisher"])
publisher = lb.transform(data["Publisher"])
header = np.append(header,lb.classes_)

##sales = np.transpose(np.matrix(data["Global_Sales"].values))
##header = np.append(header,"Global_Sales")

critic_score = np.transpose(np.matrix(data["Critic_Score"].values))
header = np.append(header,"Critic_Score")

lb.fit(data["Rating"])
rating = lb.transform(data["Rating"])
header = np.append(header,lb.classes_)

fiasco = np.transpose(np.matrix(data["Is_Fiasco"].values))
header = np.append(header,"Is_Fiasco")

new_matrix = np.hstack((platform,genre,publisher,critic_score,rating,fiasco))
new_data = pd.DataFrame(new_matrix)
new_data.columns = header

## Se separa los datos de los resultados a predecir.
X = new_data[new_data.columns[:-1]]
y = new_data[new_data.columns[-1]]

Para observar la nueva data:

new_data.head()

Encontrando nuestro Predictor¶

Experimentos básicos para elegir predictor¶

Como predictor de fiascos, se busca tener un clasificador que tenga un porcentaje alto de predicción de fiascos. Mediante varios experimentos, se muestra a continuación como se comparan varios clasificadores ante nuestro data set.

Utilizando código del laboratorio 2.2 del curso, se comparan distintos clasificadores mediante el contraste de las métricas promedio obtenidas tras un buen número de pruebas.

import graphviz
import io
import pydotplus
import imageio

from sklearn import tree
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.model_selection import train_test_split, cross_val_score
from matplotlib import pyplot as plt
from sklearn.metrics import f1_score, recall_score, precision_score
from sklearn.dummy import DummyClassifier
from sklearn.naive_bayes import GaussianNB  # naive bayes
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC  # support vector machine classifier
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

def run_clf_with_cross_val(clf, X, y, num_tests=100, k=5):
    metrics = {'f1-score': [], 'precision': [], 'recall': [], 'score': []}
    
    for _ in range(num_tests):
        
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.30, stratify=y)
        clf.fit(X_train, y_train)
        predictions = clf.predict(X_test)
        scores = cross_val_score(clf, X, y, cv=k, scoring='f1')
        
        metrics['f1-score'].append(f1_score(y_test,predictions))
        metrics['recall'].append(recall_score(y_test,predictions))
        metrics['precision'].append(precision_score(y_test,predictions))
        metrics['score'].append(scores.mean())
    
    return metrics

import warnings
warnings.filterwarnings('ignore')
def run_many_classifiers(X, y, num_test):
    c0 = ("Base Dummy", DummyClassifier(strategy='stratified'))
    c1 = ("Decision Tree", DecisionTreeClassifier(min_samples_split=100))
    c2 = ("Gaussian Naive Bayes", GaussianNB())
    c3 = ("KNN-3", KNeighborsClassifier(n_neighbors=3))
    c4 = ("KNN-5", KNeighborsClassifier(n_neighbors=5))
    c5 = ("Random Forest",RandomForestClassifier(max_features="auto", max_depth=15, n_estimators=40))


    classifiers = [c0, c1, c2, c3, c4, c5]
    print("Corriendo "+ str(num_test) + " tests por clasificador\n")

    for name, clf in classifiers:
        metrics = run_clf_with_cross_val(clf, X, y, num_test)
        print("----------------")
        print("Resultados para clasificador: ",name) 
        print("Precision promedio:",np.array(metrics['precision']).mean())
        print("Recall promedio:",np.array(metrics['recall']).mean())
        print("F1-score promedio:",np.array(metrics['f1-score']).mean())
        print("Cross Validation F1-score promedio:", np.array(metrics['score']).mean())
        
run_many_classifiers(X, y, 20)
warnings.filterwarnings('once')

Corriendo 20 tests por clasificador

----------------
Resultados para clasificador:  Base Dummy
Precision promedio: 0.08639287015418194
Recall promedio: 0.08518518518518518
F1-score promedio: 0.08534556795480351
Cross Validation F1-score promedio: 0.07216939061186936
----------------
Resultados para clasificador:  Decision Tree
Precision promedio: 0.2516799866799867
Recall promedio: 0.04444444444444444
F1-score promedio: 0.07466339131642134
Cross Validation F1-score promedio: 0.04978111319574733
----------------
Resultados para clasificador:  Gaussian Naive Bayes
Precision promedio: 0.09453782684549078
Recall promedio: 0.877777777777778
F1-score promedio: 0.1704499937947472
Cross Validation F1-score promedio: 0.1787406621828928
----------------
Resultados para clasificador:  KNN-3
Precision promedio: 0.21359837698042558
Recall promedio: 0.07592592592592592
F1-score promedio: 0.11018184057851395
Cross Validation F1-score promedio: 0.08917704173518129
----------------
Resultados para clasificador:  KNN-5
Precision promedio: 0.3476922505598976
Recall promedio: 0.04351851851851852
F1-score promedio: 0.07546195206712222
Cross Validation F1-score promedio: 0.04525641025641025
----------------
Resultados para clasificador:  Random Forest
Precision promedio: 0.3230014100181687
Recall promedio: 0.137037037037037
F1-score promedio: 0.1909051157577269
Cross Validation F1-score promedio: 0.14792094336720985

Se puede observar que los resultados obtenidos no son considerablemente buenos. Tomando en cuenta el F1-score, que describe en general la eficacia de un clasificador, los puntajes son bien bajos, aunque aún así mejores que el base dummy.

De todos los clasificadores explorados, Gaussan Naive Bayes y Random Forest son los que se ven más prometedores a predictor de fiascos.

Utilizando Subsampling y Oversampling¶

En un intento de encontrar mejores resultados que los anteriores, se aplicarán estas estrategias sobre el dataset, buscando que los clasificadores aprendan mejor teniendo clases balanceadas. Nuevamente nos apoyamos en código trabajado en el laboratorio 2.2.

# oversampling sobre la clase True
idx = np.random.choice(new_data.loc[data.Is_Fiasco == True].index, size=1990)
data_oversampled = pd.concat([new_data, new_data.iloc[idx]])

print("Data oversampled on class 'True'")
print(data_oversampled['Is_Fiasco'].value_counts())
print()

# subsampling sobre la clase False
idx = np.random.choice(new_data.loc[new_data.Is_Fiasco == False].index, size=1990, replace=False)
data_subsampled = new_data.drop(new_data.iloc[idx].index)

print("Data subsampled on class 'False'")
print(data_subsampled['Is_Fiasco'].value_counts())

Data oversampled on class 'True'
1    2169
0    2169
Name: Is_Fiasco, dtype: int64

Data subsampled on class 'False'
1    179
0    179
Name: Is_Fiasco, dtype: int64

warnings.filterwarnings('ignore')
# datos "oversampleados" 
X_over = data_oversampled[new_data.columns[:-1]]
y_over = data_oversampled[new_data.columns[-1]]

# datos "subsampleados"
X_subs = data_subsampled[new_data.columns[:-1]]
y_subs = data_subsampled[new_data.columns[-1]]

print("----------Prueba Oversampling------------")
run_many_classifiers(X_over, y_over, 20)

print("\n\n----------Prueba Subsampling------------")
run_many_classifiers(X_subs, y_subs, 20)

----------Prueba Oversampling------------
Corriendo 20 tests por clasificador

----------------
Resultados para clasificador:  Base Dummy
Precision promedio: 0.5039098401046036
Recall promedio: 0.5049923195084485
F1-score promedio: 0.504396468912438
Cross Validation F1-score promedio: 0.5017355488878898
----------------
Resultados para clasificador:  Decision Tree
Precision promedio: 0.7780625335592861
Recall promedio: 0.8319508448540706
F1-score promedio: 0.8035882519157607
Cross Validation F1-score promedio: 0.8053475297748977
----------------
Resultados para clasificador:  Gaussian Naive Bayes
Precision promedio: 0.5672590330572691
Recall promedio: 0.9359447004608296
F1-score promedio: 0.7061688705505398
Cross Validation F1-score promedio: 0.6991221391668334
----------------
Resultados para clasificador:  KNN-3
Precision promedio: 0.8318863261311359
Recall promedio: 0.9894777265745007
F1-score promedio: 0.9038370509092353
Cross Validation F1-score promedio: 0.9000595875342261
----------------
Resultados para clasificador:  KNN-5
Precision promedio: 0.790455272812608
Recall promedio: 0.9927035330261138
F1-score promedio: 0.8800468163041308
Cross Validation F1-score promedio: 0.879381575429894
----------------
Resultados para clasificador:  Random Forest
Precision promedio: 0.8975587105762111
Recall promedio: 0.9960829493087558
F1-score promedio: 0.9441978074590572
Cross Validation F1-score promedio: 0.9282979745820384


----------Prueba Subsampling------------
Corriendo 20 tests por clasificador

----------------
Resultados para clasificador:  Base Dummy
Precision promedio: 0.49393886037532847
Recall promedio: 0.4953703703703704
F1-score promedio: 0.49375666682561964
Cross Validation F1-score promedio: 0.4911618520570743
----------------
Resultados para clasificador:  Decision Tree
Precision promedio: 0.6504945358482197
Recall promedio: 0.6777777777777778
F1-score promedio: 0.6583004028697915
Cross Validation F1-score promedio: 0.6133204829954582
----------------
Resultados para clasificador:  Gaussian Naive Bayes
Precision promedio: 0.5840915067393669
Recall promedio: 0.836111111111111
F1-score promedio: 0.6833652214531264
Cross Validation F1-score promedio: 0.6881190722270022
----------------
Resultados para clasificador:  KNN-3
Precision promedio: 0.571714001331877
Recall promedio: 0.6481481481481481
F1-score promedio: 0.6060496593745379
Cross Validation F1-score promedio: 0.6046189067294558
----------------
Resultados para clasificador:  KNN-5
Precision promedio: 0.5787112322112168
Recall promedio: 0.6481481481481483
F1-score promedio: 0.6099569004724595
Cross Validation F1-score promedio: 0.601387696350414
----------------
Resultados para clasificador:  Random Forest
Precision promedio: 0.6921772715506428
Recall promedio: 0.6990740740740741
F1-score promedio: 0.6931361751910214
Cross Validation F1-score promedio: 0.6697863289897583

También, como experimento, se buscó hacer subsampling y oversampling al mismo tiempo para no repetir tantos datos, pero tampoco quedarnos con tan pocos. Esto se muestra a continuación.

idx = np.random.choice(new_data.loc[data.Is_Fiasco == True].index, size=71)
data_master = pd.concat([new_data, new_data.iloc[idx]])
idx = np.random.choice(new_data.loc[new_data.Is_Fiasco == False].index, size=1669, replace=False)
data_master = data_master.drop(new_data.iloc[idx].index)
print("Data subsampled on class 'False' and oversampled on class 'True'")
print(data_master['Is_Fiasco'].value_counts())
X_mast = data_master[new_data.columns[:-1]]
y_mast = data_master[new_data.columns[-1]]
run_many_classifiers(X_mast, y_mast, 10)

Data subsampled on class 'False' and oversampled on class 'True'
0    500
1    250
Name: Is_Fiasco, dtype: int64
Corriendo 10 tests por clasificador

----------------
Resultados para clasificador:  Base Dummy
Precision promedio: 0.3311626194733918
Recall promedio: 0.3493333333333334
F1-score promedio: 0.33954293163939997
Cross Validation F1-score promedio: 0.325600474540678
----------------
Resultados para clasificador:  Decision Tree
Precision promedio: 0.5898924059130131
Recall promedio: 0.48533333333333334
F1-score promedio: 0.5171136326718581
Cross Validation F1-score promedio: 0.45440157199683257
----------------
Resultados para clasificador:  Gaussian Naive Bayes
Precision promedio: 0.41798565938820104
Recall promedio: 0.8826666666666668
F1-score promedio: 0.5671468661221597
Cross Validation F1-score promedio: 0.5659838589358948
----------------
Resultados para clasificador:  KNN-3
Precision promedio: 0.5316630300406916
Recall promedio: 0.5266666666666666
F1-score promedio: 0.528070365307337
Cross Validation F1-score promedio: 0.5273948515808902
----------------
Resultados para clasificador:  KNN-5
Precision promedio: 0.5017846774376254
Recall promedio: 0.4773333333333333
F1-score promedio: 0.48830950461472045
Cross Validation F1-score promedio: 0.46698340874811467
----------------
Resultados para clasificador:  Random Forest
Precision promedio: 0.710274605571011
Recall promedio: 0.6586666666666667
F1-score promedio: 0.682457979962363
Cross Validation F1-score promedio: 0.6496337439076678

Gráficos de resultados obtenidos¶

A continuación se grafican los resultados obtenidos para Base Dummy, Decision Tree y Random Forest. Como se han corrido varias veces los clasificadores puede que los gráficos no correspondan perfectamente a los valores, pero sí con la cercanía suficiente para ser precisos.

Conclusión Clasificadores¶

Haciendo un análisis de los resultados obtenidos, podemos considerar que Random Forest es clasificador que tiene mejor desempeño en cuanto a resultados, en especial al hacer oversampling.

Si bien no es siempre certero, tiene un puntaje suficiente de exactitud, lo que consideramos un logro aceptable con respecto a lo que esperabamos obtener. Si necesitaramos crear un predictor efectivo, utilizariamos ese clasificador.

Graficando Decision Trees¶

En un ejercicio para explorar la importancia de las variables, y para observar la lógica de los decision trees, se grafican los árboles de decisión, donde los colores indican afinidad con una clase.

c12= DecisionTreeClassifier(min_samples_split=100)
c13= DecisionTreeClassifier(min_samples_split=100)
c14= DecisionTreeClassifier(min_samples_split=100)
c15= DecisionTreeClassifier(min_samples_split=100)
features=new_data.columns[:-1]
train, test= train_test_split(new_data,test_size=.30, stratify=y)

        
X_train= train[features]
y_train=train["Is_Fiasco"]

X_test=test[features]
y_test=test["Is_Fiasco"]

dt12=c12.fit(X_train,y_train)
dt13=c13.fit(X_over,y_over)
dt14=c14.fit(X_subs,y_subs)
dt15=c15.fit(X_mast,y_mast)

def show_tree(tree, features, path):
    path = "images/" + path
    f= io.StringIO()
    export_graphviz(tree, out_file=f, feature_names=features,filled=True,rounded=True)
    pydotplus.graph_from_dot_data(f.getvalue()).write_png(path)
    img= imageio.imread(path)
    plt.rcParams["figure.figsize"]=(20,20)
    plt.imshow(img)

Árbol Normal:

show_tree(dt12, features, 'arbol_normal.png')

Árbol Oversampled:

show_tree(dt13, features, 'arbol_oversampled.png')

Árbol Subsampled:

show_tree(dt14, features, 'arbol_subsampled.png')

Árbol con Oversampling y Subsampling:

show_tree(dt15, features, 'arbol_master.png')

Importancia de Atributos¶

Aplicando Random Forest, se pueden obtener los atributos que más seguido se utilizan para discriminar la clase a clasificar. De esta forma se puede evidenciar cuales son las columnas más importantes para decidir si un juego es un fiasco o no.

import operator
clf6 = RandomForestClassifier(n_estimators= 1000,max_depth=100, random_state=0)
train, test= train_test_split(new_data,test_size=.30, stratify=y)
        
X_train= train[features]
y_train=train["Is_Fiasco"]

X_test=test[features]
y_test=test["Is_Fiasco"]
clf6.fit(X_train, y_train)
mi_lista_de_tuplas = []
for i in range(33):
    tupla = (header[i],clf6.feature_importances_[i])
    mi_lista_de_tuplas.append(tupla)
mi_lista_de_tuplas.sort(key=operator.itemgetter(1), reverse=True)
for i in range(33):
    print(mi_lista_de_tuplas[i])

('Critic_Score', 0.49078201018960455)
('PC', 0.039170555944524385)
('Activision', 0.03610005623252404)
('Sports', 0.02980405907050479)
('Electronic Arts', 0.02928461058057324)
('Action', 0.028832442667322055)
('E', 0.026244652829040895)
('PS3', 0.026189248905637487)
('X360', 0.022456646523667113)
('PS2', 0.0216533895162774)
('T', 0.021615515182657134)
('Racing', 0.02114163999028283)
('XB', 0.01972920074662465)
('M', 0.019506173980658802)
('E10+', 0.017821175206524615)
('Take-Two Interactive', 0.017314528620391706)
('Shooter', 0.01694242823023238)
('Simulation', 0.013084170703486013)
('Ubisoft', 0.01128650333082829)
('Konami Digital Entertainment', 0.01117915692635813)
('Role-Playing', 0.010258194749869696)
('THQ', 0.00953026365195995)
('Misc', 0.00915266989278169)
('Sony Computer Entertainment', 0.009121167244447342)
('Sega', 0.009003614577840945)
('Microsoft Game Studios', 0.008024055815691072)
('Strategy', 0.007667704329205631)
('Platform', 0.006919341378085991)
('Namco Bandai Games', 0.00541606998042984)
('Fighting', 0.0026607760176953392)
('Adventure', 0.001797950666092383)
('Puzzle', 0.0002048379473792084)
('AO', 0.00010518837080061251)

Vemos con esto que la variable más importante por lejos es Critic_Score, lo cual tiene mucho sentido pues con esta en parte se define la clase Is_Fiasco. Luego, dentro de las más importantes tenemos una plataforma (PC), dos publicadores (Activision y EA) y dos géneros (Action y Sports).

Clustering¶

Como una nueva estrategia para hacer análisis de los datos,se trabajó con clustering usando K-means. Se utilizaron los atributos “Global_Sales”, “Critic_Score” y “User_Score”, que son los únicos datos numéricos que se manejaban en el data set. El siguiente script de R detalla el trabajo hecho de clustering.

Ventas Globales / Puntación de la crítica¶

Primero se consideran las ventas globales y la puntuación de la crítica. Calculando el valor del parámetro WSS para distintas cantidades de clusters y utilizando el método del codo, se distinguió que 3 es un número de clusters que podría dar buenos resultados.

Con estas variables, se ve que el data set no se adapta directamente a una estrategia de clustering. Sin embargo, aún nos permite caracterizar más los datos con los que se trabajan. Se evidencia que los juegos valorados más positivamente tienden a tener mejores ventas que los que no, y en general los juegos que acumulan ventas masivas pertenecen al cluster de juegos de valoración alta por los críticos.

Ventas Globales / Puntuación de usuarios¶

Luego se consideran las ventas globales y puntuación de usuarios. Usando el siguiente gráfico también se decide usar K = 3

Con este clustering ocurre algo más interesante. Vemos que independiente de la puntuación de los usuarios, se registra un cluster correspondiente a juegos con altas ventas, donde básicamente todos los juegos con más de 5 millones de ventas se encuentra en esta categoría. Este cluster de altas ventas tiene un puntaje de usuarios promedio bastante alto, aunque de todas formas se pueden identificar varios outliers que tienen un puntaje considerablemente más bajo.

Puntuaciones de usuarios / Puntuaciones de críticos¶

Luego se consideran las puntuaciones de usuarios y críticos. Usando el siguiente gráfico también se decide usar K = 3

Este gráfico, a pesar de que es interesante ver graficadas las puntuaciones de los usuarios v/s los críticos, no entrega información que se considere relevante o nueva.

Puntuaciones de usuarios / Puntuaciones de críticos / Ventas Globales¶

En este gráfico se consideran las tres variables antes descritas. Al igual que el gráfico anterior, no entrega información que se considere de gran relevancia.

Reglas de Asociación¶

Se aplicaron técnicas de reglas de asociación. Para esto primero se hace un preprocesamiento de los datos, en donde, por ejemplo, se definen las clases respecto a la cantidad de ventas (Muchisimas, Muchas, Bastante, Intermedio, Pocas, Muypocas).

Después de generar estos archivos .csv se aplican las reglas de asociación:

Con esto se obtienen los siguientes resultados:

Usando todos los datos se obtienen resultados que no aportan mucha información, como por ejemplo:

{Muchas ventas Regionales} => {Muchas ventas globales}

{Konami, muy pocas ventas en EU} => {Konami Digital Entertainment}

Considerando solo las ventas globales y no las regionales suceden cosas parecidas:

{muy pocas Ventas globales, Ubisoft Montreal} => {Ubisoft}

Sin considerar las ventas tampoco se obtienen resultados muy significativos:

{EA Canada, Puntajes usuarios alto} => {Electronic Arts}

Sin el género, la plataforma ni el año:

{Konami, n° críticas usuarios muy bajo} => {Konami Digital Entertainment}

Sin el número de críticas se obtienen resultados un poco más interesantes, como por ejemplo:

{Nintendo, Puntajes Críticos muy alto} => {Puntajes usuarios muy alto}

Lo cual a primera vista podría indicar que los juegos de Nintendo tienden a no ser un fiasco, sin embargo, esto es un error pues ambos puntajes podrían ser muy altos según los criterios definidos y aún así tener una diferencia de 2 puntos.

Al eliminar el desarrollador sucede algo parecido al caso anterior, aunque en el caso de Electronic Arts se observa que puntaje de usuarios alto suele estar relacionado con puntaje de críticos aún más alto:

{Electronic Arts, Puntajes usuarios alto} => {Puntajes Críticos muy alto}

{Nintendo, Puntajes Críticos muy alto} => {Puntajes usuarios muy alto}

Con el desarrollador pero sin publicador no se observan cambios significativos.

Al considerar el atributo Is_Fiasco se obtienen los resultados más interesantes, en los cuales se sugiere que el publicador puede estar muy relacionado con la clasificación del videojuego:

Esto último ayuda a validar las hipótesis iniciales, de que ciertos publicadores están más ligados a que un juego sea o no un fiasco, y consideramos que es valiosa información extraída del dataset.

Palabras Finales¶

Estrategias¶

Clasificadores¶

Después de bastantes pruebas para encontrar un buen predictor de fiascos de videojuegos, nos encontramos con Random Forest, que tiene un puntaje f1 que sobresale por sobre el de base dummy, en especial aplicando oversampling y subsampling. Consideramos que la diferencia de puntaje obtenida lo vuelve un predictor adecuado con los parámetros manejados.

Lo aprendido durante este curso de clasificadores es un acercamiento práctico que abre las puertas a aplicar estas herramientas en próximos proyectos, y a seguir aprendiendo para refinar los resultados que se pueden obtener con más técnicas y estrategias.

Clustering¶

El clustering aplicado en este proyecto no nos brindó mucha información nueva, pues consideramos que los datos utilizados no se adecuaban a un modelo en el que se pudieran identificar clusters naturalmente. A pesar de esto, nos sirvió para validar los datos utilizados, y para extraer información sobre su comportamiento.

Como trabajo no desarrollado, se podrían haber evaluado más métricas internas sobre clustering para validar o descartar su uso en nuestros datos. También se podrían haber buscado nuevas dimensiones sobre las cuales aplicar clustering que podrían haber aportado información.

Reglas de asociación¶

De estas estrategia, si bien fue realizada como último intento de extraer datos, destacamos que tomando los datos correctos nos puede proporcionar valiosa información. La forma intuitiva de interpretar las reglas de asociación nos fue útil para validar nuestra hipótesis de la relación entre los publicadores de videojuegos y los fracasos.

Cierre del curso¶

Las herramientas que se trabajaron en el curso nos permitieron llevar a cabo un proyecto en el que logramos extraer una gran cantidad de información del data set trabajado. La evolución natural de este proyecto llevó a probar distintas formas de analizar los datos que se reflejaron en resultados diversos: por un lado un predictor relativamente eficaz que podría utilizarse a futuro, y por otro lado una caracterización de la información desde ángulos que no se manejaban anteriormente.

	Name	Platform	Year_of_Release	Genre	Publisher	NA_Sales	EU_Sales	JP_Sales	Other_Sales	Global_Sales	Critic_Score	Critic_Count	User_Score	User_Count	Developer	Rating
0	Wii Sports	Wii	2006.0	Sports	Nintendo	41.36	28.96	3.77	8.45	82.53	76.0	51.0	8	322.0	Nintendo	E
1	Super Mario Bros.	NES	1985.0	Platform	Nintendo	29.08	3.58	6.81	0.77	40.24	NaN	NaN	NaN	NaN	NaN	NaN
2	Mario Kart Wii	Wii	2008.0	Racing	Nintendo	15.68	12.76	3.79	3.29	35.52	82.0	73.0	8.3	709.0	Nintendo	E
3	Wii Sports Resort	Wii	2009.0	Sports	Nintendo	15.61	10.93	3.28	2.95	32.77	80.0	73.0	8	192.0	Nintendo	E
4	Pokemon Red/Pokemon Blue	GB	1996.0	Role-Playing	Nintendo	11.27	8.89	10.22	1.00	31.37	NaN	NaN	NaN	NaN	NaN	NaN

	Unnamed: 0	Platform	Genre	Publisher	Global_Sales	Critic_Score	Rating	Is_Fiasco
0	1	X360	Misc	Microsoft Game Studios	21.81	61	E	False
1	2	PS3	Action	Take-Two Interactive	21.04	97	M	False
2	3	PS2	Action	Take-Two Interactive	20.81	95	M	False
3	4	X360	Action	Take-Two Interactive	16.27	97	M	False
4	5	PS2	Action	Take-Two Interactive	16.15	95	M	False

	PS2	PS3	X360	Action	Misc	...	Take-Two Interactive	Critic_Score	E	M
0	0	0	1	0	1	...	0	61	1	0
1	0	1	0	1	0	...	1	97	0	1
2	1	0	0	1	0	...	1	95	0	1
3	0	0	1	1	0	...	1	97	0	1
4	1	0	0	1	0	...	1	95	0	1

	PS2	PS3	X360	Action	Misc	...	Take-Two Interactive	Critic_Score	E	M
0	0	0	1	0	1	...	0	61	1	0
1	0	1	0	1	0	...	1	97	0	1
2	1	0	0	1	0	...	1	95	0	1
3	0	0	1	1	0	...	1	97	0	1
4	1	0	0	1	0	...	1	95	0	1

	PS2	PS3	X360	Action	Misc	...	Take-Two Interactive	Critic_Score	E	M
0	0	0	1	0	1	...	0	61	1	0
1	0	1	0	1	0	...	1	97	0	1
2	1	0	0	1	0	...	1	95	0	1
3	0	0	1	1	0	...	1	97	0	1
4	1	0	0	1	0	...	1	95	0	1