Introducción

La minería de datos (“Data Mining”) es una práctica emergente en nuestro país, es una herramienta poderosa que permite obtener información útil a partir de un conjunto de datos (Data Set), estos datos se pueden obtener de distintos lugares, una empresa puede recopilarlos, se pueden encontrar en internet o de una serie de mediciones con alguna clase de instrumento entre otras opciones. La información obtenida tiene múltiples propósitos, desde comerciales hasta científicos, en esta página se mostrara el proceso de minería de datos a partir de un data set de Amazon obtenido en internet [1].
A continuación se presentara la motivación de esta minería y la estrategia a seguir. En la pestaña Procesamiento se explica como son y cómo se trabajó con los datos con el fin de obtener información útil.

Motivaciones

Como motivación se planteó la idea de comenzar un negocio de importaciones, para este negocio se necesitan productos atractivos para la venta y para encontrarlos se planea utilizar Data Mining aplicada a DataSet’s de Amazon para responder la pregunta ¿Qué hace que un producto sea exitoso en ventas? Luego gracias a esta respuesta se espera que a partir un listado de productos interesantes, con escasas ventas y reseñas aun, se pueda detectar un potencial producto que explote en ventas.

Estrategia

La hipótesis planteada es que existe algún patrón en los datos que diferencia a un producto exitoso en ventas con respecto a otros productos.
Para responder esta pregunta se toman dos tipos de DataSet de Amazon; “MetaData” y “Reviews”, el primero contiene toda la información de los productos del sitio web mientras que el segundo corresponde a la información de todos los comentarios que realizaron los usuarios a cada producto. Por la capacidad prohibitiva de cómputo de un pc de escritorio se escogió la subcategoría de “VideoGames” para realizar los primeros análisis. Luego se trabajó, en primera instancia, con el DataSet de Reviews donde se reemplazaron los atributos de texto por números reales que de algún modo u otro representan una especie de medida de la información contenida en los String’s de estos atributos, para luego eliminar las columnas que contienen estos textos ya que los algoritmos de “Clasificación” y “Clustering” no responden bien ante este tipo de datos; para esto en el caso de las Reviews, en particular, se utilizaron algoritmos de análisis de sentimientos como “VaderSentiment” y “TextBlob”.