Weight Your Words: The Effect of Differente Weighting Schemes on Wordification Performance
Autores
6930 |
250,3087
|
|
6931 |
250,3087
|
Informações:
Publicações do PESC
Bancos de dados relacionais são amplamente utilizados para armazenar dados reais como operações financeiras e registros médicos. Nesse tipo de estrutura, os dados são representados em tabelas, que são interconectadas por chaves estrangeiras. Para realizar a classificação desses dados, podemos optar por duas abordagens: utilizar um classificador multirelacional para gerar um modelo diretamente sobre os dados relacionais ou utilizar um método de proposicionalização para transformar o banco de dados em uma tabela única e em seguida, aplicar um classificador propositional padrão. Neste trabalho, focamos em um algoritmo de proposicionalização chamado Wordification. Este algoritmo se destaca por ser simples e rápido comparado com outros métodos. O Wordification constrói atributos, também chamados de witems, a partir do nome da tabela, da coluna e do valor de cada célula. O conjunto de atributos criados para cada registro do banco forma um documento de texto. Cada documento é então convertido em um vetor, em que os witems são os atributos e seus valores são dados por um esquema de pesagem. A implementação original do Wordification permite utilizar apenas os seguintes métodos de pesagem: TF-IDF, o TF e o binário. No entanto, diversos trabalhos na área de classificação de texto e mineração de dados tem mostrado que a escolha do método de pesagem pode influenciar bastante o desempenho da classificação. Por esse motivo, nós avaliamos o desempenho do Wordification associado a outros métodos de pesagem que se mostraram estatisticamente melhores que o TF-IDF nas áreas de classificação de textos e recuperação de informações. Os resultados deste trabalho mostram que é possível melhorar o desempenho da classificação com a combinação certa do esquema de pesagem e do tipo de classificador.
Relational databases are commonly used to organize and store real-world data such as financial transactions and medical records. It consists of multiple relations (tables), which are interconnected through foreign key joins. When it comes to classification, there are mainly two options: apply a multi-relational learner to discover patterns across the inter-connected tables or use a propositionalization technique to transform the relational database into a single-table representation and then use a standard propositional learner. In this work, we focus on the last approach. We evaluate a fast and simple propositionalization algorithm called Wordification. This algorithm constructs features based on the table name, attribute name and its value. The set of features generated for each instance of the database form a text document. Each document is converted into a vector, where the features are the attributes, and their values are given by a weighting scheme. Originally, the implementation of Wordification only explored the TF-IDF, the term-frequency and the binary weighting schemes. On the other hand, many works in the text classification and data mining fields have shown that the proper choice of weighting schemes can boost classification. For this reason, we evaluate the performance of Wordification with weighting schemes that statistically outperformed TF-IDF. Our results show that is possible to improve the classification performance with the right combination of weighting scheme and classification algorithm.