Active Learning: An Unbiased Approach
Autores
5454 |
1749,312,2489,2490
|
|
5455 |
1749,312,2489,2490
|
|
5456 |
1749,312,2489,2490
|
|
5457 |
Marie-Aude Aufaure
(Co-orientador) |
1749,312,2489,2490
|
Informações:
Publicações do PESC
Aprendizado Ativo surge como um importante tópico em diversos cenários de aprendizado supervisionado onde obter dados é barato, mas rotulá-los é custoso. Em geral, este consiste em uma estratégia de consulta, uma heurística gulosa baseada em algum critério de seleção, que busca pelas observações potencialmente mais informativas para serem rotuladas a fim de formar um conjunto de treinamento. Uma estratégia de consulta é portanto um procedimento de amostragem com viés, visto que esta favorece sistematicamente algumas observações, gerando um conjunto de treinamento enviesado, ao invés de realizar sorteios independentes e identicamente distribuídos. A principal hipótese desta tese recai na redução do viés oriundo do critério de seleção. A proposta principal consiste em reduzir o viés através da seleção de um conjunto mínimo de treinamento, a partir do qual a distribuição de probabilidade estimada será a mais próxima possível da distribuição do total de observações. Para tal, uma nova estratégia geral de consulta de aprendizado ativo foi desenvolvida utilizando um arcabouço de Teoria da Informação. Diversos experimentos foram realizados com o objetivo de avaliar o desempenho da estratégia proposta. Os resultados obtidos confirmam a hipótese sobre o viés, mostrando que a proposta é superior às estratégias de referência em diferentes conjuntos de dados.
Active Learning arises as an important issue in several supervised learning scenarios where obtaining data is cheap, but labeling is costly. In general, this consists in a query strategy, a greedy heuristic based on some selection criterion, which searches for the potentially most informative observations to be labeled in order to form a training set. A query strategy is therefore a biased sampling procedure since it systematically favors some observations by generating biased training sets, instead of making independent and identically distributed draws. The main hypothesis of this thesis lies in the reduction of the bias inherited from the selection criterion. The general proposal consists in reducing the bias by selecting the minimal training set from which the estimated probability distribution is as close as possible to the underlying distribution of overall observations. For that, a novel general active learning query strategy has been developed using an Information-Theoretic framework. Several experiments have been performed in order to evaluate the performance of the proposed strategy. The obtained results confirm the hypothesis about the bias, showing that the proposal outperforms the baselines in different datasets.