Autores

7195
3067,299
7196
3067,299

Informações:

Publicações do PESC

Título
Aprendizado de Máquina Aplicado a Classificação de Documentos Jurídicos em Ambiente de Baixo Poder Computacional
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
1/9/2022
Resumo

O retreino parcial de modelos BERT pode proporcionar grande parte do ganho de desempenho comparado ao retreino de todas as camadas do modelo e ao mesmo tempo economiza recursos computacionais. No caso da Caixa de Intimações Com Inteligência Artificial (CICIAR), o desempenho do retreino parcial do modelo BERT foi medido em relação ao modelo de referência. 

O CICIAR é uma ferramenta desenvolvida para a Defensoria Pública do Estado do Rio de Janeiro e é integrada ao sistema Verde. O sistema Verde ajuda a gestão e as atividades diárias dos Defensores Públicos. Neste contexto, o CICIAR faz previsões de rótulos de intimações utilizando informações de contexto sem abri-las. A abertura da intimação inicia uma contagem regressiva de 10 dias, portanto, o sistema deve prever o rótulo sem abri-la.

Os experimentos foram realizados liberando uma fração de camadas do modelo para o treinamento e adaptando os hiperparâmetros. A base de dados utilizada contém intimações e contextos das intimações em português brasileiro.

Os experimentos mostraram melhorias no desempenho da classificação com as mudanças propostas. As configurações de base utilizadas na aplicação têm uma precisão ponderada de 0,74. A melhor combinação aumenta este resultado para 0,826, refinando a última camada do modelo BERT e modificando os hiperparâmetros.

Abstract

Partial retraining of layers  BERT can deliver most of the increase in performance as complete retraining of BERT layer while saving computational resources. In the Caixa de Intimações Com Inteligência Artificial (CICIAR) context, the results of partially retraining the BERT model have been evaluated against a baseline model.

CICIAR is a tool developed for the Public Defender's Office of the State of Rio de Janeiro integrated with the Verde system. The Verde system helps with the management and daily tasks of Public Defenders. In this context, CICIAR makes predictions of subpoena labels using context information without opening them. Opening the subpoena starts a counting down of 10 days, so the system must predict the label without opening it.

The experiments have been performed by releasing a model fraction of layers for retraining and adapting the hyperparameters. The database used contains subpoenas and subpoena contexts in Brazilian Portuguese.

The experiments showed improvement in classification performance with the proposed changes. The baseline configurations used in the application have a weighted accuracy of 0.74. The best combination raises this result to 0.826 by refining the last layer of the BERT model and modifying hyperparameters.

Arquivo
Topo