Calendário de Eventos
|
Sexta-feira, 29 Agosto 2025, 14:00 - 16:00
Dissertação de Mestrado
"Correção Automática de Provas por LLMs Multimodais com Dois Agentes"
Fernando Costa Castanheira
Data: 29 de agosto de 2025, sexta-feira
Horário: 14h00
Sala Presencial: H-319, Sala de Reuniões
Sala virtual: https://meet.google.com/dck-orws-axm
Banca Examinadora:
Prof. Edmundo de Souza e Silva - PESC/COPPE/UFRJ (Presidente da Banca e Orientador)
Prof. Henrique Luiz Cukierman - PESC/COPPE/UFRJ
Prof. Daniel Sadoc Menasche - IC/UFRJ
Prof. Henrique Luiz Cukierman - PESC/COPPE/UFRJ
Prof. Daniel Sadoc Menasche - IC/UFRJ
Resumo:
Avaliar respostas discursivas de trabalhos escolares (provas, por exemplo) que combinam texto, manuscritos e diagramas continua sendo um gargalo operacional na educação brasileira. Este trabalho propõe e valida um pipeline dois-agentes — Grader e Reviewer — baseado em Modelos de Linguagem Multimodais (LLMs) de última geração. O Grader atribui nota e feedback conforme rubrica estruturada; o Reviewer audita essa saída, gera um quality_score e dispara uma única revisão quando o escore é inferior a 4.
Três conjuntos de dados reais de graduação (Redes de Computadores, Introdução à Física e Introdução à Programação; N = 35 cadernos) foram corrigidos com Gemini-2.5-pro, Gemini-2.5-flash e o4-mini-high. O pipeline atinge concordância substancial com docentes (? ? 0,78) e MAE ? 0,15 sem fine-tuning. A presença do Reviewer reduz até 40 % dos erros extremos (|? ? y| > 0,40) em provas ricas em manuscritos, ao custo adicional médio de US$ 0.02 por caderno — duas ordens de grandeza abaixo do custo humano (? US$ 2.75).
Para comprovar a viabilidade prática, desenvolveu-se a aplicação web Exam AI Grader (Next.js 14 + Drizzle ORM + PGLite), que executa o fluxo completo e processa ? 10 cadernos/min em ambiente serverless ou totalmente offline-first. O sistema, o código-fonte e os datasets encontram-se disponíveis em https://github.com/CostaFernando/exam-ai-grader.
Os resultados indicam que LLMs multimodais, combinados a um laço leve de auto-revisão, podem oferecer correção automática confiável e econômica para avaliações universitárias em língua portuguesa.



