Autores

5228
Tiago Santos da Silva
2355,10
5229
2355,10

Informações:

Publicações do PESC

Título
Reconhecimento de Entidades Nomeadas em Notícias de Governo
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
28/2/2012
Resumo

Nos dias atuais, o volume de notícias publicadas na web cresce aceleradamente, de maneira que se torna difícil para uma pessoa acompanhar toda a informação disponibilizada. Tendo em vista o grande volume de informações apresentadas ao público, diversos trabalhos na literatura têm realizado pesquisas relacionadas ao tratamento automatizado das notícias. As máquinas de busca disponíveis, atualmente, na web, possibilitam ao usuário buscar informações em grandes bases de notícias, entretanto, tais buscas se baseiam na análise do texto desconsiderando sua semântica implícita. Por exemplo, o termo Brasil pode ser visto como um local, mas também pode ser visto como uma organização. Dentre os diversos trabalhos relacionados à extração de semântica em textos podemos mencionar o Reconhecimento de Entidades Nomeadas (NER, sigla em inglês). A tarefa de Reconhecimento de Entidades Nomeadas consiste na tarefa de reconhecer os elementos como Pessoa, Local, Organização, etc. em um dado contexto. Este trabalho tem como objetivo desenvolver e apresentar os métodos utilizados na concepção de um sistema que extraia as entidades nomeadas em notícias de governo na língua portuguesa. As informações consideradas relevantes nesse trabalho é a identificação de entidades tais como: Pessoa, Local, Organização, Cargos, Programas, Eventos, Siglas e algumas das relações que existem entre essas entidades. Além disso, este trabalho apresenta o Integrador de Notícias de Governo cujo objetivo é manter uma base centralizada de notícias do governo que possa ser facilmente acessada por outros sistemas. Ele atua como um Portal Web em que os leitores em vez de humanos são programas que consomem os metadados e as fontes são páginas da web.

Abstract

Currently, the volume of news published on the web has grown rapidly, so that it becomes difficult for a person to monitor all the information provided. Given the large volume of information presented to the public, several studies in literature have conducted research related to the automated processing of news. Search engines available today in the web allow to the user to search for information in large databases of news, however, such searches are based on analysis of the text regardless of their implicit semantics. For example, the term Brazil can be seen as a location, but can also be seen as an organization. Among several works related to the extraction semantic in texts we can mention the Named Entity Recognition (NER). The task of Named Entity Recognition is the task of recognizing the elements such as Person, Location, Organization, etc. in a given context. This work aims to develop and present the methods used to design a system that extracts named entities on government news in the Portuguese language. The information considered relevant in this work is to identify entities such as Persons, Locations, Organizations, Ranks, Programs, Events, Acronyms and some of the relationships that exist between these entities. Furthermore, this paper presents the Government News Integrator, whose objective is to maintain a centralized database of government news that can be easily accessed by other systems. It acts as a Web Portal where readers rather than humans are programs that consume the metadata and the fonts are web pages.

Topo