dc.contributor.advisor |
Nunes, Bernardo Pereira |
|
dc.contributor.author |
Medeiros, Jerry Fernandes |
|
dc.date.accessioned |
2019-10-15T21:00:06Z |
|
dc.date.available |
2019-10-15T21:00:06Z |
|
dc.date.issued |
2018-09-25 |
|
dc.identifier.citation |
MEDEIROS, Jerry Fernandes. Tagtheweb: using wikipedia categories to automatically categorize text-based resources on the web. 2018, 91f. Dissertação ( Mestrado em Informática ) - Universidade Federal do Estado do Rio de Janeiro, Rio de Janeiro, 2018. |
pt_BR |
dc.identifier.uri |
http://hdl.handle.net/unirio/12937 |
|
dc.description.sponsorship |
n/a |
pt_BR |
dc.language.iso |
English |
pt_BR |
dc.rights |
openAccess |
pt_BR |
dc.title |
Tagtheweb: using wikipedia categories to automatically categorize text-based resources on the web |
pt_BR |
dc.type |
masterThesis |
pt_BR |
dc.contributor.advisor-co |
Siqueira, Sean Wolfgand Matsui |
|
dc.contributor.referee |
Nunes, Bernardo Pereira |
|
dc.contributor.referee |
Garcia, Ana Cristina Bicharra |
|
dc.contributor.referee |
Nurmikko-Fuller, Terhi |
|
dc.contributor.referee |
Siqueira, Sean Wolfgand Matsui |
|
dc.degree.department |
CCET |
pt_BR |
dc.degree.grantor |
Universidade Federal do Estado do Rio de Janeiro - UNIRIO |
pt_BR |
dc.degree.level |
Mestrado Acadêmico |
pt_BR |
dc.degree.local |
Rio de Janeiro, RJ |
pt_BR |
dc.degree.program |
Programa de Pós-Graduação em Informática |
pt_BR |
dc.subject.cnpq |
CIÊNCIAS EXATAS E DA TERRA |
pt_BR |
dc.subject.cnpq |
CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.subject.en |
Text Classification |
pt_BR |
dc.subject.en |
Wikipedia |
pt_BR |
dc.subject.en |
Categories |
pt_BR |
dc.subject.en |
Category Graph |
pt_BR |
dc.description.abstracten |
Identifying topics associated with a set of documents is a common task for many applications
and can be used to improve various tasks involving documents on the Web, such as
search, retrieval, recommendation, and clustering. Due to the significant amount of information
produced and made available today, it becomes humanly impossible to organize,
analyze, and extract the knowledge embedded. Consequently, mechanisms to accomplish
such tasks as removing or at least diminishing the need for human intervention has
gained importance in the last decades. One of the potential solutions for dealing with the
challenge of organizing and retrieving documents is to use automated classification and
categorization of Web information. In this research, a generic classification method to
automatically categorize any text-based content on the Web according to the collective
knowledge of Wikipedia contributors, through the semantic relation between nodes of the
Wikipedia Category Graph, is proposed. The approach is based on three steps: extracting
named entities from text, extracting categories associated with named entities, and finally
representing and classifying the document. Computational experiments and a study involving
users of a crowd-sourcing platform were used to validate the method. The results
show that this approach can be used to correctly categorize most documents in a way that
real users can understand, without the effort and input of domain experts. |
pt_BR |
dc.degree.country |
Brasil |
pt_BR |
dc.description.sponsordocumentnumber |
n/a |
pt_BR |
dc.description.abstractpt |
A identificação de tópicos associados a um conjunto de documentos é uma tarefa comum
para muitas aplicações e pode ser usada para melhorar diversas tarefas envolvendo
documentos na Web, tais como a busca, recuperação da informação, recomendação, armazenamento
e agrupamento. Devido à quantidade significativa de informações produzidas
e disponibilizadas hoje na Web, torna-se humanamente impossível organizar, analisar
e extrair o conhecimento incorporado nesses documentos. Consequentemente, mecanismos
para realizar tarefas como remover ou pelo menos diminuir a necessidade de intervenção
humana ganharam importância nas últimas décadas. Uma das possíveis soluções
para lidar com o desafio de organizar e recuperar documentos é usar classificação automatizadas
de informações. Nesta pesquisa, propôe-se um método de classificação genérico
para categorizar automaticamente conteúdo baseado em texto na Web de acordo com o
conhecimento coletivo dos colaboradores da Wikipedia, por meio da relação semântica
entre os nós do Gráfico de Categoria da Wikipédia. A abordagem é baseada em três etapas:
extrair entidades nomeadas do texto, extrair categorias associadas a entidades nomeadas
e, finalmente, representar e classificar o documento. Para validar o método aplicado,
foram realizados experimentos computacionais e um estudo envolvendo usuários de uma
plataforma de crowdsourcing. Os resultados mostram que a abordagem aplicada é capaz
de categorizar corretamente a maioria dos documentos de uma maneira que os usuários
reais possam entender, sem o esforço dos especialistas em domínio. |
pt_BR |
dc.subject.pt |
Classificação de texto |
pt_BR |
dc.subject.pt |
Wikipédia |
pt_BR |
dc.subject.pt |
Categorias |
pt_BR |
dc.subject.pt |
Grafo de Categorias |
pt_BR |