DSpace Repository

Tagtheweb: using wikipedia categories to automatically categorize text-based resources on the web

Show simple item record

dc.contributor.advisor Nunes, Bernardo Pereira
dc.contributor.author Medeiros, Jerry Fernandes
dc.date.accessioned 2019-10-15T21:00:06Z
dc.date.available 2019-10-15T21:00:06Z
dc.date.issued 2018-09-25
dc.identifier.citation MEDEIROS, Jerry Fernandes. Tagtheweb: using wikipedia categories to automatically categorize text-based resources on the web. 2018, 91f. Dissertação ( Mestrado em Informática ) - Universidade Federal do Estado do Rio de Janeiro, Rio de Janeiro, 2018. pt_BR
dc.identifier.uri http://hdl.handle.net/unirio/12937
dc.description.sponsorship n/a pt_BR
dc.language.iso English pt_BR
dc.rights openAccess pt_BR
dc.title Tagtheweb: using wikipedia categories to automatically categorize text-based resources on the web pt_BR
dc.type masterThesis pt_BR
dc.contributor.advisor-co Siqueira, Sean Wolfgand Matsui
dc.contributor.referee Nunes, Bernardo Pereira
dc.contributor.referee Garcia, Ana Cristina Bicharra
dc.contributor.referee Nurmikko-Fuller, Terhi
dc.contributor.referee Siqueira, Sean Wolfgand Matsui
dc.degree.department CCET pt_BR
dc.degree.grantor Universidade Federal do Estado do Rio de Janeiro - UNIRIO pt_BR
dc.degree.level Mestrado Acadêmico pt_BR
dc.degree.local Rio de Janeiro, RJ pt_BR
dc.degree.program Programa de Pós-Graduação em Informática pt_BR
dc.subject.cnpq CIÊNCIAS EXATAS E DA TERRA pt_BR
dc.subject.cnpq CIÊNCIA DA COMPUTAÇÃO pt_BR
dc.subject.en Text Classification pt_BR
dc.subject.en Wikipedia pt_BR
dc.subject.en Categories pt_BR
dc.subject.en Category Graph pt_BR
dc.description.abstracten Identifying topics associated with a set of documents is a common task for many applications and can be used to improve various tasks involving documents on the Web, such as search, retrieval, recommendation, and clustering. Due to the significant amount of information produced and made available today, it becomes humanly impossible to organize, analyze, and extract the knowledge embedded. Consequently, mechanisms to accomplish such tasks as removing or at least diminishing the need for human intervention has gained importance in the last decades. One of the potential solutions for dealing with the challenge of organizing and retrieving documents is to use automated classification and categorization of Web information. In this research, a generic classification method to automatically categorize any text-based content on the Web according to the collective knowledge of Wikipedia contributors, through the semantic relation between nodes of the Wikipedia Category Graph, is proposed. The approach is based on three steps: extracting named entities from text, extracting categories associated with named entities, and finally representing and classifying the document. Computational experiments and a study involving users of a crowd-sourcing platform were used to validate the method. The results show that this approach can be used to correctly categorize most documents in a way that real users can understand, without the effort and input of domain experts. pt_BR
dc.degree.country Brasil pt_BR
dc.description.sponsordocumentnumber n/a pt_BR
dc.description.abstractpt A identificação de tópicos associados a um conjunto de documentos é uma tarefa comum para muitas aplicações e pode ser usada para melhorar diversas tarefas envolvendo documentos na Web, tais como a busca, recuperação da informação, recomendação, armazenamento e agrupamento. Devido à quantidade significativa de informações produzidas e disponibilizadas hoje na Web, torna-se humanamente impossível organizar, analisar e extrair o conhecimento incorporado nesses documentos. Consequentemente, mecanismos para realizar tarefas como remover ou pelo menos diminuir a necessidade de intervenção humana ganharam importância nas últimas décadas. Uma das possíveis soluções para lidar com o desafio de organizar e recuperar documentos é usar classificação automatizadas de informações. Nesta pesquisa, propôe-se um método de classificação genérico para categorizar automaticamente conteúdo baseado em texto na Web de acordo com o conhecimento coletivo dos colaboradores da Wikipedia, por meio da relação semântica entre os nós do Gráfico de Categoria da Wikipédia. A abordagem é baseada em três etapas: extrair entidades nomeadas do texto, extrair categorias associadas a entidades nomeadas e, finalmente, representar e classificar o documento. Para validar o método aplicado, foram realizados experimentos computacionais e um estudo envolvendo usuários de uma plataforma de crowdsourcing. Os resultados mostram que a abordagem aplicada é capaz de categorizar corretamente a maioria dos documentos de uma maneira que os usuários reais possam entender, sem o esforço dos especialistas em domínio. pt_BR
dc.subject.pt Classificação de texto pt_BR
dc.subject.pt Wikipédia pt_BR
dc.subject.pt Categorias pt_BR
dc.subject.pt Grafo de Categorias pt_BR


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

|
|