Geração de regras de identificação de produtos em descrições textuais de compras apresentadas em portais de transparência pública

Paiva, Eduardo Soares de

DSpace Home
→
Centro de Ciências Exatas e Tecnologia (CCET)
→
Informática Aplicada
→
INAP - Dissertações de Mestrado
→
View Item

dc.contributor.advisor	Revoredo, Kate Cerqueira
dc.contributor.author	Paiva, Eduardo Soares de
dc.date.accessioned	2018-02-02T13:44:21Z
dc.date.available	2018-02-02T13:44:21Z
dc.date.issued	2017-02-21
dc.identifier.citation	PAIVA, Eduardo Soares de. Geração de regras de identificação de produtos em descrições textuais de compras apresentadas em portais de transparência pública. 2017. x, 111f. Dissertação (Mestrado em Informática) - Universidade Federal do estado do Rio de Janeiro, Rio de Janeiro, 2017.	pt_BR
dc.identifier.uri	http://hdl.handle.net/unirio/10792
dc.description	Dissertação também disponível em formato impresso, com o número de chamada CCET MI 2017/02	pt_BR
dc.description.sponsorship	n/a	pt_BR
dc.language.iso	Portuguese	pt_BR
dc.rights	openAccess	pt_BR
dc.title	Geração de regras de identificação de produtos em descrições textuais de compras apresentadas em portais de transparência pública	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.referee	Revoredo, Kate Cerqueira
dc.contributor.referee	Aló, Claudia Cappelli
dc.contributor.referee	Bernardini, Flávia Cristina
dc.degree.department	CCET	pt_BR
dc.degree.grantor	Universidade Federal do Estado do Rio de Janeiro - UNIRIO	pt_BR
dc.degree.level	Mestrado Acadêmico	pt_BR
dc.degree.local	Rio de Janeiro, RJ	pt_BR
dc.degree.program	Programa de Pós-Graduação em Informática	pt_BR
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA	pt_BR
dc.subject.cnpq	CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.subject.en	Public transparency	pt_BR
dc.subject.en	Text mining	pt_BR
dc.subject.en	Data treatment	pt_BR
dc.subject.en	Data intensive processing	pt_BR
dc.description.abstracten	The public transparency portals are becoming important communication channels between government and society. However, not always the portals present the information in the most appropriate format. For example, the description of purchases in text format hinders analysis of purchases, as to know the products that are being acquired, it is necessary reading and interpreting of each purchase description, what is humanly impossible due to large data volume presented. Thus, this work goal is automatically identifying the products that are textually specified in the purchase descriptions. So this dissertation research question is: How to automatically identify products by textual specifications, used to characterize them in expenditure, descriptions presented in the public transparency portals? For this, a knowledge discovery process is proposed in textual data capable of generating rules that allow products identification from purchases textual descriptions. This research was performed using the CRISP-DM (Cross Industry Standard Process for Data Mining) methodology and its evaluation was divided into two parts: the first evaluates the rules generated, while the second checks the results quality obtained in identifying process of the purchases. The studies concluded that the proposed process presented satisfactory results, but there are still many other possibilities for improvement that can be explored in future work.	pt_BR
dc.degree.country	Brasil	pt_BR
dc.description.sponsordocumentnumber	n/a	pt_BR
dc.description.abstractpt	Os portais de transparência pública vêm se constituindo em importantes canais de comunicação entre o governo e a sociedade. No entanto, nem sempre o formato das informações apresentadas nesses portais é o mais apropriado. Por exemplo, as descrições de compras em formato de texto dificultam a análise dessas compras, pois para se saber os produtos que estão sendo adquiridos é necessária uma leitura e interpretação de cada descrição de compra, o que é humanamente impossível, devido ao grande volume de dados apresentados. Dessa forma, o objetivo desse trabalho é fazer a identificação automática dos produtos que são especificados de forma textual nas descrições de compras. Logo, a questão de pesquisa dessa dissertação é: como identificar de forma automatizada os produtos a partir das especificações textuais que são usadas para caracterizá-los nas descrições dos gastos que são apresentados nos portais de transparência pública? Para isso, é proposto um processo de descoberta de conhecimento em dados textuais capaz de gerar regras que possibilitam a identificação de produtos a partir das descrições textuais de compras. A pesquisa foi realizada utilizando a metodologia CRISP-DM (Cross Industry Standard Process for Data Mining) e sua avaliação foi dividida em duas partes: a primeira avalia as regras geradas, enquanto que a segunda verifica a qualidade dos resultados obtidos no processo de identificação de compras propriamente dito. Os estudos concluíram que o processo proposto apresentou resultados satisfatórios, porém ainda existem muitas outras possibilidades de melhorias que podem ser exploradas em trabalhos futuros.	pt_BR
dc.subject.pt	Transparência pública	pt_BR
dc.subject.pt	Mineração de texto	pt_BR
dc.subject.pt	Tratamento de dados	pt_BR
dc.subject.pt	Processamento intensivo de dados	pt_BR