dc.contributor.advisor |
Mello, Carlos Eduardo Ribeiro de |
|
dc.contributor.author |
Peres, Rodrigo Silva |
|
dc.date.accessioned |
2024-07-04T19:56:17Z |
|
dc.date.available |
2024-07-04T19:56:17Z |
|
dc.date.issued |
2023-08-30 |
|
dc.identifier.citation |
PERES, Rodrigo Silva. Grandes Modelos de Linguagem na resolução de questões de vestibular: o caso dos institutos militares brasileiros. 74 f. Dissertação (Mestrado em Informática) Universidade Federal do Estado do Rio de Janeiro, Rio de Janeiro, 2023. |
pt_BR |
dc.identifier.uri |
http://hdl.handle.net/unirio/14051 |
|
dc.description.sponsorship |
N/A |
pt_BR |
dc.language.iso |
Portuguese |
pt_BR |
dc.rights |
openAccess |
pt_BR |
dc.title |
Grandes Modelos de Linguagem na resolução de questões de vestibular: o caso dos institutos militares brasileiros |
pt_BR |
dc.title.alternative |
Large Language Models in solving college entrance exam questions: the case of the brazilian military institutes |
pt_BR |
dc.type |
masterThesis |
pt_BR |
dc.contributor.advisor-co |
Moraes, Laura de Oliveira Fernandes |
|
dc.contributor.referee |
Mello, Carlos Eduardo Ribeiro de |
|
dc.contributor.referee |
Moraes, Laura de Oliveira Fernandes |
|
dc.contributor.referee |
Siqueira, Sean Wolfgand Matsui |
|
dc.contributor.referee |
Nogueira, Rodrigo Frassetto |
|
dc.degree.department |
CCET |
pt_BR |
dc.degree.grantor |
Universidade Federal do Estado do Rio de Janeiro - UNIRIO |
pt_BR |
dc.degree.level |
Mestrado Acadêmico |
pt_BR |
dc.degree.local |
Rio de Janeiro, RJ |
pt_BR |
dc.degree.program |
Programa de Pós-Graduação em Informática |
pt_BR |
dc.subject.cnpq |
CIÊNCIAS EXATAS E DA TERRA |
pt_BR |
dc.subject.cnpq |
CIÊNCIA DA COMPUTAÇÃO |
pt_BR |
dc.subject.en |
Large Language Models |
pt_BR |
dc.subject.en |
Prompt Engineering |
pt_BR |
dc.subject.en |
Natural Language Processing |
pt_BR |
dc.description.abstracten |
This research analyzed the performance of Large Language Models (LLMs) combined with in-
context learning techniques in solving complex university entrance exam questions written in
Portuguese. The dataset used was constructed using questions from entrance exams from two
prestigious Brazilian military institutions, Military Institute of Engineering (IME) and
Technological Institute of Aeronautics (ITA). Controlled experiments were conducted
evaluating different prompt methods with the text-davinci-003, GPT-3.5-turbo and GPT-4
models to verify their performance in providing answers. The results showed that recent LLMs
optimized for conversation achieved better metrics, especially when using in-context learning
techniques such as chain-of-thought (CoT). GPT-4 achieved an overall accuracy of 55% using
this approach, outperforming other models. Analyzing performance by subject, better results
were obtained in Portuguese questions, while the negative highlight was for Mathematics. The
ITA questions were slightly less challenging for the LLMs than the IME ones, suggesting less
complexity for the models to solve. The research highlights the potential of Large Language
Models in solving complex problems, providing valuable evidence for the improvement and
adequate implementation of Natural Language Processing techniques in educational contexts.
Other aspects can be explored later such as a greater variety of models, use of multiple turn
prompt techniques, training models with more data in Portuguese and investigating the impact
of question format. |
pt_BR |
dc.degree.country |
Brasil |
pt_BR |
dc.description.sponsordocumentnumber |
N/A |
pt_BR |
dc.description.abstractpt |
Esta pesquisa analisou o desempenho dos Grandes Modelos de Linguagem ou Large Language
Models (LLMs) combinados com técnicas de in-context learning na resolução de questões
complexas de exames vestibulares escritas em português. O conjunto de dados utilizado foi
construído utilizando questões de exames vestibulares de duas prestigiadas instituições
militares brasileiras, o Instituto Militar de Engenharia (IME) e o Instituto Tecnológico da
Aeronáutica (ITA). Foram conduzidos experimentos controlados avaliando diferentes métodos
de prompt com os modelos text-davinci-003, GPT-3.5-turbo e GPT-4 para verificar seu
desempenho ao fornecer as respostas. Os resultados mostraram que os LLMs recentes
otimizados para conversação alcançaram melhores métricas, especialmente quando utilizam
técnicas de in-context learning, como chain-of-thought (CoT). O GPT-4 alcançou uma acurácia
geral de 55% usando essa abordagem, superando os outros modelos. Analisando o desempenho
por disciplina, obteve-se melhores resultados nas questões de Português, enquanto o destaque
negativo foi para a Matemática. As questões do ITA foram ligeiramente menos desafiadoras
para os LLMs do que as do IME, sugerindo menor complexidade para resolução por parte dos
modelos. A pesquisa aponta o potencial dos Grandes Modelos de Linguagem na resolução de
problemas complexos, fornecendo evidências valiosas para o aprimoramento e a adequada
implementação de técnicas de Processamento de Linguagem Natural em contextos
educacionais. Outros aspectos podem ser explorados posteriormente como uma variedade
maior de modelos, utilização de técnicas de prompt de múltiplos turnos, treinamento de modelos
com mais dados em português e a investigação do impacto do formato das questões. |
pt_BR |
dc.subject.pt |
Grandes Modelos de Linguagem |
pt_BR |
dc.subject.pt |
Engenharia de prompt |
pt_BR |
dc.subject.pt |
Processamento de Linguagem Natural |
pt_BR |