Resumo: A estrutura retórica revela se o texto está adequado com uma estrutura estabelecida e reconhecida pelos demais leitores de um determinado gênero textual. Este trabalho investiga se características provenientes da estrutura, ou seja, a sequência em que os elementos aparecem no texto contribui para a sua detecção correta. Para isso, foi feito um estudo de algoritmos de predição estruturada aplicados ao problema de detecção de estrutura retórica. O objetivo foi descobrir um algoritmo de predição estruturada que seja mais adequado para esse tipo de problema. Para avaliar o sistema proposto foram utilizados dois corpora de resumos científicos escritos em português e já anotados com informação sobre a estrutura retórica. Ambos são compostos por resumos científicos extraídos de trabalhos em várias áreas da Ciência da Computação e anotados de acordo com um modelo de estrutura retórica composto por seis categorias, a saber: Contexto, Lacuna, Propósito, Metodologia, Resultado e Conclusão. Neste trabalho, esse mesmo modelo foi utilizado, permitindo a comparação direta do preditor proposto com o classificador Argumentative Zoning for Portuguese (AZPort). A detecção com uso do Campos Aleatórios Condicionais (Conditional Random Fields - CRF), uma predição estruturada, apresentou F1-score de 68% contra F1-score de 61% do AZPort. Assim, foi verificado que algoritmos de predição estruturada beneficiam a tarefa de detectar automaticamente a estrutura retórica de textos científicos.
Abstract: The rhetorical structure reveals whether the text is adequate with a structure established and recognized by other readers of a given literary genre. This work investigates if features coming from the structure, that is, the sequence in which the elements appear in the text contributes to its correct detection. For this, a study of structured prediction algorithms applied to the rhetorical structure detection problem was done. The objective was to discover a structured prediction algorithm that is more suitable for this type of problem. To evaluate the proposed system were used two corpora of scientific abstracts written in Portuguese and already annotated with information on the rhetorical structure. Both are composed of scientific abstracts extracted from works in several areas of Computer Science and annotated according to a rhetorical structure model composed of six categories, namely: Context, Gap, Purpose, Methodology, Result and Conclusion.In this work, this same model was used, allowing the direct comparison of the proposed predictor with the AZPort classifier. Detection using CRF, a structured prediction, had a 68% vs. 61% F1-score of the AZPort. Thus, it was verified that structured prediction algorithms benefit the task of automatically detecting the rhetorical structure of scientific abstracts. |