Advancing abstractive long-input summarization in low-resource regimes: methods, datasets and benchmarks

Ragazzi, Luca (2024) Advancing abstractive long-input summarization in low-resource regimes: methods, datasets and benchmarks, [Dissertation thesis], Alma Mater Studiorum Università di Bologna. Dottorato di ricerca in Computer science and engineering, 36 Ciclo.
Documenti full-text disponibili:
[img] Documento PDF (English) - Accesso riservato fino a 15 Maggio 2025 - Richiede un lettore di PDF come Xpdf o Adobe Acrobat Reader
Disponibile con Licenza: Creative Commons Attribution Non-commercial No Derivatives 4.0 (CC BY-NC-ND 4.0) .
Download (20MB) | Contatta l'autore

Abstract

Il campo dell'elaborazione del linguaggio naturale (NLP) ha registrato una crescita notevole negli ultimi anni, supportata dall'introduzione di nuovi modelli basati sul modello transformer. In un'epoca caratterizzata da un incessante flusso di informazioni, il compito di sintesi automatica del testo ha assunto un ruolo di particolare rilevanza all'interno del NLP. Questa attività mira a sviluppare sistemi in grado di generare sintesi concise e significative di documenti testuali, supportando gli esperti in compiti intensivi. Tecnicamente, la sintesi estrattiva identifica ed estrae frasi chiave dal testo originale, mentre la sintesi astrattiva aggrega e riformula i temi essenziali dell'input per generare il riassunto. Tuttavia, il suo successo è spesso oscurato dalla crescente richiesta di risorse computazionali. Le soluzioni all'avanguardia soffrono i regimi a basse risorse, poiché fanno affidamento su una potenza di calcolo sostanziale e su ampie collezioni di esempi annotati per un addestramento efficace. Questa forte dipendenza dalle risorse costituisce un ostacolo significativo per le organizzazioni di piccole e medie dimensioni, limitando la loro capacità di gestire questi costi insostenibili. Questa tesi approfondisce le sfide della sintesi del testo in ambienti a bassa risorsa, presentando diverse tecniche categorizzate per metodologia per avanzare la sintesi astrattiva di lunghi documenti. Mostriamo che la segmentazione del testo, la generazione con recupero e l'iniezione e distillazione della conoscenza sono componenti integrali della soluzione, la cui efficacia è integrata dalla disponibilità di nuovi dataset e benchmark rigorosi. Nel complesso, questo lavoro rappresenta un passo significativo verso soluzioni pratiche nel mondo reale che non richiedono una dipendenza da numerosi dati curati manualmente e da GPU con memoria elevata.

Abstract
Tipologia del documento
Tesi di dottorato
Autore
Ragazzi, Luca
Supervisore
Co-supervisore
Dottorato di ricerca
Ciclo
36
Coordinatore
Settore disciplinare
Settore concorsuale
Parole chiave
artificial intelligence, natural language processing, abstractive text summarization, transformers, large language models, low-resource regimes
URN:NBN
Data di discussione
24 Giugno 2024
URI

Altri metadati

Gestione del documento: Visualizza la tesi

^