Cataloguing, Metadata, and Generative AI. Early Experiences and Future Perspectives

Roncaglia, Gino

doi:10.36253/jlis.it-693

The article deals with the intersection of generative artificial intelligence (AI) and bibliographic/metadata practices, assessing how large language models (LLMs) can support cataloguing and metadata creation while navigating the constraints of formal knowledge architectures. In the first section, the article discusses the evolution of cataloguing paradigms from MARC to Linked Open Data (LOD), emphasizing the shift from rigid records to semantic, entity-based models like FRBR, RDA, and BIBFRAME. The second section deals with the epistemological clash between deterministic, rule-based metadata standards (the "architect") and probabilistic, generative AI systems (the "oracle"). Three strategies are proposed for integrating AI into bibliographic workflows: 1) Specialized AI systems trained exclusively on controlled, high-quality datasets. 2) Retrieval-Augmented Generation (RAG), blending LLMs with authoritative knowledge bases. 3) Next-generation LLMs enhanced via reasoning models, multimodal inputs, expanded context windows, and small/medium-scale local models to align generative outputs with metadata standards. Key challenges include hallucinations, data sparsity in bibliographic corpora, and the obsolescence of MARC-centric experiments. The article argues for caution against retrofitting AI onto outdated data models, urging alignment with LOD and IFLA’s Library Reference Model (LRM). Ethical considerations (bias, transparency, AI literacy) and the potential of local SLMs/MSLMs for privacy-sensitive applications are highlighted.

L’articolo affronta l’intersezione tra intelligenza artificiale generativa (AI) e l’ambito catalografico e di gestione dei metadati, valutando in che modo i modelli linguistici di grandi dimensioni (LLM) possano supportare la catalogazione e la creazione di metadati, rispettando i vincoli posti dalle architetture formali della conoscenza. Nella prima sezione, l’articolo analizza l’evoluzione dei paradigmi di catalogazione, dal formato MARC ai Linked Open Data (LOD), sottolineando il passaggio da record rigidi a modelli semantici basati su entità, come FRBR, RDA e BI-BFRAME. La seconda sezione tratta del conflitto epistemologico tra gli standard di metadatazione formalizzati e basati su regole (l’“architetto”) e i sistemi di intelligenza artificiale generativa, per loro natura prevalentemente non deterministici e probabilistici (l’“oracolo”). Per risolvere tale conflitto, vengono prese in esame tre strategie per integrare l’AI nei flussi di lavoro bibliografici: 1) sistemi di AI specializzati, addestrati esclusivamente su dataset controllati e di alta qualità; 2) modelli di tipo Retrieval-Augmented Generation (RAG), che combinano LLM e basi di conoscenza autorevoli; 3) LLM di nuova generazione potenziati da modelli di ragionamento, input multimodali, finestre contestuali estese e modelli locali di piccola/media scala con fine tuning, per allineare gli output generativi agli standard di metadatazione. ra le principali criticità vengono evidenziati fenomeni di allucinazione, scarsità di dati nei corpora bibliografici e obso-lescenza degli esperimenti basati su MARC. L’articolo invita alla cautela rispetto ai tentativi di adattare l’AI a modelli di dati superati, promuovendo invece l’allineamento con i LOD e con il Library Reference Model (LRM) dell’IFLA. Vengono infine discusse le implicazioni etiche (bias, trasparenza, alfabetizzazione all’AI) e il potenziale dei modelli SLM/MSLM locali per applicazioni che richiedono maggiore tutela della privacy.

Roncaglia, G. (2026). Cataloguing, Metadata, and Generative AI. Early Experiences and Future Perspectives. JLIS.IT, 17(1), 106-127 [10.36253/jlis.it-693].