"A model for the unsupervised segmentation and linguistic analysis of. Arabic texts of Prophetic tradition (ḥadīṯs), SALAH, is proposed. The model. automatically segments each text unit in a transmitter chain (isnād) and a text. content (matn) and further analyses each segment according to two distinct. pipelines: a set of regular expressions chunks transmitter chains in a graph labeled. with the relation between transmitters, while a tailored, augmented version. of the AraMorph morphological analyzer (RAM) analyzes and annotates. lexically and morphologically the text content. A graph with relations among. transmitters and a lemmatized text corpus, both in XML format, are the final. output of the system, which can further feed the automatic generation of concordances. of the texts with variable-sized windows. The model results can be. useful for a variety of purposes, including retrieving information from ḥadīṯ. texts, verifying the relations between transmitters, finding variant readings,. supplying lexical information to specialized dictionaries."

"L'articolo propone un modello per la segmentazione e l'analisi linguistica di testi arabi di tradizioni profetiche (ḥadīṯ), SALAH. Il modello segmenta automaticamente ogni unità testuale in una catena di trasmettitori (isnād) e un contenuto testuale (matn), quindi analizza ogni segmento con due percorsi distinti: un insieme di espressioni regolari suddivide le catene di trasmettitori in un grafo etichettato con le relazioni tra trasmettitori, mentre una versione adattata e aumentata dell'analizzatore morfologico AraMorph (RAM) analizza e annota lessicalmente e morfologicamente il contenuto testuale. Il sistema produce un grafo con le relazioni fra trasmettitori e un corpus testuale lemmatizzato, entrambi in formato XML, che possono ulteriormente alimentare la generazione automatiche di concordanze dei testi con finestre di dimensione variabile. I risultati del modello possono essere utili per una serie di scopi, tra cui il recupero di informazioni da testi di ḥadīṯ, la verifica delle relazioni tra trasmettitori, l'individuazione di varianti testuali, il reperimento di informazioni lessicali per dizionari specializzati."

Boella, M., Romani, F.r., AL RAIES, A., Solimando, C., Lancioni, G. (2011). The SALAH Project: Segmentation and Linguistic Analysis of Hadith Arabic Texts. In S.M. VALL M (a cura di), Information Retrieval Technology (pp. 538-549). BERLIN HEIDELBERG : Springer-Verlag [10.1007/978-3-642-25631-8].

The SALAH Project: Segmentation and Linguistic Analysis of Hadith Arabic Texts

SOLIMANDO, Cristina;LANCIONI, GIULIANO
2011-01-01

Abstract

"L'articolo propone un modello per la segmentazione e l'analisi linguistica di testi arabi di tradizioni profetiche (ḥadīṯ), SALAH. Il modello segmenta automaticamente ogni unità testuale in una catena di trasmettitori (isnād) e un contenuto testuale (matn), quindi analizza ogni segmento con due percorsi distinti: un insieme di espressioni regolari suddivide le catene di trasmettitori in un grafo etichettato con le relazioni tra trasmettitori, mentre una versione adattata e aumentata dell'analizzatore morfologico AraMorph (RAM) analizza e annota lessicalmente e morfologicamente il contenuto testuale. Il sistema produce un grafo con le relazioni fra trasmettitori e un corpus testuale lemmatizzato, entrambi in formato XML, che possono ulteriormente alimentare la generazione automatiche di concordanze dei testi con finestre di dimensione variabile. I risultati del modello possono essere utili per una serie di scopi, tra cui il recupero di informazioni da testi di ḥadīṯ, la verifica delle relazioni tra trasmettitori, l'individuazione di varianti testuali, il reperimento di informazioni lessicali per dizionari specializzati."
978-3-642-25631-8
"A model for the unsupervised segmentation and linguistic analysis of. Arabic texts of Prophetic tradition (ḥadīṯs), SALAH, is proposed. The model. automatically segments each text unit in a transmitter chain (isnād) and a text. content (matn) and further analyses each segment according to two distinct. pipelines: a set of regular expressions chunks transmitter chains in a graph labeled. with the relation between transmitters, while a tailored, augmented version. of the AraMorph morphological analyzer (RAM) analyzes and annotates. lexically and morphologically the text content. A graph with relations among. transmitters and a lemmatized text corpus, both in XML format, are the final. output of the system, which can further feed the automatic generation of concordances. of the texts with variable-sized windows. The model results can be. useful for a variety of purposes, including retrieving information from ḥadīṯ. texts, verifying the relations between transmitters, finding variant readings,. supplying lexical information to specialized dictionaries."
Boella, M., Romani, F.r., AL RAIES, A., Solimando, C., Lancioni, G. (2011). The SALAH Project: Segmentation and Linguistic Analysis of Hadith Arabic Texts. In S.M. VALL M (a cura di), Information Retrieval Technology (pp. 538-549). BERLIN HEIDELBERG : Springer-Verlag [10.1007/978-3-642-25631-8].
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11590/279085
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus 8
  • ???jsp.display-item.citation.isi??? ND
social impact