Arabic-Character Historical Document Processing: Why and How To?
DOI:
https://doi.org/10.6093/archeologie/9857Keywords:
Arabic manuscript, Historical Document Processing (HDP), Optical Character Recognition (OCR), Character segmentation and recognitionAbstract
L'obiettivo di Historical Document Processing (HDP) in caratteri arabi è quello di progettare e sviluppare tecniche che consentano la trascrizione automatica in file di testo, ad esempio in formato .txt o .doc, di manoscritti storici in caratteri arabi, non solo per l'arabo, ma anche per altre lingue basate su questo carattere, come il farsi, l'urdu, l'azari, il turco ottomano, ecc. L'idea chiave è quella di passare dall'immagine scannerizzata del manoscritto al file di testo utilizzando tecniche di intelligenza artificiale per realizzare due fasi principali: In primo luogo, l'elaborazione dell'immagine del manoscritto per identificare i caratteri e rimuovere altre forme generalmente presenti nei manoscritti storici, come immagini e altri tipi di ornamenti; in secondo luogo, l'identificazione dei caratteri attraverso il riconoscimento dei modelli. Un lavoro di questo tipo richiede la disponibilità di un ricco set di dati di manoscritti con caratteri arabi, oltre a metodi efficaci per l'elaborazione delle immagini, il riconoscimento dei modelli e, facoltativamente, la modellazione del linguaggio. In questo articolo viene presentata una panoramica dello stato dell'arte dell'HDP dei caratteri arabi, dei set di dati, delle sfide, dei metodi e delle potenziali applicazioni, come primo passo per definire un quadro generale di riferimento.