{"id":198,"date":"2024-06-25T10:25:31","date_gmt":"2024-06-25T10:25:31","guid":{"rendered":"https:\/\/vocinelvento.it\/?page_id=198"},"modified":"2024-06-25T18:06:40","modified_gmt":"2024-06-25T18:06:40","slug":"il-vocabolario-italiano-romagnolo-di-libero-ercolani","status":"publish","type":"page","link":"https:\/\/vocinelvento.it\/?page_id=198","title":{"rendered":"Il vocabolario italiano-romagnolo di Libero Ercolani"},"content":{"rendered":"\n<p>Questo vocabolario, edito a Ravenna dalla fondazione della banca del monte, nel 1977, \u00e8 una opera per noi molto importante, e abbiamo deciso di analizzarla, per estrarne le voci.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani.png\" alt=\"\" class=\"wp-image-199\"\/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>Abbiamo reperito una <a href=\"https:\/\/ia800904.us.archive.org\/cors_get.php?path=\/29\/items\/vocabolarioromag00ercouoft\/vocabolarioromag00ercouoft.pdf\"><strong>scansione digitale di buona qualit\u00e0 di questa opera<\/strong><\/a>, presso il sito archive.org<\/p>\n\n\n\n<p><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"750\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani_p30-31b-1024x750.png\" alt=\"\" class=\"wp-image-204\" style=\"width:651px;height:auto\" srcset=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani_p30-31b-1024x750.png 1024w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani_p30-31b-300x220.png 300w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani_p30-31b-768x562.png 768w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani_p30-31b-1536x1125.png 1536w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani_p30-31b-2048x1499.png 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>Per l&#8217;analisi di questo materiale, che include un output OCR di qualit\u00e0 inadeguata, abbiamo sviluppato una serie di procedure software dedicate, per la segmentazione delle pagine, portandole in colonna singola, per la bonifica da bitmap indesiderati, la correzione di difetti di skewing (rotazioni).<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Queste attivit\u00e0 sono state svolte con l&#8217;utilizzo di apposito software da noi scritto per il bitmap processing, impiegando le librerie di computer vision OpenCV, che rappresentano quanto di meglio esista per il processing di immagini bidimensionali. <\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Il lavoro si \u00e8 articolato in 3 fasi: <\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>Fase1: vertical page splitting: conversione in colonna singola. Il nostro approccio prevede di esaminare il numero dei pixel neri nelle righe e nelle colonne, e di identificare le colonne esplorando la derivata del segnale rappresentato dal numero dei pixel. In questa immagine il conteggio dei pixel \u00e8 rappresentato in blu per le righe e in rosso per le colonne. In ciano si rappresentano le colonne del testo, da tagliare.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"694\" height=\"1024\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-p169-w-bitmap-count-694x1024.png\" alt=\"\" class=\"wp-image-206\" style=\"width:610px;height:auto\" srcset=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-p169-w-bitmap-count-694x1024.png 694w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-p169-w-bitmap-count-203x300.png 203w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-p169-w-bitmap-count-768x1133.png 768w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-p169-w-bitmap-count-1041x1536.png 1041w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-p169-w-bitmap-count.png 1117w\" sizes=\"auto, (max-width: 694px) 100vw, 694px\" \/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>Le due mezze pagine vengono poi collimate e giuntate in senso verticale. Il file che ne risulta \u00e8 meglio processabile con tecnologie OCR.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"228\" height=\"1024\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/vle-0187_sb-228x1024.png\" alt=\"\" class=\"wp-image-210\" style=\"width:184px;height:auto\" srcset=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/vle-0187_sb-228x1024.png 228w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/vle-0187_sb-67x300.png 67w\" sizes=\"auto, (max-width: 228px) 100vw, 228px\" \/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>Fase2: Si procede al line splitting e line boxing: identificazione e conteggio delle righe. <\/p>\n\n\n\n<p>Di seguito l&#8217;output del filtro per l&#8217;identificazione delle righe, che illustra un possibile problema: L&#8217;immagine proviene dalla pagina 0347 (progressione di scansione) del vocabolario. Il filtro adotta una serie di accorgimenti per identificare gli spazi tra le righe di testo, e per costruire il boxfile. In questo esempio si nota un errore di identificazione alla riga 26. <\/p>\n\n\n\n<p>Il problema \u00e8 stato causato dalla macchina che compare sopra alla parola &#8220;Pota&#8221; alla riga che scompensa l&#8217;algoritmo di identificazione riga. Errori di questo genere richiedono di editare la pagina della scansione originale, rimuovendo l&#8217;artefatto, e di rieseguire le fasi di elaborazione, che comunque sono piuttosto veloci.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"562\" height=\"1024\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/lineboxing_con_errore-562x1024.png\" alt=\"\" class=\"wp-image-211\" style=\"width:555px;height:auto\" srcset=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/lineboxing_con_errore-562x1024.png 562w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/lineboxing_con_errore-165x300.png 165w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/lineboxing_con_errore-768x1400.png 768w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/lineboxing_con_errore.png 790w\" sizes=\"auto, (max-width: 562px) 100vw, 562px\" \/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>Si procede alla correzione dei pixel, per rimuovere l&#8217;artefatto, con il bitmap editing (utilizziamo il software paint.net):<\/p>\n\n\n\n<p><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"819\" height=\"828\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/pota-correzione.png\" alt=\"\" class=\"wp-image-214\" style=\"width:562px;height:auto\" srcset=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/pota-correzione.png 819w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/pota-correzione-297x300.png 297w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/pota-correzione-768x776.png 768w\" sizes=\"auto, (max-width: 819px) 100vw, 819px\" \/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>E dopo la correzione l&#8217;algoritmo identifica e conta correttamente le righe.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"559\" height=\"1024\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/linecount_post_bitmap_edit-559x1024.png\" alt=\"\" class=\"wp-image-215\" style=\"width:520px;height:auto\" srcset=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/linecount_post_bitmap_edit-559x1024.png 559w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/linecount_post_bitmap_edit-164x300.png 164w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/linecount_post_bitmap_edit-768x1407.png 768w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/linecount_post_bitmap_edit.png 811w\" sizes=\"auto, (max-width: 559px) 100vw, 559px\" \/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>L&#8217;algoritmo da noi prodotto gestisce correttamente ineguali distanze tra le righe (causate da impianti tipografici non digitali) e acquisizioni da scansioni affette da difetti di acquisizione o zoom. Si tiene conto inoltre di una serie di particolari accenti e segni diacritici, come la cediglia, o la croce sotto la lettera, presente in questo testo.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"73\" height=\"152\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/z.png\" alt=\"\" class=\"wp-image-216\"\/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>Fase3: Identificazione ed estrazione dei termini. In questa fase un altro algoritmo processa ogni riga per identificare ognuno dei termini oggetto di definizione nel dizionario. Dobbiamo identificare la parola, rappresentata in grassetto e terminante con virgola, che appunto \u00e8 l&#8217;oggetto di ogni definizione del dizionario (termini).<\/p>\n\n\n\n<p>I termini vengono salvati sotto forma di piccole immagini, nei cui nomi file compaiono le coordinate di estrazione (pagina e pixelbox), processabili individualmente tramite funzioni OCR operanti lettera per lettera (per evitare gli ovvi problemi di inadeguato riconoscimento visto che non esiste un dizionario di correzione ortografica e che quello dell&#8217;italiano non va bene.)<\/p>\n\n\n\n<p><\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"618\" src=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-bitmap-terms-1024x618.png\" alt=\"\" class=\"wp-image-218\" srcset=\"https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-bitmap-terms-1024x618.png 1024w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-bitmap-terms-300x181.png 300w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-bitmap-terms-768x464.png 768w, https:\/\/vocinelvento.it\/wp-content\/uploads\/2024\/06\/ercolani-bitmap-terms.png 1492w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><\/p>\n\n\n\n<p>Siamo particolarmente soddisfatti del processo descritto e del codice, che riteniamo valido per effettuare acquisizioni anche da altri testi importanti (pur con le necessarie modifiche). L&#8217;esecuzione di funzioni OCR senza adeguata preparazione \u00e8 infatti prona a numerosi errori che rendono i risultati inservibili.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Questo vocabolario, edito a Ravenna dalla fondazione della banca del monte, nel 1977, \u00e8 una opera per noi molto importante, e abbiamo deciso di analizzarla, per estrarne le voci. Abbiamo reperito una scansione digitale di buona qualit\u00e0 di questa opera, presso il sito archive.org Per l&#8217;analisi di questo materiale, che include un output OCR di [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-198","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/vocinelvento.it\/index.php?rest_route=\/wp\/v2\/pages\/198","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/vocinelvento.it\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/vocinelvento.it\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/vocinelvento.it\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/vocinelvento.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=198"}],"version-history":[{"count":10,"href":"https:\/\/vocinelvento.it\/index.php?rest_route=\/wp\/v2\/pages\/198\/revisions"}],"predecessor-version":[{"id":221,"href":"https:\/\/vocinelvento.it\/index.php?rest_route=\/wp\/v2\/pages\/198\/revisions\/221"}],"wp:attachment":[{"href":"https:\/\/vocinelvento.it\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=198"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}