Si parla tanto di digitalizzazione e dematerializzazione documentale, ma per avere un’accurata gestione dei metadati non è più sufficiente dematerializzare. Bisogna andare oltre. Cosa serve?

 

Digitalizzare o dematerializzare?

La dematerializzazione è, nella sua forma più semplice, il processo di conversione di un documento cartaceo in un documento digitale. Tuttavia, il processo deve garantire la conservazione del valore legale e probatorio del documento ma anche degli elementi essenziali legati al contesto archivistico di riferimento. In questo senso, la dematerializzazione va oltre la semplice digitalizzazione, che può essere vista come la produzione di un duplicato “virtuale” di una risorsa analogica. È importante sottolinearlo: digitalizzazione e dematerializzazione sono due concetti differenti, con due significati piuttosto diversi. E non si tratta solo di sfumature, ci sono differenze anche a livello giuridico e operativo. Con la dematerializzazione i documenti digitali hanno una comoda gestione perché sono associati a metadati grazie ai quali possono essere facilmente ricercati e rintracciati all'interno di un archivio digitale.

 

L’OCR non basta

L’acquisizione ottica di un documento è il primo passaggio del processo di dematerializzazione delle informazioni affidate al supporto cartaceo. Il risultato di questo primo step è la creazione d’immagini di documenti. Tuttavia, tali file sono immagini il cui testo non è né ricercabile né editabile. Per rendere il contenuto disponibile è necessario invece provvedere all’estrazione del testo dalle immagini con la tecnologia OCR (Optical Character Recognition).

Questo però non significa che si stiano usando i documenti meglio di quanto si faceva prima. Infatti, se in passato era possibile cercarli e leggerli sfogliandoli, ora per cercare le informazioni utili bisogna aprirli uno per uno. Quindi la dematerializzazione è solo il primo necessario passaggio senza il quale non è possibile eseguire la parte di information extraction e fare un’analisi di dettaglio maggiore.

 

La gestione dei metadati arricchisce i documenti

Perciò, dopo la dematerializzazione bisogna arricchire i documenti con i metadati, creare il network dei concetti e anche magari usare un'interfaccia che, in modo grafico, permetta di vedere tutti i concetti contenuti all'interno dei documenti presenti in quel database. In questo modo, possono essere consultati più velocemente, più rapidamente e in modo più efficace.

In questa operazione di arricchimento entra in gioco il Natural Language Processing. Si deve anzitutto prendere la versione digitale dei documenti e darla “in pasto” ad algoritmi di machine learning e reti neurali. L’uso di queste tecnologie evolute ha lo scopo di addestrare i modelli a classificare autonomamente tutti i documenti che arriveranno in tempi successivi. Per fare un esempio pratico, supponiamo di avere 100.000 documenti in formato cartaceo (magari le pratiche degli ultimi 20 anni di uno studio legale), li trasformiamo in formato digitale e ne usiamo una parte, il 60-70%, come documenti di training. Questo ci permette di riconoscere tutti i termini che sono all’interno, quindi, di capire che cos'è una pratica, che cos'è una sanzione, che cosa significano tutte le parole tipiche del gergo specifico dell’ambito legale.

 

Un duplice risultato, che va oltre la dematerializzazione

In questo modo otteniamo un duplice risultato: da una parte la costruzione di un database consultabile in maniera semantica, dall’altra parte tutti i documenti di quel tipo che arriveranno da quel momento in poi verranno automaticamente classificati senza bisogno di fare nessun ulteriore training. Non è nemmeno necessario che siano letti per intero se non per esigenze specifiche o se serve qualche particolare informazione. Nel momento in cui arriva un documento, avrà tutti i metadati salvati al suo interno, pronti per agevolare la ricerca dei contenuti e semplificarne la lettura.

Questo è il passo che permette di andare oltre la dematerializzazione, ovvero di dare un servizio, un valore aggiunto a tutto vantaggio dell’utente. D’altra parte, nel momento in cui si deve fare il passaggio al digitale, è bene farlo sfruttando le opportunità e le tecnologie disponibili.

New call-to-action