XML  »  Articoli  »  Web semantico 

L'indicizzazione dei dati

di: Paolo Ceravolo     10 Novembre 2003

In modo stupefacente, e molto spesso, una delle cose che più mi sonosentito chiedere da chi cercava di farsi una prima opinione sul Semantic Web,è a che cosa servano i metadati. E’ curioso che si facciaquesta domanda perché senza metadati l’architettura del SemanticWeb semplicemente non funzionerebbe.

La scelta programmatica del Semantic Web è quella di non interrogarei testi, ma i metadati. Questa scelta si motiva con un fatto molto semplice:i dati che si possono trovare nel web non hanno nessuna struttura, i metadatiinvece sono informazioni su dei dati che sono stati prodotti seguendo una strutturaben precisa. Il fatto di potersi rifare ad una struttura permette di manipolarei metadati, conoscendo le relazioni che intercorrono fra essi. Tuttavia la domandache mi viene posta non è così insensata come potrebbe sembrare.I metadati infatti costituiscono il più grosso punto debole del SemanticWeb, e questo lo si può capire in modo intuitivo fin da subito.

I metadati costituiscono una difficoltà perché sono molto costosida produrre e possono risultare imprecisi. Se produciamo metadati attraversoun’indicizzazione manuale, questa risulterà costosa in terminidi tempo e costi-uomo. Inoltre quando l’indicizzazione non è fattada persone motivate e addestrate può risultare piuttosto imprecisa, perchévissuta come obbligo ed eseguita di fretta (la polizia italiana ha uno staffdi 100 annotatori ben preparati, i quali indicizzano sei pagine al giorno l’uno).

L’alternativa all’inidicizzazione manuale è l’indicizzazioneautomatica o semi automatica. E’ di questa che parleremo nelle prossimerighe.

Innanzi tutto vorrei parlare dei limiti dell’estrazione automatica deidati. I limiti sono dovuti all’impossibilità di un qualsiasi toolautomatico di discernere il contesto in cui un documento si pone. Di fatto unestrattore automatico si limiterà ad estrapolare dal testo le informazionipiù significative, non potrà mai inserire informazioni non contenutenel testo, anche se magari implicite ad esso (il contesto appunto). Inoltrel’estrazione automatica rimane sempre molto esposta alla ambiguitàdei termini. Del resto non si può pensare di fare a meno di essa.

E’ chiaro che la via più spesso scelta è quella degli automatismiassistiti, corretti e riveduti da operatori in grado di moderarne i limiti.Molti si chiederanno come possa lavorare effettivamente un sistema di analisitestuale. Per cercare di superare le difficoltà di comprensione proveremoa dare un descrizione generica e semplificata di un tool di estrazione automatica.

Una prima fondamentale componente del tool sarà un Text Zoner:un programma che si accolla il compito di suddividere il testo in parti strutturali(title, body, etc...). Fatto questo, il testo è passato a un Preprocessorche fa una analisi morfologica delle frasi, stabilisce cioè di che partiè costruita una frase (soggetto, predicato, oggetto). Un Filter eliminerà dal testo le frasi e le sentenze ritenute irrilevanti.

A questo punto si cercherà di capire quali sono le informazioni piùinteressanti. Attraverso un Named Entity Recognizer si possono identificarestrutture lessicali minime come nomi propri, date, numeri, nomi di società,etc. Tutte queste informazioni verranno organizzate quindi da un Parser cheisolerà i risultati significativi e ne fornirà la gerarchia direlazioni, ordinandoli secondo un albero.

Un Lexical Disambiguation dovrà assicurasi che i termini conpiù significati siano tradotti in un unico modo. parole con significatomolto vicino o espressioni composte simili saranno ricondotte ad un unico termine.

Guide XML

Guida Podcasting

Un percorso in 16 lezioni, per entrare nella filosofia del podcast...

Guida Smil 2.0

Un percorso pratico alla scoperta di SMIL: il linguaggio (XML) per...

Guida Web service

Cosa sono, a cosa servono e come si creano servizi Web, i sistemi...

Altre guide

Newsletter @XML

Ogni mese, direttamente nella tua e-mail: articoli, guide, FAQ e approfondimenti sui linguaggi della famiglia XML.

Iscriviti alla newsletter

Altre newsletter

Corsi in aula

Corso JQuery e Ajax per Webmaster

19 Marzo 2012 a Milano
Disponibilità: 7 Posti

Nessun corso previsto