Organizzare e ricercare le fonti digitali: il progetto RepubLit

Filippo Chiocchetti
Università del Piemonte Orientale “Amedeo Avogadro”

1. Nel mondo globalizzato e reso interconnesso dalla fitta trama delle reti telematiche, il ruolo esercitato dalle fonti digitali nell’attività di ricerca è sempre più rilevante. Il web, oggi, è diventato il grande archivio da esplorare. Le ripercussioni sul lavoro storiografico, in particolare l’esigenza di una nuova critica delle fonti digitali, hanno alimentato una riflessione metodologica ricca di voci significative. Con altrettanta evidenza, peraltro, si è manifestata la necessità di disporre di mezzi tecnologici mediante i quali sfruttare pienamente la grande quantità di documenti in formato elettronico.
Nello scenario della rete, plasmato da Google nell’ultimo decennio, lo strumento a cui affidare questo compito non può che essere un motore di ricerca.
L’ambito umanistico, per le peculiarità che lo distinguono dalle altre discipline, è forse quello che più risente della carenza di realtà appositamente dedicate. Non sono mancati i tentativi in questa direzione – il riferimento è ai Limited Area Search Engines – mai usciti però del tutto dal terreno della sperimentazione, per non dire della provvisorietà.
Unificare l’accesso alle risorse telematiche, nel quadro di uno strumento pensato per ricercarle e gestirle con la massima efficienza, è a nostro avviso un obiettivo strategico.

2. Progettare un tale strumento, pensato da ricercatori per un’utenza di ricercatori, è senz’altro una sfida affascinante. Creare le condizioni migliori per misurarsi con essa implica probabilmente il ricorso a mezzi in parte diversi da quelli tipici di chi fa ricerca accademica.
La ricerca applicata necessita di modalità operative, e conseguentemente di uno status giuridico, peculiari. La governance del mondo universitario ha dato una risposta a queste esigenze incentivando il ricorso a uno specifico strumento: lo ‘spin-off accademico’, ossia un’impresa innovativa che nasce dalla ricerca condotta nelle università.
Il mondo accademico, favorendo la creazione di realtà imprenditoriali da parte di figure appartenenti al personale universitario, dà attuazione alle sue finalità istituzionali promuovendo il trasferimento al mercato dei risultati della ricerca effettuata al proprio interno. Presso l’Università del Piemonte Orientale “Amedeo Avogadro”, dove chi scrive è titolare di un assegno di ricerca, è in vigore un apposito regolamento che all’art. 1 stabilisce quanto segue:

Lo strumento Spin-off si propone di favorire il contatto tra le strutture di ricerca universitarie, il mondo produttivo e le istituzioni del territorio al fine di sostenere l’attività di ricerca e diffondere tecnologie, con positivi effetti sulla produzione industriale, sul benessere sociale e sull’attrattività del territorio per investimenti nazionali ed internazionali.

3. Da queste premesse è sorta RepubLit. Il nome della società (pronunciato analogamente all’inglese ‘republic’) evoca la creazione di un’unica comunità del sapere – versione moderna della Respublica Litterarum – nei cui confronti essa si propone come punto di riferimento nell’ambiente telematico.
La nuova impresa, fondata e amministrata da chi scrive, è stata approvata con delibera del consiglio d’amministrazione di ateneo il 18 luglio 2008 e costituita come società a responsabilità limitata con atto notarile del 5 marzo 2009.
Gli obiettivi che ci siamo posti con questo progetto – anticipato a suo tempo dalle pagine di Cromohs[1] – richiedono investimenti che, per ordine di grandezza e durata nel tempo, non sono compatibili con i normali canali di finanziamento alla ricerca. Il tratto comune a tutte le esperienze precedenti è il collo di bottiglia rappresentato dalle modalità di sovvenzione: numerosi esempi dimostrano che i fondi pubblici per la ricerca sono ideali per avviare un progetto (laddove il privato talvolta non investirebbe) ma sono strutturalmente inadatti a sostenerlo nel medio-lungo periodo. D’altro canto, le prospettive di ricadute sul mondo produttivo che questa iniziativa porta con sé sono tali da motivare il ricorso a questa opzione. Intendiamo aprire una nuova strada su un terreno sconosciuto – ma che studiosi di altre facoltà percorrono con successo da anni – testimoniando così la capacità degli umanisti di proporre idee che abbiano un impatto virtuoso sul circuito economico.

4. Nei primi mesi di vita di questa nuova realtà, gli obiettivi prima enunciati sono stati tradotti in uno studio di fattibilità di cui daremo conto in queste pagine. L’attività di ricerca, che ha gettato le basi per le successive fasi di sviluppo, è stata parzialmente finanziata grazie a un contributo erogato dal Programma FIxO (Formazione e Innovazione per l’Occupazione) del Ministero del Lavoro, che tra le sue linee di intervento includeva “Azioni formative e di accompagnamento per l’avvio di spin-off accademici”. Nell’ambito del Programma FIxO alcuni validi collaboratori hanno messo a disposizione di RepubLit le loro competenze: Fulvio Corno, professore associato di informatica presso il Politecnico di Torino e studioso del semantic web; Luca Rosati, esperto di architettura dell’informazione e docente all’Università di Perugia; lo staff di Intellisemantic S.r.l., una start-up altamente innovativa guidata da Alberto Ciaramella[2]. Inquadrato l’obiettivo finale – realizzare un motore di ricerca umanistico, concepito espressamente per una utenza accademica, e dotato di strumenti avanzati di interrogazione, selezione e filtro dei documenti – il problema delle fonti e del loro trattamento è stato posto come aspetto centrale della sperimentazione, attuata nel corso del 2009.
Dal punto di vista delle modalità di pubblicazione, il web umanistico si caratterizza per la compresenza di fonti strutturate e di fonti non strutturate. Alle prime appartengono le banche dati editoriali con accesso a pagamento, contenenti riviste elettroniche o collezioni di testi digitalizzati; a questo gruppo appartengono altresì le iniziative ad accesso aperto, come i repositories istituzionali sviluppati nell’ambito della Open Archives Initiative[3] e i periodici elencati nella Directory of Open Access Journals[4]. Benché siano caratterizzate da politiche editoriali molto diverse, queste risorse hanno in comune il fatto che i dati sono accompagnati da metadati: si tratta dunque di fonti strutturate, a differenza invece di una serie di risorse (organizzate in siti web tematici tutti ad accesso gratuito) che contengono testi e materiali destinati alla ricerca scientifica ma che vengono immesse in rete senza un corredo di metadati. Riprendendo tale distinzione, gli obiettivi che ci siamo posti consistono nell’organizzare al meglio la ricerca all’interno dei documenti strutturati; e nello strutturare quelli che non lo sono, per renderli a loro volta efficacemente ricercabili.

5. Per conferire struttura a un testo occorre ottenere informazioni caratterizzanti su di esso. È stata perciò studiata una procedura mediante la quale ricavare i concetti-chiave di ciascun documento. Il progetto prevede che i lemmi significativi, presenti nei documenti indicizzati dal motore di ricerca, vengano organizzati in specifiche aree tematiche. Trattandosi di un motore verticale di taglio umanistico, le aree individuate sono: Persone (studiosi, autori letterari, personaggi storici); Argomenti (concetti periodizzanti, ambiti subdisciplinari ecc.); Periodi (suddivisi in decadi); Luoghi (stati, regioni, città ecc.).
La conseguenza naturale di questo approccio è stata la scelta di adottare la faceted search come modalità di visualizzazione dei risultati delle ricerche. Tale modalità si basa sulla classificazione analitico-sintetica, o a faccette, la quale prevede che ciascun documento sia descritto secondo vari punti di vista, o sfaccettature[5]. Ampiamente utilizzata nel web, è stata definita come il punto di convergenza tra i due consolidati paradigmi della ricerca online: la navigazione all’interno di tassonomie e repertori di siti organizzati gerarchicamente, e la ricerca diretta nel testo delle pagine web tramite i search engines[6]. La faceted search è in grado di combinare entrambi gli approcci e rappresenta lo stato dell’arte in svariati settori: dall’e-commerce, dove ha trovato la sua prima applicazione, fino alle interfacce di molti cataloghi bibliografici informatizzati. Più recentemente, però, questo modello è stato fatto proprio, in qualche misura, anche da Bing, il nuovo motore di ricerca di Microsoft, e dallo stesso Google dopo la profonda riorganizzazione della sua interfaccia di ricerca (online dal maggio 2010). La faceted search si è dunque rivelata lo schema di interazione uomo-macchina che meglio si adatta ai presupposti del nostro progetto. Le quattro ‘faccette’ che abbiamo individuato rappresentano altrettanti punti di vista da cui guardare un documento. Portare in superficie i concetti racchiusi nel testo è stato pertanto il primo criterio elaborato per classificare i documenti. Il secondo criterio prescinde invece dal contenuto e consiste nel classificarli in base alla loro tipologia, alla lingua e al formato utilizzati.
Una volta adottati questi principi, è stata progettata una interfaccia di ricerca che offre due opzioni complementari per la navigazione all’interno dei risultati: refinement e filtering, corrispondenti rispettivamente al primo e al secondo criterio testé elencati.

6. La sperimentazione ha quindi comportato la realizzazione di una interfaccia utente, mediante la quale sono visualizzabili le effettive modalità di funzionamento del motore di ricerca. Occorre subito precisare che si tratta di una demo statica, pertanto non vi è al momento la possibilità di effettuare ulteriori prove. Le immagini seguenti, accompagnate da commenti esplicativi, sono state catturate dal sito web su cui la demo è stata caricata.

Chiocchetti00.jpg

Fig. I. Lo scopo di RepubLit è condurre l’utente fino al contenuto che soddisfa le sue esigenze di studio o di ricerca. Nell’esempio in figura, un utente sta cercando informazioni sul filosofo austriaco Ludwig Wittgenstein. Egli accede alla home page e digita “Wittgenstein” nella maschera di ricerca, quindi preme il tasto “Search”.

Chiocchetti01.jpg

Fig. II. Quella che viene ora mostrata è la pagina dei risultati. L’interfaccia di RepubLit è dotata di caratteristiche innovative che la distinguono dagli altri motori di ricerca, e dispone di strumenti per selezionare e filtrare le risorse più valide. La schermata dei risultati è divisa funzionalmente in tre parti: le aree tematiche, i filtri, e i risultati veri e propri.

Chiocchetti02.jpg

Fig. III. Nella parte superiore della pagina si trovano quattro clusters, suddivisi per area tematica (People, Subjects, Periods, Places). Il motore di ricerca analizza i documenti indicizzati ed estrae dal testo i termini riferibili a questi quattro campi semantici. Utilizzando la terminologia biblioteconomica, tali termini sono definiti come i ‘fuochi’ di ciascuna ‘faccetta’.
Ad ogni interrogazione del motore di ricerca, i fuochi visualizzati nei clusters saranno sempre diversi: in base alle keywords utilizzate nella query corrente, di volta in volta compariranno soltanto i termini correlati, ossia quelli presenti negli stessi documenti in cui compaiono anche le keywords scelte dall’utente (ordinati in base al numero di occorrenze, indicato tra parentesi).

Chiocchetti03.jpg

Fig. IV. Cliccando su un termine (per esempio, nel riquadro People, su “B. Russell”), la correlazione individuata dal motore di ricerca viene esplicitata dall’utente stesso. Ciò che si ottiene è un raffinamento: una label dello stesso colore viene aggiunta nel search path e i risultati si restringono ai soli documenti che contengono sia Wittgenstein sia Russell.

Chiocchetti04.jpg

Fig. V. La stessa operazione può essere ripetuta più volte, selezionando o deselezionando termini in ciascuna area. Nell’esempio vengono selezionati “Epistemology” in Subjects, “Vienna” in Places e la decade “1920-1929” in Periods. Le possibilità di riorganizzare i risultati, individuando nuovi percorsi di ricerca, sono praticamente illimitate. A questo allude la tagline, ovvero la frase che campeggia in alto, accanto al logo:
Who, What, When, and Where – Here are the answers. Why – It is up to you to discover it!

Chiocchetti05.jpg

Fig. VI. L’utente ha sempre il controllo su tutte le operazioni. Per esempio, può decidere che il luogo non è funzionale alla sua ricerca, mentre è più importante individuare altre persone collegate a Wittgenstein. Deseleziona perciò “Vienna”, ed espande la faccetta People.
I termini estratti dal motore di ricerca sono molti di più dei dieci visualizzati nei riquadri: il tasto “more...” consente di espandere ciascuna faccetta in una finestra che si sovrappone alla pagina, mostrando fino a cento termini, ordinati alfabeticamente o per numero di occorrenze.

Chiocchetti06.jpg

Fig. VII. Il motore di ricerca è in grado anche di selezionare i documenti per tipologia. Nel frame sinistro, accanto ai risultati, trovano posto i filtri che consentono di esplorare i risultati con questa modalità. L’intero indice di RepubLit è organizzato in categorie. La principale è Sources: tutti i documenti indicizzati sono suddivisi, per facilitarne la reperibilità, in tre tipologie di fonti – riviste scientifiche, collezioni di testi digitalizzati, altre risorse appartenenti al web accademico.
L’utente ha inoltre a disposizione altri due filtri, Format e Language, che gli consentono di selezionare, per esempio, documenti solo in .pdf, o solo in tedesco.

Chiocchetti07.jpg

Fig. VIII. Il filtering è gestito in modo analogo al raffinamento semantico. L’utente può decidere, per esempio, di restringere la sua ricerca alle sole riviste, selezionando Journals; ma può anche scendere a un livello più dettagliato, selezionando direttamente la singola rivista. Anche in questo caso il search path traccia le operazioni svolte dall’utente, aggiungendo una nuova label. Questo discorso si applica ovviamente anche a Digital Libraries; non è previsto invece per le risorse non strutturate (Scholarly Web).

Chiocchetti08.jpg

Fig. IX. Con RepubLit l’utente può selezionare e filtrare i contenuti, ma anche gestirli. Accanto a ogni risultato sono presenti due icone, “Tags” e “View Details”. Grazie alla prima l’utente può aggiungere quel risultato ai preferiti nel suo account personale, assegnandogli eventualmente delle etichette (tags). “View Details”, invece, svolge la funzione che ha l’indice analitico in una pubblicazione cartacea: riepiloga tutti i termini correlati limitatamente a quel documento, dando una panoramica sul suo contenuto prima ancora di aprirlo; evidenzia i metadati, qualora siano disponibili; visualizza i tags assegnati dall’utente.

In sintesi, RepubLit
a. propone nuove ricerche sulla base dell’estrazione semantica di contenuti correlati;
b. consente di navigare tra i risultati, filtrandoli per tipologia, lingua e formato;
c. offre una breve scheda analitica di ogni singola risorsa.

7. Il design dell’interfaccia non è stato però l’unico output della sperimentazione effettuata. A livello progettuale sono state affrontate altre questioni, strettamente intrecciate tra di loro ma comunque inquadrabili in quattro principali linee di ricerca.
La prima riguarda il problema cruciale dell’estrazione di informazioni da testi non strutturati: nel nostro caso, di lemmi riconducibili a precisi campi semantici (le ‘faccette’). Tale operazione, che equivale, secondo la corrispondente teoria biblioteconomica, a popolare le ‘faccette’ con i relativi ‘fuochi’, può essere effettuata attingendo a repertori, thesauri, lessici e ontologie, e adattandoli alle specifiche esigenze del progetto e alle caratteristiche del cluster semantico a cui li si vuole applicare.

8. Consideriamo la faccetta People. I nomi che riteniamo debbano esservi inclusi sono quelli di figure storiche e di autori moderni di pubblicazioni scientifiche. Per questi ultimi si deve fare riferimento a banche dati come le bibliografie nazionali. Di grande utilità sono anche le iniziative che effettuano lo spoglio delle riviste scientifiche. Per quanto riguarda solamente gli studiosi attualmente in ruolo, si possono ricavare ulteriori informazioni dal web, utilizzando gli elenchi degli iscritti alle associazioni professionali e le banche dati del personale universitario. Non dimentichiamo infine lo harvesting, via protocollo OAI-PMH, dei metadati “Author” delle pubblicazioni distribuite negli Open Archives.
Analogamente, per compilare liste di personaggi storici occorre combinare fonti diverse, senza escludere il ricorso a repertori ed enciclopedie online, come Wikipedia, i cui dati, grazie a iniziative come DBpedia, sono disponibili in formato RDF (Resource Description Framework) e quindi interpretabili da strumenti automatici[7].

9. Per la faccetta Places è stato preso in considerazione l’utilizzo di GeoNames, un database gratuito contenente oltre otto milioni di nomi di luoghi[8], che può essere integrato da uno strumento affidabile e completo come il Getty Thesaurus of Geographic Names (TGN). In questo caso la principale sfida è rappresentata non tanto dal popolamento in sé, e nemmeno dall’ambiguità di certi termini riferibili sia a persone sia a luoghi (per esempio: Washington), quanto dal fatto che nei testi compaiono frequenti attestazioni di località geografiche che in realtà si riferiscono al luogo di pubblicazione di un’opera all’interno di una citazione bibliografica. Questi nomi di luogo non sono correlati all’argomento del testo: non forniscono perciò informazioni rilevanti, generando invece rumore. Mediante un set di regole appositamente predisposte, il sistema verrà quindi ‘addestrato’ a discernere i luoghi di edizione dalle altre occorrenze di località geografiche. Nell’impostazione della faccetta Periods sono state scelte le decadi, in quanto i singoli anni apparivano difficili da gestire e non particolarmente significativi. Pertanto, se in un documento compare la data “1492”, nella faccetta avremo come fuoco la decade corrispondente, cioè “1491-1500”. Selezionandola, l’utente restringerà la ricerca ai testi in cui vi sono riferimenti agli anni compresi in quell’intervallo.
Come nel caso della faccetta Places, occorre garantire una efficace disambiguazione. Ciò ha comportato l’elaborazione di regole che consentano di individuare, all’interno del testo, gli anni distinguendoli da cifre relative ad altre informazioni.

10. Veniamo infine a Subjects, il cui popolamento richiede l’adozione di criteri in parte diversi. Tra le soluzioni vagliate per risolvere quello che si è rivelato il compito più problematico, segnaliamo l’idea di servirsi di soggettari e classificazioni sviluppate in ambito biblioteconomico, come i Library of Congress Subject Headings[9]. In alternativa, si potrebbero ottenere etichette descrittive su specifiche risorse facendo leva sull’intelligenza collettiva (social tagging, folksonomies): questa opzione, potenzialmente suscettibile di applicazione anche ad altre faccette, sconta però da un lato l’eterogeneità dei tags, dall’altro il fatto che solo una piccola parte delle risorse del nostro corpus, estremamente specializzato, è già stata oggetto di una precedente annotazione su piattaforme, come Del.icio.us[10], rivolte a un pubblico variegato. Ovviamente, le procedure per l’estrazione dei metadati necessari per popolare le singole faccette dovranno essere automatizzate: sarà necessario ripetere periodicamente l’indicizzazione dell’intero archivio, impostando un sistema che garantisca l’aggiornamento costante delle faccette stesse.
Per quanto riguarda l’architettura complessiva del sistema, la scelta è caduta su Apache Lucene, un motore di ricerca open source stabile e dalle ottime prestazioni[11]. In particolare, si è rivelata decisiva la possibilità di integrare all’interno di Lucene un componente, Solr, pensato per la gestione semantica delle informazioni. L’implementazione vera e propria resta un obiettivo da perseguire nei futuri stadi del progetto, che richiederanno peraltro nuovi approfondimenti e verifiche. La ricerca condotta in questa fase, relativamente sia a questo sia agli ulteriori momenti dello studio di fattibilità, ha avuto come finalità l’elaborazione delle linee guida generali del progetto, nonché una verifica preliminare su sostenibilità e coerenza delle soluzioni tecnologiche adottate per i diversi elementi di cui è composto.

11. Il secondo problema affrontato nel corso dell’attività di ricerca riguarda l’indicizzazione delle risorse. A differenza dei normali motori di ricerca, RepubLit non indicizza l’intero web come fa invece Google, i cui spiders risalgono la ragnatela seguendo il percorso tracciato dai links che connettono ciascuna pagina alle altre. Quello di RepubLit è un approccio selettivo, che stabilisce un perimetro e al suo interno attua delle strategie di recupero dell’informazione. Indicizzare e classificare sono pertanto due momenti inscindibili: recuperare le risorse implica anche ricondurle entro le tipologie previste dal progetto, le quali consentono l’applicazione di filtri ai documenti ottenuti. Format e Language non presentano particolari difficoltà, essendo riconosciute in modo automatico dal sistema. Per quanto riguarda invece il filtro più importante, cioè Sources, l’attribuzione, a ciascun item, di uno dei tre fuochi previsti per questa faccetta deve essere effettuata manualmente, suddividendo in tre categorie l’intero archivio.
La prima, Journals, è ovviamente relativa alle riviste in formato elettronico. Gran parte dei periodici selezionati per essere inclusi nell’indice di RepubLit provengono dalla Directory of Open Access Journals: le riviste umanistiche segnalate da DOAJ sono oltre un migliaio. A queste dovrebbero aggiungersi le pagine delle riviste in abbonamento che rendono disponibili gratuitamente gli abstracts. Per quanto riguarda i contenuti a pagamento di queste riviste, occorre sottolineare che l’eventuale adesione di editori commerciali al progetto implica scenari che sono estranei ai temi trattati in questo articolo.
La seconda categoria, Scholarly Web, è costituita da un indice di risorse non strutturate, contenente siti web tematici che offrono studi e fonti destinati alla ricerca scientifica. Proprio perché privo di particolari elementi strutturanti, questo ambito ospita materiali eterogenei, che spaziano dalla monografia ipertestuale più o meno articolata al bollettino istituzionale, alla bibliografia, al museo virtuale, ai più diversi tipi di archivi (fotografici, cartografici, sonori ecc.). Tra gli obiettivi che ci siamo prefissi c’è anche quello di dare visibilità a un dominio normalmente poco conosciuto come questo. Si è reso pertanto necessario un ampio lavoro di selezione delle risorse telematiche, parzialmente effettuato prima e durante la sperimentazione.
La maggior parte delle fonti primarie, cioè le biblioteche elettroniche e le raccolte di testi digitalizzati, rientra nella terza categoria: Digital Libraries. Parte di queste sono risorse originariamente poco strutturate: tutti i siti che hanno le caratteristiche appropriate devono quindi essere individuati e catalogati, grazie all’intervento di una redazione o anche su richiesta dei responsabili. Le altre appartengono allo spazio degli archivi istituzionali (Open Archives) e, in prospettiva, a realtà commerciali.

12. Il terzo momento dell’analisi è rappresentato dal problema linguistico. La gestione di un archivio contenente documenti in molte lingue diverse è uno dei presupposti fondamentali del progetto. La prevalenza di documenti in inglese, riscontrabile nelle immagini precedenti, non deve pertanto far pensare a una scelta che privilegi in modo programmatico una lingua rispetto alle altre. L’adozione di Lucene, del resto, garantisce che il motore di ricerca supporti tutte le principali lingue. Non vi sono quindi limiti alla scelta dei termini da utilizzare nella query: il maggiore o minore numero di risultati (recall) dipenderà esclusivamente dalla quantità di documenti pertinenti disponibili nell’idioma utilizzato.
Sono state peraltro esaminate opzioni più sofisticate, a partire dall’ipotesi di implementare la traduzione automatica delle queries: in questo modo, una sola interrogazione restituirebbe risultati in varie lingue, evitando all’utente sia di ripetere più volte la stessa ricerca sia di replicare il successivo processo di refinement. L’ipotesi non è stata ulteriormente approfondita a causa della sua elevata complessità a fronte di un beneficio molto relativo (data la capacità di scegliere correttamente le parole chiave nelle varie lingue, propria del nostro utente ideal-tipico) ma soprattutto per la possibilità di generare confusione in seguito a traduzioni non accurate o errate: l’aumento del recall si sconterebbe con una proporzionale riduzione della precision.

13. I thesauri, di cui si è già sottolineata l’utilità nel popolamento delle faccette, potrebbero però essere usati per tradurre quantomeno le keywords per le quali vi è una corrispondenza diretta con le espressioni codificate nel thesaurus. In questo modo, per esempio, la query “Carlo Magno” inoltrerebbe al sistema anche “Charlemagne” e “Karl der Grossen”, “London” rimanderebbe a “Londra” e a “Londres”, “Aufklärung” a “Enlightenment” e a “Illuminismo”; e così via. Questa opzione richiederebbe l’utilizzo di thesauri multilingue per i luoghi e per i personaggi storici (il cui nome sia traducibile) ma soprattutto per gli argomenti. Anche in questo caso, va sottolineato come l’ipotesi presa in esame lasci qualche interrogativo aperto: se le keywords scelte non compaiono nel testo dei primi risultati restituiti (detto altrimenti, se questi ultimi sono scritti in lingue diverse da quella della query di partenza) si rischia di produrre un certo disorientamento nell’utente. Una possibile soluzione consiste nell’agire sull’algoritmo, ottenendo (come in Google) un mix tra i risultati nella lingua di partenza e i risultati in altre lingue.
Anche senza tradurre le queries, questo lavoro di normalizzazione basato sui thesauri potrebbe essere applicato alle faccette, per aumentare l’efficacia del raffinamento semantico. Ciò sarebbe utile nei casi in cui si debbano gestire queries specifiche che contengono termini intraducibili: per esempio nomi di persona o di luogo, ma anche opere citate nel loro titolo originale o espressioni usate universalmente nella loro lingua originale (pensiamo, a titolo esemplificativo, al “Discours de la méthode” di Descartes e allo “Sturm und Drang”, le cui occorrenze non sono necessariamente limitate solo a documenti francesi o tedeschi).
In casi come questi non solo i risultati, ma anche le faccette presenterebbero elementi in lingue diverse. Per esempio, eseguendo la query “Winston Churchill” ci aspettiamo di ottenere documenti in differenti lingue; è pertanto presumibile che tra i luoghi citati compaiano di volta in volta “London”, “Londra”, “Londres”. Sorge dunque il problema di inserire nelle faccette termini correlati che sono tra loro sinonimi. Utilizzando thesauri multilingue è possibile accorpare i vari fuochi in uno solo, visualizzato nella lingua che presenta il maggior numero di occorrenze (piuttosto che in quella del termine correlato, o in quella dell’utilizzatore).

14. Infine, la quarta direttrice seguita riguarda l’annotazione. Un punto fermo del progetto è la scelta di attribuire un ruolo attivo agli utenti, i quali devono poter diventare contributori/catalogatori dei siti indicizzati dal motore di ricerca. Come abbiamo visto, accanto a ciascun item nella pagina dei risultati è previsto un pulsante (“Tags”), mediante il quale associare un’etichetta a quella risorsa. Ciascun utente registrato dovrebbe poter aggiungere tags a qualsiasi documento (utilizzando un tool sviluppato appositamente, o mediante l’integrazione di piattaforme di social tagging esistenti, come CiteULike[12]). Ciò consentirebbe anche di migliorare il ranking: il fatto che un sito sia stato ‘taggato’ molte volte significa che gli utenti lo considerano importante, pertanto questo dato può essere integrato come parametro nell’algoritmo di ricerca di Lucene. In generale, l’obiettivo che ci poniamo è far sì che chiunque sia autore di un articolo, abbia pubblicato una fonte, o abbia dato qualche altro tipo di contributo scientifico si registri e aggiunga dei contrassegni al proprio articolo o sito web. Nella scelta dei tags, gli utenti verranno assistiti da un sistema che segnala quali sono già stati assegnati a quella risorsa da altri utenti e suggerisce i termini semanticamente più appropriati[13]. Il ruolo degli utenti sarà importante anche nel segnalare nuove risorse, che saranno sfuggite nella fase iniziale di popolamento dell’archivio o saranno state rese disponibili successivamente. La validazione verrà attuata facendo ricorso a un sistema collaborativo: i nuovi siti candidati a far parte dell’indice resteranno in un’area pubblica per un certo periodo e, se otterranno un giudizio positivo da parte della community degli utenti registrati, verranno in seguito aggiunti all’archivio del motore di ricerca. Anche questa, come altre opzioni, verrà comunque sottoposta a ulteriori verifiche e riflessioni.
Il percorso di ricerca e di sperimentazione qui descritto, attuato mediante lo strumento innovativo dello spin-off, si è dispiegato su un terreno vasto e ha sottoposto a vaglio critico molte ipotesi, pur nei limiti precedentemente chiariti. Nell’attuazione del progetto sono state coinvolte e valorizzate competenze diverse e complementari, premiando così la scelta di adottare un approccio di carattere interdisciplinare.
Muovendo da queste premesse si potrà giudicare la validità del progetto RepubLit, la cui ragion d’essere – lo ribadiamo – consiste nel realizzare strumenti pensati da ricercatori per un’utenza di ricercatori.

Note

[1] F. Chiocchetti, «Search Wars. Per una storia dei motori di ricerca e del loro utilizzo in ambito storiografico», Cromohs, 13 (2008): 1-16, <http://www.cromohs.unifi.it/13_2008/chiocchetti_search.html> (v. paragrafo 16).

[2] Nei mesi precedenti all’avvio del progetto, Federico Meschini della De Montfort University e Salvatore Vassallo dell’Università di Udine hanno fornito a loro volta importanti contributi alla discussione preliminare. Marcello Sarino e gli altri componenti dell’Ufficio Ricerca e Relazioni internazionali dell’Università del Piemonte Orientale hanno assicurato con la loro competenza il positivo esito dell’iter amministrativo.

[3] OAI <http://www.openarchives.org/>.

[4] DOAJ <http://www.doaj.org/>.

[5] Per ulteriori informazioni sulla classificazione a faccette, ideata da S. Ranganathan, cfr. C. Gnoli, V. Marino, L. Rosati, Organizzare la conoscenza. Dalle biblioteche all’architettura dell’informazione per il web, Milano, Tecniche Nuove, 2006.

[6] SIGIR 2006 Workshop on Faceted Search, Aug 10, 2006, Seattle, <http://sites.google.com/site/facetedsearch/>.

[7] DBpedia “is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against Wikipedia, and to link other data sets on the Web to Wikipedia data”: <http://dbpedia.org/>. Dopo l’acquisizione, nel 2010, di Metaweb, proprietario di DBpedia, da parte di Google, la società di Mountain View ha dichiarato che l’accesso alla banca dati resterà gratuito.

[8] GeoNames <http://www.geonames.org/>.
[9] LCSH <http://classificationweb.net/>.

[10] Del.icio.us <http://www.delicious.com/>.

[11] Apache Lucene <http://lucene.apache.org/>.

[12] CiteULike <http://www.citeulike.org/>.

[13] Tra le iniziative dalle finalità analoghe segnaliamo ZigTag <http://zigtag.com/>, Tagaroo <http://tagaroo.opencalais.com/>, Zemanta <http://www.zemanta.com/>.