Search Wars. Per una storia dei motori di ricerca e del loro utilizzo in ambito storiografico[*]

Filippo Chiocchetti
Università del Piemonte Orientale “Amedeo Avogadro”

1. Nell’esperienza di ogni storico che esplori lo spazio virtuale delle reti vi è un momento imprescindibile, costituito dall’applicazione di uno strumento peculiare del Web – i motori di ricerca – all’oggetto della sua indagine – la storia. Capovolgendo l’ordine dei termini di questo binomio, le riflessioni seguenti prendono le mosse dalla storia dei motori di ricerca. Tali strumenti – o bussole, come ebbi modo di definirle proprio in questa sede[1] – sono ausili indispensabili per orientarsi in uno spazio, quello di Internet, per il quale la metafora della navigazione, coniata agli inizi della rete, si è rivelata duratura e tutto sommato efficace. I motori di ricerca incarnano un’esigenza di ordinamento e, al limite, di razionalità, in una struttura, quella ipertestuale, che vede la sua cifra costitutiva nell’assenza di un ordine prestabilito. A tale esigenza viene oggi associato un nome ben preciso: Google. Le dimensioni di questo gigante sono talmente cresciute e il suo ruolo si è fatto così pervasivo da evocare scenari orwelliani, suscitando accuse molto concrete, che in un settore così nevralgico qual è quello dell’informazione non possono non risultare particolarmente inquietanti. Non insisto su questo genere di considerazioni che ci porterebbe lontano dal tema tracciato: basti averle evocate, come sfondo su cui si staglia la mia analisi.
I più remoti precursori di Google appartengono all’era pre-telematica. Senza scomodare Vannevar Bush e il suo MemEx (futuristico strumento per l’archiviazione e la ricerca di documenti, descritto in un articolo pubblicato nel 1945)[2], il visionario Project Xanadu di Ted Nelson, risalente agli anni ‘60[3], o l’opera più concreta di Gerald Salton (1927-1995), pioniere dell’information retrieval[4], è però solo dalla metà degli anni ‘90 che, con la piena esplosione del World Wide Web, i motori di ricerca compaiono e diventano immediatamente protagonisti dello sviluppo della rete.
Com’è noto, Internet è l’evoluzione di un progetto, ARPAnet, nato in ambito militare e successivamente destinato a scopi civili, quando l’infrastruttura – i nodi della futura Internet – venne ceduta dal Pentagono al sistema universitario americano. Non c’è dunque ragione di stupirsi se proprio in ambito accademico apparvero i primi embrioni dei futuri search engines.
Archie (1991) e Veronica (1992) furono progettati, rispettivamente da Alan Emtage alla McGill University e da Steven Foster e Fred Barrie alla University of Nevada, prima che l’architettura del Web, basata sul linguaggio HTML sviluppato da Tim Berners-Lee al CERN di Ginevra, si diffondesse esponenzialmente, a partire dal 1993. Il primo era basato su FTP, il secondo su Gopher: l’adozione di quest’ultimo standard rappresentava un progresso, in quanto consentiva un collegamento diretto al file recuperato. Archie, invece, stabiliva solo una connessione con il server che ospitava il file: cercare di recuperarlo era poi compito dell’utente.

2. Nel frattempo era nato il World Wide Web e Matthew Gray, del MIT di Boston, chiamò il suo motore di ricerca, appunto, WWW Wanderer. Fu il primo a cercare di indicizzare sistematicamente l’intero contenuto della rete, che intanto cresceva vertiginosamente. Questo obiettivo venne ripreso da Brian Pinkerton alla University of Washington: egli realizzò, nell’aprile del 1994, WebCrawler, il primo motore di ricerca che indicizzava anche il testo, mentre i precedenti si limitavano a cercare una corrispondenza con le parole chiave solo nel nome dei files. Benché ancora rudimentale sotto molti aspetti, esso svolgeva un ruolo importante e venne perciò acquisito l’anno seguente da America On Line per circa un milione di dollari: era la prima applicazione commerciale di un motore di ricerca. Nello stesso 1994, altre innovazioni vennero introdotte da Excite (Stanford) e Lycos (Carnegie Mellon), mentre nel 1996 fu la volta di Inktomi (Berkeley). Internet era ormai utilizzata da un pubblico sempre più vasto, e anche queste iniziative erano destinate a compiere il medesimo percorso.
Per alcuni anni, tra il 1996 e il 1999, il ruolo di principale motore di ricerca fu appannaggio di Altavista. A differenza dei concorrenti, esso nacque, nel dicembre del 1995, nei laboratori di una delle maggiori industrie nel settore dell’hardware, la Digital. Il suo ideatore era un ricercatore francese, Louis Mounier, proveniente dallo Xerox PARC di Palo Alto. Paradossalmente fu proprio l’origine corporate, e non accademica, del progetto a causare ritardi e errori nel suo sviluppo: i vertici aziendali intendevano utilizzarlo come dimostratore della velocità dei propri processori, misconoscendone le potenzialità. Nonostante il grande successo riscontrato tra gli utenti, Altavista non seppe mantenere le posizioni quando apparve Google, sia per errori di strategia industriale sia per la rapida obsolescenza tecnologica rispetto al nuovo concorrente[5].

3. Gli esordi di Google sono simili a quelli di molte delle vicende fin qui descritte: tutto ha inizio nel 1996, quando Sergey Brin e Larry Page, due studenti di dottorato a Stanford, cominciano a lavorare al progetto di un nuovo motore di ricerca, la cui apparizione ufficiale avviene nel 1998. Prende così l’avvio la marcia trionfale di Google, dovuta principalmente alla sua netta superiorità tecnologica.
Questa eccellenza non rappresenta però l’unico fattore decisivo. Il successo di un motore di ricerca si traduce anche nella conquista di una più vasta quota del mercato della pubblicità online, da cui questo tipo di imprese dipende. Da tale punto di vista, la società di Mountain View ha evitato di commettere quegli errori strategici che si sono rivelati fatali per molti altri concorrenti, tra cui Altavista. Uno dei più gravi è stata la scelta di includere solo dietro pagamento i siti web nel proprio indice, seguita da quella di vendere agli inserzionisti un posizionamento migliore nel ranking, ossia tra le prime voci nella pagina dei risultati: ciò ha comportato una netta perdita di credibilità nei confronti dell’utenza. Google ha saputo invece mantenere separati i risultati della ricerca dallo spazio pubblicitario, conquistando agli occhi del pubblico una fama, meritata, di maggior credibilità.
Già a partire dal 1997, intanto, all’accresciuta popolarità del World Wide Web faceva da riscontro la proliferazione dei “portali”, intesi come punti di orientamento per l’utente, al quale essi fornivano tutti i contenuti che apparentemente dovevano soddisfare le esigenze della sua esperienza online. Anche i motori di ricerca si inseriscono nel confronto che si sviluppa sulle caratteristiche dei nuovi media online: un dibattito riassunto nella contrapposizione push/pull. I due termini identificavano le due diverse modalità con cui l’utente si rapportava alle informazioni disponibili in rete: reagendo al flusso indirizzato verso di lui (push), o cercandole autonomamente (pull). La logica “push” sembrò a un certo punto prevalere. Le società che avevano ideato i primi motori di ricerca scelsero di puntare su quella strada, che pareva condurre al successivo stadio evolutivo della rete, trascurando il miglioramento delle tecnologie del search per investire sulle funzioni tipiche dei portali. Google – che ha dettato e imposto anche un nuovo stile visivo, con la sua interfaccia grafica sobria e minimale – rifiutò invece decisamente la trasformazione in portale, vincendo una scommessa che i concorrenti non avevano compreso. Lycos e Excite sono sostanzialmente scomparsi; lo stesso è avvenuto ad Altavista, che era rimasto l’unico serio rivale di Google, quando anch’esso ha seguito quella strategia, rivelatasi un errore fatale.
L’improvvisazione con la quale molti operatori si sono proposti come editori di portali, la conseguente strenua concorrenza, e infine lo scoppio della “dot com bubble”, nel 2000, hanno decretato la scomparsa della maggior parte dei portali stessi. Tuttavia anche un’altra chiave di lettura, a mio avviso più pregnante, può essere impiegata per spiegarne il ridimensionamento: nel suo complesso, l’immensa comunità degli utenti della rete ha preferito optare, avendone la possibilità, per uno strumento che le consentisse di esplorare il Web all’insegna della massima libertà di scelta e di interconnessione. Internet ha fatto crescere un pubblico più “maturo”, meno disposto a lasciare ad altri la definizione delle gerarchie di rilevanza dei contenuti da esplorare[6].

4. Attualmente, il primato di Google è fuori discussione anche e soprattutto dal punto di vista tecnologico. Cerchiamo di illustrarne le cause, senza ricorrere a tecnicismi tediosi. Lo sviluppo di Internet ha determinato l’esigenza di gestire volumi di informazione sempre maggiori, rendendo indispensabile l’adozione di strumenti quali i search engines. Le tecniche di information retrieval che essi adottano sono basate su funzioni matematiche complesse, gli algoritmi di ricerca, progettati per individuare la presenza di alcune parole chiave, selezionate dall’utente, e ordinare le pagine web così recuperate in base a determinati criteri. Tra questi ultimi il più importante è la link popularity: maggiore è il numero dei link che puntano a una pagina, migliore sarà la posizione di quella pagina nei risultati delle ricerche. Il ragionamento è semplice: la presenza di un link esterno implica un giudizio positivo nei confronti del sito che viene, come si suol dire, “linkato”. Introducendo l’algoritmo noto come PageRank, Google ha perfezionato questo meccanismo, svincolandolo dal criterio puramente quantitativo e assegnando ai link un “peso”, un’importanza diversa a seconda della provenienza. Ogni pagina indicizzata da Google ha un valore di PageRank compreso tra zero e dieci. Esso viene determinato in base ai link ricevuti, tenendo conto sia della quantità di link (come fanno gli altri motori di ricerca), sia del valore di PageRank di chi offre il link. Un sito che riceve pochissimi link, provenienti però da pagine con PageRank alto (che quindi Google considera “importanti”), avrà un ranking migliore rispetto a siti citati più spesso ma da fonti meno autorevoli (sempre secondo Google). È importante notare che ciò è ottenuto in modo completamente automatico, senza interventi umani, secondo una filosofia che Google segue strettamente. Ottenere da strumenti automatici delle valutazioni di autorevolezza e rilevanza, tradizionalmente considerate appannaggio esclusivo di redazioni umane: è questa la scommessa – difficile – che i progettisti dei search engines devono affrontare.

5. Lo sviluppo dei motori di ricerca, fin qui delineato, è avvenuto contemporaneamente a quello delle directories. Come ogni altra configurazione della conoscenza, anche il contenuto del Web può essere organizzato in categorie, mediante le quali renderlo fruibile all’interno di un percorso esplorativo in cui i collegamenti prendono la forma di link ipertestuali. Tra le varie tipologie di classificazione, le prime ad essere utilizzate in rete sono state varianti di quelle che i biblioteconomi definiscono gerarchico-enumerative, la più nota delle quali è la Classificazione Decimale Dewey.
Questa metodologia è di fatto alla base di un altro progetto, nato nella fase aurorale di Internet e trasformatosi fino a diventarne uno dei maggiori protagonisti. Ancora una volta, una università statunitense è il fonte battesimale di una iniziativa destinata poi ad assumere dimensioni di assoluto rilievo: nel febbraio del 1994 due studenti di Stanford, David Filo e Jerry Yang, cominciano a organizzare in categorie gli elenchi dei loro siti web preferiti. Nei mesi successivi il successo del loro repertorio tra i navigatori è tale che viene lanciato sul mercato: nasce così Yahoo!.
Finché il numero complessivo delle pagine web rimase gestibile, nei primi anni di Internet, questo sistema poté funzionare. Fu la stessa crescita di Internet a rendere obsoleto e impraticabile il modello delle directories generali come unico mezzo di esplorazione della rete: l’aggiornamento e la gestione degli elenchi di siti web, selezionati, per ciascuna categoria, da parte di redazioni umane, richiedeva ormai un investimento sproporzionato, in termini di tempo e di costi. D’altro canto gli stessi motori di ricerca, come abbiamo visto, cercano di emulare il meccanismo di valutazione che sta alla base delle directories: i link ad altri siti vengono considerati essenzialmente come giudizi su quei siti, analogamente a quanto avverrebbe con l’inclusione in un repertorio effettuata da un redattore con una scelta editoriale.

6. In anni più recenti, la competizione tra le imprese del settore è divenuta fortissima. Google si è trovato ad esercitare, per le ragioni fin qui esposte, un monopolio di fatto. Yahoo! ha dovuto a sua volta superare il concetto di directory e integrare nel proprio ambiente le funzioni di ricerca, rivolgendosi a fornitori esterni. Per un certo periodo ha utilizzato il servizio di ricerca dello stesso Google; poi, nel 2004, dopo aver comprato diverse compagnie attive nel settore (Inktomi, Altavista, Alltheweb), Yahoo! ha messo a punto una propria tecnologia di ricerca, portando la sfida direttamente sul terreno dei motori di ricerca, percepito ormai come cruciale. Microsoft ha fatto lo stesso nel 2005 con MSN Search, l’anno seguente ribattezzato Live Search.
Ne è scaturita la cosiddetta Search War, la “guerra dei motori”, il cui esito è stata una riorganizzazione del panorama industriale che appare consolidata, almeno nell’immediato. I dati disponibili, pubblicati mensilmente dalla società di consulenza Nielsen Online, sono eloquenti, e benché siano relativi al solo mercato statunitense possono essere estesi, con qualche approssimazione, a livello globale. Più del 90% delle ricerche effettuate nel gennaio 2009 negli Stati Uniti è attualmente ripartito tra questi tre soggetti: Google detiene una quota pari al 62,8%, mentre Yahoo! e Microsoft si collocano rispettivamente al 16,2% e all’11,2%. Il quarto posto è occupato da AOL e il quinto da Ask, che insieme servono il 5,9% del totale delle queries eseguite; tutti gli altri motori di ricerca esistenti si dividono il restante 4%[7].

7. La situazione non è però cristallizzata – tutt’altro. I principali soggetti protagonisti di questo scenario si muovono verso nuove direzioni. Tra queste, una delle più significative è la ricerca verticale. News, blogs, video, foto, bookmarks, mappe, shopping: vi sono motori di ricerca dedicati per ciascuna di queste sfaccettature dell’esperienza digitale di milioni di utenti.
Mi soffermo rapidamente sull’esempio forse più significativo: l’operazione di digitalizzazione di milioni di libri conservati da alcune importanti biblioteche pubbliche[8]. Questo nuovo terreno di confronto vede contrapposte due iniziative: da una parte Google Book Search[9], dall’altra Open Content Alliance (OCA)[10], un consorzio che coinvolge enti non-profit come Internet Archive e società come Yahoo! e Microsoft. Le filosofie adottate sono divergenti. Google ha siglato accordi con alcune delle maggiori biblioteche pubbliche statunitensi, dando così inizio alla più imponente opera di scansione mai attuata finora. L’approccio di Google ha suscitato forti proteste relative a presunte violazioni del diritto d’autore, dal momento che una parte consistente dei libri digitalizzati era coperta da copyright. Per questa ragione Google è stato costretto ad affrontare una lunga battaglia legale, iniziata nel 2004 e conclusasi (momentaneamente) con lo storico accordo del 28 ottobre 2008, tra la Association of American Publishers (AAP) e la Authors Guild da una parte e Google dall’altra[11]. Rispetto all’impostazione di Google, quella di Open Content Alliance si differenzia sui punti più controversi: i libri vengono digitalizzati solo dopo il preventivo ed esplicito consenso degli editori, e l’informazione codificata sarà disponibile online per tutti e accessibile da qualsiasi motore di ricerca.
L’operazione di indicizzazione dell’intera conoscenza (sia essa disponibile in rete, oppure al di fuori della rete, cioè indipendentemente dal supporto), che è il vero obiettivo di questi soggetti, si muove dunque su un terreno che si fa via via sempre più scivoloso, dovendosi confrontare con un coacervo di interessi, in primo luogo economici, per nulla virtuali.

8. L’evoluzione degli strumenti di ricerca rispecchia quella dell’universo digitale nella sua globalità, ma anche di quella porzione di esso che è oggetto specifico del nostro interesse, in quanto storici o, più in generale, cultori delle discipline umanistiche.
Fin dagli esordi di Internet, repertori, guide, elenchi di siti web redatti su base disciplinare sono stati largamente adoperati dagli studiosi. Gli stessi fondatori di Yahoo! non fecero che ripercorrere le orme tracciate alcuni anni prima da Tim Berners-Lee. Mi riferisco alla WWW-Virtual Library, fondata dallo scienziato britannico nel 1991. «La sua intenzione era quella di creare una struttura aperta, e da questo punto di vista la Virtual Library è veramente una metafora di Internet e dei presupposti democratici e libertari su cui sorse e si sviluppò nella sua stagione iniziale»[12]. Essa è formata da una rete di repertori autonomi, organizzati all’interno di una struttura federativa. La sezione History è una delle più antiche: venne fondata nel 1993 da Lynn H. Nelson, professore di storia medievale all’Università del Kansas, uno dei pionieri della storia online, che ha passato il testimone, dall’aprile del 2004, a Serge Noiret e all’Istituto Universitario Europeo di Firenze.
Sulla scia di quell’archetipo, gli esempi di directories si sono moltiplicati e tuttora rappresentano punti di riferimento essenziali. Grazie a gruppi di esperti che coprono diverse aree, le discipline storiche sono ben rappresentate, per esempio, nella sezione Arts & Humanities del grande repertorio britannico Intute[13], le cui esaurienti schede, compilate per ciascuna risorsa segnalata, sono redatte prevalentemente in ambito bibliotecario, al pari di Infomine[14] o del Librarians’ Internet Index[15]. La Rassegna degli Strumenti Informatici per lo Studio dell’Antichità Classica, a cura di Alessandro Cristofori, è ormai forse l’ultimo esempio di iniziativa avviata e condotta da un singolo studioso, seppur recentemente coadiuvato da una équipe di collaboratori[16]. Tuttora strumento imprescindibile di consultazione e orientamento per gli studiosi di antichistica, manifesta una tendenza a un meno frequente aggiornamento. Analogamente in Francia l’Album des sciences sociales[17] (su cui torneremo più avanti) è tuttora consultabile online ma la redazione di Revues.org, che ha concepito e gestito questo repertorio, ha deciso di sospenderne gli aggiornamenti a partire dal gennaio del 2008, per orientarsi verso altri progetti, tra cui una piattaforma per l’edizione elettronica di fonti[18]. Si tratta di segnali che testimoniano di una crescente difficoltà a sostenere l’impegno derivante dalla gestione di questi strumenti, suscitando nel contempo aspettative per l’adozione di modalità alternative.

9. Parallelamente ai repertori, l’attività di individuazione e valorizzazione delle risorse in ambito umanistico si è sviluppata anche in un’altra direzione: quella dei motori di ricerca tematici, o verticali. Nel contesto accademico è stato usato per un certo periodo il termine LASE. L’acronimo significa “Limited Area Search Engine” e indica un motore di ricerca il cui dominio non è l’intero Web ma una sua porzione, delimitata sulla base di criteri di rilevanza scientifica. In tal modo si evita che sia l’utente a doversi sobbarcare l’operazione di selezionare, tra i risultati, quelli realmente utili, scartando quelli non pertinenti. Gli algoritmi precedentemente descritti, come il PageRank, sono infatti lontani dall’aver raggiunto una piena funzionalità: per questo non è improbabile trovare, anche tra i risultati di Google, siti amatoriali che precedono pubblicazioni scientifiche.
Già nel 1996 – dunque prima dello stesso Google – venne lanciato il primo motore storiografico, Argos: Limited Area Search of the Ancient and Medieval Internet[19]. Argos era il frutto del lavoro di un’équipe coordinata da Anthony F. Beavers, docente di filosofia all’Università di Evansville. Presso la stessa università dell’Indiana vennero realizzati, nel biennio successivo e sempre sotto la direzione di Beavers, altri due progetti di motori tematici, Hippias[20] e Noesis[21], dedicati alla filosofia, alla cui realizzazione partecipò Peter Suber, divenuto in seguito uno degli esponenti di punta del movimento per l’Open Access[22]. Nel caso di Argos, la selezione dei contenuti veniva gestita in modo collaborativo, grazie all’impegno di un consorzio che riuniva una decina tra i più accreditati siti web dedicati a quello specifico ambito disciplinare. I documenti da indicizzare provenivano in primo luogo dagli stessi siti membri; questi ultimi svolgevano inoltre la funzione di gateways, garantendo l’affidabilità dei link a siti esterni al consorzio, le cui pagine venivano pertanto aggiunte all’indice solo in virtù dell’implicita approvazione dei redattori. La stessa logica sottostava a Hippias: Limited Area Search of Philosophy on the Internet (1997). Come spiega lo stesso Beavers, «These projects were based on the notion that if users could search a carefully selected sub-section of the Internet, search engines could implement a kind of peer review, separating the wheat from the chaff and harnessing the power of the Internet for scholarly purposes»[23].
Noesis: Philosophical Research On-line, la cui prima versione apparve nel 1998, era invece molto diverso dai due predecessori: «Here, links were manually catalogued by individuals who did a preliminary scan for credentialed authorship. [...] Quality was controlled by considering links one at a time or by indexing resources en masse if they were part of a peer-reviewed initiative»[24]. Il procedimento era molto più laborioso, e ciò determinò un arresto del progetto, benché i risultati fossero molto interessanti.

10. Dopo alcuni anni di parziale oblio, Beavers e i suoi collaboratori hanno rilanciato Noesis, sfruttando un’opportunità resasi nel frattempo disponibile[25]. A questo punto occorre aprire una breve parentesi. La vittoria di Google nella “guerra dei motori”, ottenuta imponendo la superiorità della propria tecnologia, ha obbligato i suoi concorrenti a cercare strade nuove. Una delle soluzioni tentate è l’offerta di motori di ricerca personalizzabili, mediante i quali l’utente finale possa creare un proprio indice, al cui interno effettuare le ricerche utilizzando gli strumenti informatici (algoritmi) messi a disposizione gratuitamente dai search engines. Si tratta di una modalità apparentemente ideale per realizzare dei motori di ricerca tematici. Yahoo! ha anticipato tutti su questo terreno, lanciando il suo prodotto Yahoo! BOSS[26]. Google per una volta si è ritrovato a inseguire, e ha risposto con il suo Google Custom Search Engine (ottobre 2006), che ha riscosso notevole successo. Uno dei più completi e meglio organizzati tra i motori tematici basati su Google CSE è appunto Noesis 4.0, la nuova versione del motore di ricerca sulla filosofia, online dal 24 dicembre 2006.
Stabilità e robustezza sono garantite dalla nuova architettura informatica, mentre il lavoro di selezione compiuto dalla redazione consente di effettuare ricerche su risorse provenienti dall’ambito accademico, offrendo la possibilità di articolare i risultati in sottoinsiemi tematici.
Il progetto sta attraversando una fase di intenso sviluppo, anche mediante la collaborazione con la vicina Università dell’Indiana, dove è stato elaborato il progetto InPHO: The Indiana Philosophy Ontology Project. L’integrazione tra queste due iniziative che condividono lo stesso ambito disciplinare appare uno sbocco naturale ed è molto promettente.

11. Altri progetti continuano invece a sviluppare internamente anche la parte strettamente informatica, mantenendo il controllo sull’intero processo. Così, a partire dall’ottobre del 2006, il sito francese Revues.org ha messo a disposizione dei suoi utenti In-extenso, un ottimo esempio di motore tematico[27]. Il suo orizzonte è lo spazio francofono delle scienze umane e sociali: si basa sul citato Album des sciences sociales, dunque su un repertorio selezionato di risorse (oltre un milione di pagine web da circa 2.000 siti); e su alcuni archivi elettronici appartenenti alla Open Archives Initiative (OAI)[28], che raccolgono circa 135.000 documenti e articoli. A differenza di altri repertori, come il britannico Intute, che pure dispongono di opzioni di ricerca automatica, quello di Revues.org è un motore di ricerca a tutti gli effetti. Nel caso di Intute si può interrogare un database formato dalle schede descrittive compilate per ciascuna risorsa elettronica inclusa nel repertorio, mentre non è possibile effettuare ricerche sugli eventuali metadati dei siti, e tanto meno sul full-text degli stessi. Tra i motori verticali chiaramente destinati a un’utenza accademica si potrebbero citare diversi interessanti esempi, spesso ma non esclusivamente anglosassoni, che però hanno solo in minima parte attinenza con le materie umanistiche[29]. La prevalenza delle hard sciences va ricollegata al più precoce sfruttamento della rete da parte dei loro cultori[30], d’altronde oggettivamente facilitati da una maggiore familiarità con il mondo del software e dei computer, se non da un intrinseco legame che unisce questi ultimi alle scienze esatte.

12. In questo ambito il cartaceo è stato abbandonato quasi completamente: i ricercatori, per i quali la velocità e l’ampiezza della diffusione dei propri lavori sono essenziali, usano la rete per far circolare, prima ancora della pubblicazione, i loro papers tra la comunità scientifica. Rispetto a tale quadro, le pubblicazioni digitali in campo umanistico scontano una serie di specificità che rendono problematica l’individuazione delle risorse e la definizione stessa di ciò che è “risorsa”. Si consideri non solo la differenza tra fonti primarie e letteratura secondaria, peculiare delle discipline umanistiche, ma anche la possibilità, tipica di un prodotto telematico, di essere più cose contemporaneamente – sito istituzionale, vetrina per progetti di ricerca, spazio di discussione, collezione di fonti, rivista specializzata, o altro ancora – sfumando le distinzioni consolidate nell’editoria tradizionale. Tali fattori rendono più complessa sia la classificazione manuale delle risorse, sia l’adozione di metodologie per la classificazione automatica, che è essenziale per un efficace information retrieval.
Se per queste ragioni è importante descrivere correttamente una risorsa, è altrettanto importante individuare a chi è destinata. L’utenza appare infatti stratificata: da una parte il pubblico generale, dall’altra gli studiosi avanzati, e in mezzo una platea composta da insegnanti, studenti universitari, persone colte. Senza affrontare in questa sede il tema della valutazione della qualità delle pubblicazioni elettroniche, va detto che il ricercatore professionale ha bisogno di risorse selezionate in base a criteri specifici. La provenienza, normalmente di origine accademica, deve garantire una qualità non inferiore a quella di pubblicazioni cartacee dalle caratteristiche analoghe. I punti di riferimento sono le banche dati editoriali o le riviste in formato elettronico, accessibili direttamente o tramite i cosiddetti aggregatori. A queste si affiancano risorse accessibili gratuitamente, che includono tanto riviste scientifiche aventi le stesse caratteristiche di quelle cartacee (ISSN, comitato editoriale, utilizzo di procedure di peer reviewing), quanto iniziative di digitalizzazione di fonti, promosse da varie agenzie (archivi nazionali, università e gruppi di studiosi) e a volte attuate anche individualmente, tramite la modalità del self-archiving nei repositories istituzionali connessi alla Open Archives Initiative[31]. Non di rado, con gli strumenti esistenti, questa galassia di risorse rimane tuttora inaccessibile o poco sfruttata.

13. Mettiamo ora un punto fermo. Ciò che emerge da questa analisi è l’esistenza di una duplice tensione, alla quale sono riconducibili le dinamiche in atto tanto nella dimensione generale della gestione delle informazioni digitali, quanto nella sua dimensione specifica che si sviluppa nel mondo della ricerca universitaria. Sintetizzando e semplificando al massimo, potremmo utilizzare la formula directories vs search engines.
Da un lato, la preferenza è accordata alla selezione e all’organizzazione dei documenti in categorie: questo approccio asseconda una modalità di esplorazione del Web, il browsing, in cui l’utente si muove da una pagina all’altra seguendo link impostati da un autore/redattore. Lo scopo è disegnare le coordinate mediante le quali ricavare, dall’ambito più generale di Internet, un ambito, quantitativamente e qualitativamente circoscritto, di risorse ordinate per argomento. Di questo approccio, Intute è senz’altro l’esempio più vitale.
Dall’altro lato, abbiamo la potenza di calcolo dei motori di ricerca e la loro capacità di trattare una vastissima mole di dati: su tali premesse si fonda l’altra modalità di esplorazione del Web, il searching, in cui l’utente ha una maggiore libertà di creare i propri percorsi ipertestuali (almeno per quanto riguarda i primi nodi) rispetto al precedente, compensata però dalla carenza di punti di riferimento. Nel caso delle risorse storiografiche, i limiti di strumenti quali Google emergono nettamente. In particolare, diventa in questo caso più urgente il problema della selezione/validazione delle risorse, che come abbiamo visto è stato ed è il filo conduttore delle esperienze tentate con i motori tematici.
La novità che emerge dalle attuali linee di tendenza è che i due percorsi (validazione/ricerca automatica) paiono potersi finalmente incrociare, trovando una strada comune. Tali prospettive sembrano ora in grado di uscire dallo spazio esoterico, per addetti ai lavori, dentro al quale erano confinate: idee – o slogan – come Web 2.0[32] sono nel frattempo diventate realtà, con l’esplosione della “blogosfera”, la nascita di siti come YouTube o Wikipedia, la più recente crescita dei social networks come Facebook – tutti protagonisti di questa “seconda ondata” di Internet.

14. Un’altra esperienza che rientra a pieno titolo in quest’ambito è la cosiddetta folksonomy, termine formato dall’unione delle parole inglesi folk e taxonomy. Sono ormai numerosi e molto popolari i siti che offrono all’utente la possibilità di caricare i propri items preferiti (bookmarks, in primo luogo, ma in generale qualsiasi oggetto digitale: foto, video ecc.), classificandoli con parole chiave, definite tags, ossia etichette, in modo da poterli ricercare per argomento e condividerli con altri. È facile intuire come una simile massa di informazioni generate dagli utenti, una volta riversata nell’infrastruttura di un motore di ricerca possa contribuire a modificarlo profondamente: la catalogazione umana può in questo modo completare e bilanciare il peso degli algoritmi matematici. Più che di un auspicio, si tratta di un processo già avviato[33]. Gli ostacoli da superare per rendere pienamente efficace questa strategia di catalogazione sono molteplici. Il primo, evidentemente, è di natura linguistica: in assenza di criteri metodologicamente fondati, l’assegnazione di tags in modo arbitrario e spesso casuale non produce una vera classificazione, la quale può essere soltanto il frutto di una autentica competenza. Il mondo della ricerca, tuttavia, non è rimasto estraneo a questi sviluppi: al contrario, si sono notevolmente diffusi alcuni servizi progettati per i ricercatori, che consentono appunto il tagging di articoli e altro materiale online[34].

15. Un altro tipo di catalogazione che si presta ad essere utilizzata con particolare successo sul Web è la classificazione analitico-sintetica, o multidimensionale, generalmente conosciuta come classificazione a faccette[35]. Essa prevede che ciascun documento sia descritto secondo vari punti di vista, o sfaccettature, differenziandosi in questo dalla monodimensionalità delle classificazioni gerarchiche. Flamenco, un progetto sviluppato presso la University of California - Berkeley, è l’esempio più noto di motore di ricerca basato su questa metodologia: l’interfaccia adottata rende visibile all’utente la struttura interna della banca dati[36]. Nel case study rappresentato dalle collezioni del Fine Arts Museums of San Francisco, i documenti sono classificati utilizzando metadati descrittivi appositamente definiti (tipologia dell’opera, materiale, colore, luogo, artista ecc.). Ciò consente di focalizzare opportunamente l’argomento desiderato, espandendo o restringendo i risultati restituiti dalla query iniziale: browsing e searching vengono così sapientemente intrecciati. Alle spalle di progetti come questo vi sono dei thesauri disciplinari, quando non la compilazione di tassonomie o di vere e proprie ontologie: strumenti, questi ultimi, su cui si fonda il cosiddetto web semantico, teorizzato dallo stesso Tim Berners-Lee e considerato il prossimo stadio dell’evoluzione della rete[37]. Gli attuali motori di ricerca cercano nel testo solo le occorrenze delle parole usate per formulare le queries, senza alcun “tentativo” di comprenderne il significato. Superare una ricerca per parole chiave e approdare a una ricerca per contenuti: è questa la prospettiva del web semantico. Si tratta, appunto, di una prospettiva, sulla quale si ragiona da diversi anni; l’approdo è tuttora lontano benché l’obiettivo sia largamente condiviso.

16. Ciò che mi pare emergere da questa rassegna di esperienze acquisite e di tendenze innovative è che le risorse storiche – e, in generale, umanistiche – accessibili in formato elettronico necessitino di nuovi strumenti in grado di indirizzare ad esse gli studiosi. La risposta può essere trovata nella costruzione di strumenti di ricerca automatici, fondati però su una selezione delle fonti garantita dall’autorevolezza di una redazione umana. In attesa del web semantico – forse utopia regolativa più che traguardo concreto –, la classica ricerca per parole chiave dovrà essere migliorata attraverso tecniche di estrazione dei contenuti (text mining), dando altresì all’utente la possibilità di dispiegare e riorganizzare in modo trasparente i risultati delle sue interrogazioni.
Questa è la sfida che oggi ci attende, e che – sulla scorta dei notevoli mutamenti, non solo tecnologici, che compaiono all’orizzonte del Web – può far tornare d’attualità i principi ispiratori adottati dai primi motori tematici, aprendo spazi per nuove iniziative. L’evoluzione della rete sembra assecondare positivamente tale percorso: il senso di questo intervento risiede nella convinzione che gli storici debbano essere parte attiva nella definizione di un paradigma più avanzato. È per questa ragione che chi scrive ha assunto l’incarico di coordinare un progetto – nato nel 2006 sotto la direzione di Guido Abbattista e dal 2007 inquadrato in un assegno di ricerca presso l’Università del Piemonte Orientale – il cui obiettivo è la realizzazione di un siffatto strumento: un unico punto d’accesso alle risorse online, posto al servizio della comunità degli studiosi delle discipline umanistiche.

Note

[*] Una prima versione di questo lavoro è stata presentata, con il titolo «Basi di dati e strumenti di interrogazione: i motori di ricerca nell’ambito storico-umanistico», al convegno L’informatica e i diversi periodi storici. Scritture, fonti e basi di dati: confronti e specificità, organizzato da École française de Rome, Università di Firenze, Istituto Universitario Europeo, Firenze, 26-28 aprile 2007. I collegamenti ipertestuali citati sono aggiornati al 15 febbraio 2009.

[1] F. Chiocchetti, «Le guide alle risorse storiche online: una rassegna critica», Cromohs, 7 (2002): 1-22, <http://www.cromohs.unifi.it/7_2002/chiocchetti.html>.

[2] V. Bush, «As We May Think», The Atlantic Monthly, July 1945, <http://www.theatlantic.com/doc/194507/bush>.

[3] T. Nelson, Literary machines 90.1, Padova, Muzzio, 1992.

[4] G. Salton, A theory of indexing, Philadelphia, Society for Industrial and Applied Mathematics, 1975.

[5] Cfr. J. Battelle, The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture, London, Portfolio, 2005, Chapter 2: «Search before Google», pp. 39-63.

[6] Cfr. M. Calvo, F. Ciotti, G. Roncaglia, M. Zela, Internet 2004. Manuale per l’uso della rete, Roma-Bari, Laterza, 2004, disponibile online all’indirizzo <http://www.marcocalvo.it/libri/internet/index.htm>, in particolare il paragrafo «La retorica dei portali», pp. 253-255.

[7] Fonte: Nielsen Online, Top U.S. Online Search Providers: January 2009, February 11, 2009, <http://blog.nielsen.com/nielsenwire/online_mobile/top-us-online-search-providers-january-2009>.

[8] Per un ampio resoconto su questo argomento cfr. G. Roncaglia, «I progetti internazionali di digitalizzazione bibliotecaria: un panorama in evoluzione», DigItalia, 1, giugno 2006, pp. 11-30, <http://digitalia.sbn.it/upload/documenti/digitalia20061_RONCAGLIA.pdf>.

[9] <http://books.google.com/>.

[10] <http://www.opencontentalliance.org/>.

[11] Su tale accordo, noto come Google Book Search Settlement, dovrà pronunciarsi la Corte del Distretto di New York. L’esito della causa avrà conseguenze di enorme portata: ovviamente il dibattito pubblico è nettamente polarizzato tra favorevoli e contrari. In questa sede mi limito a rimandare al testo dell’accordo, disponibile all’indirizzo <http://www.googlebooksettlement.com/>, e a un documento, datato 13 novembre 2008 e redatto a cura della Association of Research Libraries (ARL), che illustra in termini oggettivi la questione: «A Guide for the Perplexed: Libraries & the Google Library Project Settlement», disponibile all’indirizzo <http://www.arl.org/pp/ppcopyright/google/index.shtml>.

[12] F. Chiocchetti, «Sentieri telematici. Il “WWW Virtual Library History Central Catalogue”», Contemporanea, n. 1, gennaio 2006, p. 209. Stefano Vitali, a proposito di questa fase aurorale del Web, ha citato l’espressione “ideologia californiana”: S. Vitali, Passato Digitale: le fonti dello storico nell’era del computer, Milano, B. Mondadori, 2004, p. 113, nota 6.

[13] <http://www.intute.ac.uk/>.

[14] <http://infomine.ucr.edu/>.

[15] <http://lii.org/>.

[16] <http://www.rassegna.unibo.it/>.

[17] <http://album.revues.org/>.

[18] Hypothèses: plate-forme de carnets de recherche en sciences humaines et sociales, <http://hypotheses.org/>.

[19] <http://argos.evansville.edu/>.

[20] <http://hippias.evansville.edu/>.

[21] <http://noesis.evansville.edu/>.

[22] P. Suber, Open Access News, <http://www.earlham.edu/~peters/fos/fosblog.html>.

[23] A. F. Beavers, Noesis: Philosophical Research Online. Project Narrative, <http://noesis.evansville.edu/reference/narrative.pdf>.

[24] <http://noesis.evansville.edu/about.htm>.

[25] Cfr. in questo stesso numero R. Minuti, «Informazione storica e web: considerazioni su problemi aperti», Cromohs, 13 (2008): 1-14, 6, <http://www.cromohs.unifi.it/13_2008/minuti_infoweb.html>.

[26] L’acronimo BOSS sta per Build your Own Search Service: <http://developer.yahoo.com/search/boss/>. La versione iniziale, lanciata nell’agosto 2006, era denominata Yahoo! Search Builder. Oltre a fornire questo servizio direttamente, Yahoo! ha collaborato con alcune interessanti start-up: si tratta di Rollyo <http://www.rollyo.com/> e di Eurekster <http://www.eurekster.com/>.

[27] <http://www.in-extenso.org/>.

[28] <http://www.openarchives.org/>.

[29] In particolare Scirus <http://www.scirus.com/>, promosso dalla casa editrice scientifica Elsevier.

[30] Tra i vari esempi non si può non citare almeno ArXiv, l’archivio elettronico di preprints fondato dal fisico statunitense Paul Ginsparg nel 1991: <http://arxiv.org/>. Cfr. J.-C. Guédon, «In Oldenburg’s Long Shadow: Librarians, Research Scientists, Publishers, and the Control of Scientific Publishing», in Creating the Digital Future, Association of Research Libraries 138th Annual Meeting, Toronto, Ontario (Canada), May 23-25, 2001, <http://www.arl.org/resources/pubs/mmproceedings/138guedon.shtml>.

[31] Cfr. G. Abbattista e F. Chiocchetti, «La ricerca umanistica e le banche dati testuali», in G. Bandini e P. Bianchini (a cura di), Fare storia in rete. Fonti e modelli di scrittura digitale per la storia dell’educazione, la storia moderna e la storia contemporanea, Roma, Carocci, 2007, pp. 19-31.

[32] Con tale termine, coniato da Tim O’Reilly nel 2005, si vuole indicare un Web sociale e collaborativo, in cui il ruolo degli utenti viene programmaticamente enfatizzato. Cfr. T. O’Reilly, «What is Web 2.0. Design patterns and Business models for the Next Generation of Software», <http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html>.

[33] Nel dicembre 2005 Yahoo! ha portato a termine l’acquisizione del più noto sito di social bookmarking, Del.icio.us <http://del.icio.us>.

[34] I più utilizzati sono Connotea <http://www.connotea.org/>, lanciato dalla casa editrice che pubblica l’autorevole rivista Nature, e CiteULike <http://www.citeulike.org/>.

[35] Cfr. C. Gnoli, V. Marino, L. Rosati, Organizzare la conoscenza. Dalle biblioteche all’architettura dell’informazione per il web, Milano, Tecniche Nuove, 2006.

[36] L’acronimo FLAMENCO sta per FLexible information Access using MEtadata in Novel Combinations, <http://flamenco.berkeley.edu/>.

[37] T. Berners-Lee, J. Hendler, O. Lassila, «The Semantic Web», Scientific American, May 2001, <http://www.sciam.com/article.cfm?id=the-semantic-web>.