1. Nell’esperienza di ogni storico
che esplori lo spazio virtuale delle reti vi è un momento
imprescindibile, costituito dall’applicazione di uno
strumento peculiare
del Web – i motori di ricerca –
all’oggetto della sua indagine
– la storia. Capovolgendo l’ordine dei termini di
questo binomio, le
riflessioni seguenti prendono le mosse dalla storia dei motori di
ricerca. Tali
strumenti – o bussole, come ebbi modo di definirle proprio in
questa
sede[1] – sono ausili indispensabili per orientarsi in uno spazio,
quello di
Internet, per il quale la metafora della navigazione, coniata agli
inizi della
rete, si è rivelata duratura e tutto sommato efficace. I motori di ricerca incarnano
un’esigenza di
ordinamento e, al limite, di razionalità, in una struttura,
quella
ipertestuale, che vede la sua cifra costitutiva nell’assenza
di un ordine
prestabilito. A tale esigenza viene oggi associato un nome ben preciso: Google. Le
dimensioni di questo
gigante sono talmente cresciute e il suo ruolo si è fatto
così
pervasivo da evocare scenari orwelliani, suscitando accuse molto
concrete, che
in un settore così nevralgico qual è quello
dell’informazione non possono non risultare particolarmente
inquietanti.
Non insisto su questo genere di considerazioni che ci porterebbe
lontano dal
tema tracciato: basti averle evocate, come sfondo su cui si staglia la
mia
analisi.
I più remoti precursori di Google appartengono all’era
pre-telematica. Senza scomodare Vannevar Bush e il suo MemEx (futuristico strumento per
l’archiviazione e la ricerca di documenti, descritto in un
articolo
pubblicato nel
1945)[2],
il visionario Project
Xanadu di Ted
Nelson, risalente agli anni
‘60[3],
o l’opera più concreta di Gerald Salton
(1927-1995), pioniere
dell’information
retrieval[4],
è però solo dalla metà degli anni
‘90 che, con la
piena esplosione del World Wide Web, i motori di ricerca compaiono e
diventano
immediatamente protagonisti dello sviluppo della rete.
Com’è
noto, Internet è l’evoluzione di un progetto,
ARPAnet, nato in
ambito militare e successivamente destinato a scopi civili, quando
l’infrastruttura – i nodi della futura Internet
– venne ceduta
dal Pentagono al sistema universitario americano. Non
c’è dunque
ragione di stupirsi se proprio in ambito accademico apparvero i primi
embrioni
dei futuri search
engines.
Archie (1991) e Veronica (1992) furono progettati,
rispettivamente da Alan Emtage alla McGill University e da Steven
Foster e Fred
Barrie alla University of Nevada, prima che l’architettura
del Web, basata
sul linguaggio HTML sviluppato da Tim Berners-Lee al CERN di Ginevra,
si
diffondesse esponenzialmente, a partire dal 1993. Il primo era basato
su FTP, il
secondo su Gopher: l’adozione di quest’ultimo
standard rappresentava
un progresso, in quanto consentiva un collegamento diretto al file
recuperato. Archie,
invece, stabiliva solo una
connessione con il server che ospitava il file: cercare di recuperarlo
era poi
compito dell’utente.
2. Nel frattempo era nato il World Wide
Web e Matthew Gray, del MIT di Boston, chiamò il suo motore
di ricerca,
appunto, WWW Wanderer.
Fu il primo a
cercare di indicizzare sistematicamente l’intero contenuto
della rete, che
intanto cresceva vertiginosamente. Questo obiettivo venne ripreso da
Brian
Pinkerton alla University of Washington: egli realizzò,
nell’aprile
del 1994, WebCrawler,
il primo motore
di ricerca che indicizzava anche il testo, mentre i precedenti si
limitavano a
cercare una corrispondenza con le parole chiave solo nel nome dei
files.
Benché ancora rudimentale sotto molti aspetti, esso svolgeva
un ruolo
importante e venne perciò acquisito l’anno
seguente da America On Line per circa un milione
di dollari: era la prima applicazione commerciale di un motore di
ricerca. Nello
stesso 1994, altre innovazioni vennero introdotte da Excite (Stanford) e Lycos (Carnegie Mellon), mentre nel
1996 fu la volta di Inktomi (Berkeley). Internet era ormai utilizzata da un pubblico sempre
più
vasto, e anche queste iniziative erano destinate a compiere il medesimo
percorso.
Per alcuni anni, tra il 1996 e il 1999, il ruolo di principale
motore di ricerca fu appannaggio di Altavista.
A differenza dei
concorrenti, esso nacque, nel dicembre del 1995, nei laboratori di una
delle
maggiori industrie nel settore dell’hardware, la Digital. Il
suo ideatore era un
ricercatore francese, Louis Mounier, proveniente dallo Xerox PARC di
Palo Alto.
Paradossalmente fu proprio l’origine corporate,
e non accademica, del
progetto a causare ritardi e errori nel suo sviluppo: i vertici
aziendali
intendevano utilizzarlo come dimostratore della velocità dei
propri
processori, misconoscendone le potenzialità. Nonostante il
grande
successo riscontrato tra gli utenti, Altavista non seppe mantenere le
posizioni quando apparve Google,
sia
per errori di strategia industriale sia per la rapida obsolescenza
tecnologica
rispetto al nuovo
concorrente[5].
3. Gli esordi di Google sono simili a quelli di molte delle vicende fin qui descritte: tutto ha
inizio
nel 1996, quando Sergey Brin e Larry Page, due studenti di dottorato a
Stanford,
cominciano a lavorare al progetto di un nuovo motore di ricerca, la cui
apparizione ufficiale avviene nel 1998. Prende così
l’avvio la
marcia trionfale di Google,
dovuta
principalmente alla sua netta superiorità tecnologica.
Questa
eccellenza non rappresenta però l’unico fattore
decisivo. Il
successo di un motore di ricerca si traduce anche nella conquista di
una
più vasta quota del mercato della pubblicità
online, da cui questo
tipo di imprese dipende. Da tale punto di vista, la società
di Mountain
View ha evitato di commettere quegli errori strategici che si sono
rivelati
fatali per molti altri concorrenti, tra cui Altavista.
Uno dei più gravi
è stata la scelta di includere solo dietro pagamento i siti
web nel
proprio indice, seguita da quella di vendere agli inserzionisti un
posizionamento migliore nel ranking, ossia tra le prime voci nella
pagina dei
risultati: ciò ha comportato una netta perdita di
credibilità nei
confronti dell’utenza. Google ha
saputo invece mantenere separati i risultati della ricerca dallo spazio
pubblicitario, conquistando agli occhi del pubblico una fama, meritata,
di
maggior credibilità.
Già a partire dal 1997, intanto,
all’accresciuta popolarità del World Wide Web
faceva da riscontro
la proliferazione dei “portali”, intesi come punti
di orientamento
per l’utente, al quale essi fornivano tutti i contenuti che
apparentemente
dovevano soddisfare le esigenze della sua esperienza online. Anche i
motori di
ricerca si inseriscono nel confronto che si sviluppa sulle
caratteristiche dei
nuovi media online: un dibattito riassunto nella contrapposizione
push/pull. I
due termini identificavano le due diverse modalità con cui
l’utente
si rapportava alle informazioni disponibili in rete: reagendo al flusso
indirizzato verso di lui (push), o cercandole autonomamente (pull). La
logica
“push” sembrò a un certo punto
prevalere. Le società
che avevano ideato i primi motori di ricerca scelsero di puntare su
quella
strada, che pareva condurre al successivo stadio evolutivo della rete,
trascurando il miglioramento delle tecnologie del search per
investire sulle funzioni
tipiche dei portali. Google – che ha dettato e imposto anche un nuovo stile visivo, con
la sua
interfaccia grafica sobria e minimale – rifiutò
invece decisamente
la trasformazione in portale, vincendo una scommessa che i concorrenti
non
avevano compreso. Lycos e Excite sono sostanzialmente
scomparsi; lo stesso è avvenuto ad Altavista,
che era rimasto
l’unico serio rivale di Google,
quando anch’esso ha seguito quella strategia, rivelatasi un
errore fatale.
L’improvvisazione con la quale molti operatori si sono
proposti come
editori di portali, la conseguente strenua concorrenza, e infine lo
scoppio
della “dot com bubble”, nel 2000, hanno decretato
la scomparsa della
maggior parte dei portali stessi. Tuttavia anche un’altra
chiave di
lettura, a mio avviso più pregnante, può essere
impiegata per
spiegarne il ridimensionamento: nel suo complesso, l’immensa
comunità degli utenti della rete ha preferito optare,
avendone la
possibilità, per uno strumento che le consentisse di
esplorare il Web
all’insegna della massima libertà di scelta e di
interconnessione.
Internet ha fatto crescere un pubblico più
“maturo”, meno
disposto a lasciare ad altri la definizione delle gerarchie di
rilevanza dei
contenuti da
esplorare[6].
4. Attualmente, il primato di Google è fuori discussione anche e soprattutto dal punto di vista tecnologico. Cerchiamo di illustrarne le cause, senza ricorrere a tecnicismi tediosi. Lo sviluppo di Internet ha determinato l’esigenza di gestire volumi di informazione sempre maggiori, rendendo indispensabile l’adozione di strumenti quali i search engines. Le tecniche di information retrieval che essi adottano sono basate su funzioni matematiche complesse, gli algoritmi di ricerca, progettati per individuare la presenza di alcune parole chiave, selezionate dall’utente, e ordinare le pagine web così recuperate in base a determinati criteri. Tra questi ultimi il più importante è la link popularity: maggiore è il numero dei link che puntano a una pagina, migliore sarà la posizione di quella pagina nei risultati delle ricerche. Il ragionamento è semplice: la presenza di un link esterno implica un giudizio positivo nei confronti del sito che viene, come si suol dire, “linkato”. Introducendo l’algoritmo noto come PageRank, Google ha perfezionato questo meccanismo, svincolandolo dal criterio puramente quantitativo e assegnando ai link un “peso”, un’importanza diversa a seconda della provenienza. Ogni pagina indicizzata da Google ha un valore di PageRank compreso tra zero e dieci. Esso viene determinato in base ai link ricevuti, tenendo conto sia della quantità di link (come fanno gli altri motori di ricerca), sia del valore di PageRank di chi offre il link. Un sito che riceve pochissimi link, provenienti però da pagine con PageRank alto (che quindi Google considera “importanti”), avrà un ranking migliore rispetto a siti citati più spesso ma da fonti meno autorevoli (sempre secondo Google). È importante notare che ciò è ottenuto in modo completamente automatico, senza interventi umani, secondo una filosofia che Google segue strettamente. Ottenere da strumenti automatici delle valutazioni di autorevolezza e rilevanza, tradizionalmente considerate appannaggio esclusivo di redazioni umane: è questa la scommessa – difficile – che i progettisti dei search engines devono affrontare.
5. Lo sviluppo dei motori di ricerca, fin qui delineato, è
avvenuto contemporaneamente a quello delle directories.
Come ogni altra
configurazione della conoscenza, anche il contenuto del Web
può essere
organizzato in categorie, mediante le quali renderlo fruibile
all’interno
di un percorso esplorativo in cui i collegamenti prendono la forma di
link
ipertestuali. Tra le varie tipologie di classificazione, le prime ad
essere
utilizzate in rete sono state varianti di quelle che i biblioteconomi
definiscono gerarchico-enumerative, la più nota delle quali
è la
Classificazione Decimale Dewey.
Questa metodologia è di fatto alla
base di un altro progetto, nato nella fase aurorale di Internet e
trasformatosi
fino a diventarne uno dei maggiori protagonisti. Ancora una volta, una
università statunitense è il fonte battesimale di
una iniziativa
destinata poi ad assumere dimensioni di assoluto rilievo: nel febbraio
del 1994
due studenti di Stanford, David Filo e Jerry Yang, cominciano a
organizzare in
categorie gli elenchi dei loro siti web preferiti. Nei mesi successivi
il
successo del loro repertorio tra i navigatori è tale che
viene lanciato
sul mercato: nasce così Yahoo!.
Finché il numero
complessivo delle pagine web rimase gestibile, nei primi anni di
Internet,
questo sistema poté funzionare. Fu la stessa crescita di
Internet a
rendere obsoleto e impraticabile il modello delle directories generali come unico mezzo
di esplorazione della rete: l’aggiornamento e la gestione
degli elenchi di
siti web, selezionati, per ciascuna categoria, da parte di redazioni
umane,
richiedeva ormai un investimento sproporzionato, in termini di tempo e
di costi.
D’altro canto gli stessi motori di ricerca, come abbiamo
visto, cercano di
emulare il meccanismo di valutazione che sta alla base delle directories:
i link ad altri siti
vengono considerati essenzialmente come giudizi su quei siti,
analogamente a
quanto avverrebbe con l’inclusione in un repertorio
effettuata da un
redattore con una scelta editoriale.
6. In anni più recenti,
la competizione tra le imprese del settore è divenuta
fortissima. Google si
è trovato ad
esercitare, per le ragioni fin qui esposte, un monopolio di fatto. Yahoo! ha
dovuto a sua volta superare
il concetto di directory e integrare
nel proprio ambiente le funzioni di ricerca, rivolgendosi a fornitori
esterni.
Per un certo periodo ha utilizzato il servizio di ricerca dello stesso Google;
poi, nel 2004, dopo aver
comprato diverse compagnie attive nel settore
(Inktomi, Altavista, Alltheweb), Yahoo! ha
messo a punto una propria
tecnologia di ricerca, portando la sfida direttamente sul terreno dei
motori di
ricerca, percepito ormai come cruciale. Microsoft ha fatto lo stesso nel 2005
con MSN Search,
l’anno seguente
ribattezzato Live Search.
Ne
è scaturita la cosiddetta Search
War, la “guerra dei motori”, il cui
esito è stata una
riorganizzazione del panorama industriale che appare consolidata,
almeno
nell’immediato. I dati disponibili, pubblicati mensilmente
dalla
società di consulenza Nielsen Online, sono eloquenti, e
benché
siano relativi al solo mercato statunitense possono essere estesi, con
qualche
approssimazione, a livello globale. Più del 90% delle
ricerche effettuate
nel gennaio 2009 negli Stati Uniti è attualmente ripartito
tra questi tre
soggetti: Google detiene una quota
pari al 62,8%, mentre Yahoo! e Microsoft si collocano
rispettivamente al 16,2% e all’11,2%. Il quarto posto
è occupato da AOL e il
quinto da Ask, che
insieme servono il 5,9% del
totale delle queries eseguite; tutti
gli altri motori di ricerca esistenti si dividono il restante
4%[7].
7. La situazione non è però
cristallizzata – tutt’altro. I principali soggetti
protagonisti di
questo scenario si muovono verso nuove direzioni. Tra queste, una delle
più significative è la ricerca verticale. News,
blogs, video,
foto, bookmarks, mappe, shopping: vi sono motori di ricerca dedicati
per
ciascuna di queste sfaccettature dell’esperienza digitale di
milioni di
utenti.
Mi soffermo rapidamente sull’esempio forse più
significativo: l’operazione di digitalizzazione di milioni di
libri
conservati da alcune importanti biblioteche
pubbliche[8].
Questo nuovo terreno di confronto vede contrapposte due iniziative: da
una parte Google Book
Search[9],
dall’altra Open
Content Alliance
(OCA)[10],
un consorzio che coinvolge enti non-profit come Internet Archive e società come Yahoo! e Microsoft.
Le filosofie adottate sono
divergenti. Google ha siglato accordi
con alcune delle maggiori biblioteche pubbliche statunitensi, dando
così
inizio alla più imponente opera di scansione mai attuata
finora.
L’approccio di Google ha
suscitato forti proteste relative a presunte violazioni del diritto
d’autore, dal momento che una parte consistente dei libri
digitalizzati
era coperta da copyright. Per questa ragione Google è stato costretto ad
affrontare una lunga battaglia legale, iniziata nel 2004 e conclusasi
(momentaneamente) con lo storico accordo del 28 ottobre 2008, tra la Association of American
Publishers
(AAP) e la Authors
Guild da una
parte e Google dall’altra[11]. Rispetto all’impostazione di Google,
quella di Open Content Alliance si differenzia
sui punti più controversi: i libri vengono digitalizzati
solo dopo il
preventivo ed esplicito consenso degli editori, e
l’informazione
codificata sarà disponibile online per tutti e accessibile
da qualsiasi
motore di ricerca.
L’operazione di indicizzazione dell’intera
conoscenza (sia essa disponibile in rete, oppure al di fuori della
rete,
cioè indipendentemente dal supporto), che è il
vero obiettivo di
questi soggetti, si muove dunque su un terreno che si fa via via sempre
più scivoloso, dovendosi confrontare con un coacervo di
interessi, in
primo luogo economici, per nulla virtuali.
8. L’evoluzione
degli strumenti di ricerca rispecchia quella dell’universo
digitale nella
sua globalità, ma anche di quella porzione di esso che
è oggetto
specifico del nostro interesse, in quanto storici o, più in
generale,
cultori delle discipline umanistiche.
Fin dagli esordi di Internet,
repertori, guide, elenchi di siti web redatti su base disciplinare sono
stati
largamente adoperati dagli studiosi. Gli stessi fondatori di Yahoo! non
fecero che ripercorrere le
orme tracciate alcuni anni prima da Tim Berners-Lee. Mi riferisco alla WWW-Virtual Library,
fondata dallo
scienziato britannico nel 1991. «La sua intenzione era quella
di creare una
struttura aperta, e da questo punto di vista la Virtual Library è veramente una
metafora di Internet e dei presupposti democratici e libertari su cui
sorse e si
sviluppò nella sua stagione
iniziale»[12].
Essa è formata da una rete di repertori autonomi,
organizzati
all’interno di una struttura federativa. La sezione History
è una
delle più antiche: venne fondata nel 1993 da Lynn H. Nelson,
professore
di storia medievale all’Università del Kansas, uno
dei pionieri
della storia online, che ha passato il testimone, dall’aprile
del 2004, a
Serge Noiret e all’Istituto Universitario Europeo di Firenze.
Sulla
scia di quell’archetipo, gli esempi di directories si sono moltiplicati e
tuttora rappresentano punti di riferimento essenziali. Grazie a gruppi
di
esperti che coprono diverse aree, le discipline storiche sono ben
rappresentate,
per esempio, nella sezione Arts & Humanities del grande
repertorio
britannico Intute[13],
le cui esaurienti schede, compilate per ciascuna risorsa segnalata,
sono redatte
prevalentemente in ambito bibliotecario, al pari di Infomine[14] o del Librarians’
Internet
Index[15]. La Rassegna degli
Strumenti Informatici per lo Studio dell’Antichità
Classica,
a cura di Alessandro Cristofori, è ormai forse
l’ultimo esempio di
iniziativa avviata e condotta da un singolo studioso, seppur
recentemente
coadiuvato da una équipe di
collaboratori[16].
Tuttora strumento imprescindibile di consultazione e orientamento per
gli
studiosi di antichistica, manifesta una tendenza a un meno frequente
aggiornamento. Analogamente in Francia
l’Album des
sciences
sociales[17] (su cui torneremo più avanti) è tuttora
consultabile online ma la
redazione di Revues.org,
che ha
concepito e gestito questo repertorio, ha deciso di sospenderne gli
aggiornamenti a partire dal gennaio del 2008, per orientarsi verso
altri
progetti, tra cui una piattaforma per l’edizione elettronica
di
fonti[18].
Si tratta di segnali che testimoniano di una crescente
difficoltà a
sostenere l’impegno derivante dalla gestione di questi
strumenti,
suscitando nel contempo aspettative per l’adozione di
modalità
alternative.
9. Parallelamente ai repertori,
l’attività di individuazione e valorizzazione
delle risorse in
ambito umanistico si è sviluppata anche in
un’altra direzione:
quella dei motori di ricerca tematici, o verticali. Nel contesto
accademico
è stato usato per un certo periodo il termine LASE.
L’acronimo
significa “Limited Area Search Engine” e indica un
motore di ricerca
il cui dominio non è l’intero Web ma una sua
porzione, delimitata
sulla base di criteri di rilevanza scientifica. In tal modo si evita
che sia
l’utente a doversi sobbarcare l’operazione di
selezionare, tra i
risultati, quelli realmente utili, scartando quelli non pertinenti. Gli
algoritmi precedentemente descritti, come il PageRank, sono infatti
lontani
dall’aver raggiunto una piena funzionalità: per
questo non è
improbabile trovare, anche tra i risultati di Google,
siti amatoriali che precedono
pubblicazioni scientifiche.
Già nel 1996 – dunque prima dello
stesso Google – venne lanciato
il primo motore storiografico, Argos:
Limited
Area Search of the Ancient and Medieval
Internet[19]. Argos era
il frutto del lavoro di
un’équipe coordinata da Anthony F. Beavers,
docente di filosofia
all’Università di Evansville. Presso la stessa
università
dell’Indiana vennero realizzati, nel biennio successivo e
sempre sotto la
direzione di Beavers, altri due progetti di motori tematici, Hippias[20] e Noesis[21],
dedicati alla filosofia, alla cui realizzazione partecipò
Peter Suber,
divenuto in seguito uno degli esponenti di punta del movimento per
l’Open
Access[22]. Nel caso di Argos,
la selezione dei contenuti veniva gestita in modo collaborativo, grazie
all’impegno di un consorzio che riuniva una decina tra i
più
accreditati siti web dedicati a quello specifico ambito disciplinare. I
documenti da indicizzare provenivano in primo luogo dagli stessi siti
membri;
questi ultimi svolgevano inoltre la funzione di gateways,
garantendo
l’affidabilità dei link a siti esterni al
consorzio, le cui pagine
venivano pertanto aggiunte all’indice solo in
virtù
dell’implicita approvazione dei redattori. La stessa logica
sottostava a Hippias: Limited Area
Search of Philosophy on
the Internet (1997). Come spiega lo stesso Beavers,
«These projects
were based on the notion that if users could search a carefully
selected
sub-section of the Internet, search engines could implement a kind of
peer
review, separating the wheat from the chaff and harnessing the power of
the
Internet for scholarly
purposes»[23].
Noesis:
Philosophical Research On-line, la cui prima versione
apparve nel 1998,
era invece molto diverso dai due predecessori: «Here, links
were manually
catalogued by individuals who did a preliminary scan for credentialed
authorship. [...] Quality was controlled by considering links one at a
time or
by indexing resources en masse if they were part of a peer-reviewed
initiative»[24].
Il procedimento era molto più laborioso, e ciò
determinò un
arresto del progetto, benché i risultati fossero molto
interessanti.
10. Dopo alcuni anni di parziale oblio, Beavers e i
suoi collaboratori hanno rilanciato Noesis,
sfruttando
un’opportunità resasi nel frattempo
disponibile[25].
A questo punto occorre aprire una breve parentesi. La vittoria di Google nella “guerra dei
motori”, ottenuta imponendo la superiorità della
propria
tecnologia, ha obbligato i suoi concorrenti a cercare strade nuove. Una
delle
soluzioni tentate è l’offerta di motori di ricerca
personalizzabili, mediante i quali l’utente finale possa
creare un proprio
indice, al cui interno effettuare le ricerche utilizzando gli strumenti
informatici (algoritmi) messi a disposizione gratuitamente dai search engines.
Si tratta di una
modalità apparentemente ideale per realizzare dei motori di
ricerca
tematici. Yahoo! ha anticipato tutti su questo terreno, lanciando il suo prodotto Yahoo!
BOSS[26]. Google per una volta si
è ritrovato a inseguire, e ha risposto con il suo Google Custom Search
Engine (ottobre
2006), che ha riscosso notevole successo. Uno dei più completi e
meglio organizzati tra i
motori tematici basati su Google
CSE è appunto Noesis 4.0, la nuova
versione del motore di ricerca sulla filosofia, online dal 24 dicembre
2006.
Stabilità e robustezza sono garantite dalla nuova
architettura
informatica, mentre il lavoro di selezione compiuto dalla redazione
consente di
effettuare ricerche su risorse provenienti dall’ambito
accademico,
offrendo la possibilità di articolare i risultati in
sottoinsiemi
tematici.
Il progetto sta attraversando una fase di intenso sviluppo, anche
mediante la collaborazione con la vicina Università
dell’Indiana,
dove è stato elaborato il progetto InPHO: The Indiana
Philosophy Ontology
Project. L’integrazione tra queste due
iniziative che condividono
lo stesso ambito disciplinare appare uno sbocco naturale ed
è molto
promettente.
11. Altri progetti continuano invece a sviluppare internamente anche la parte strettamente informatica, mantenendo il controllo sull’intero processo. Così, a partire dall’ottobre del 2006, il sito francese Revues.org ha messo a disposizione dei suoi utenti In-extenso, un ottimo esempio di motore tematico[27]. Il suo orizzonte è lo spazio francofono delle scienze umane e sociali: si basa sul citato Album des sciences sociales, dunque su un repertorio selezionato di risorse (oltre un milione di pagine web da circa 2.000 siti); e su alcuni archivi elettronici appartenenti alla Open Archives Initiative (OAI)[28], che raccolgono circa 135.000 documenti e articoli. A differenza di altri repertori, come il britannico Intute, che pure dispongono di opzioni di ricerca automatica, quello di Revues.org è un motore di ricerca a tutti gli effetti. Nel caso di Intute si può interrogare un database formato dalle schede descrittive compilate per ciascuna risorsa elettronica inclusa nel repertorio, mentre non è possibile effettuare ricerche sugli eventuali metadati dei siti, e tanto meno sul full-text degli stessi. Tra i motori verticali chiaramente destinati a un’utenza accademica si potrebbero citare diversi interessanti esempi, spesso ma non esclusivamente anglosassoni, che però hanno solo in minima parte attinenza con le materie umanistiche[29]. La prevalenza delle hard sciences va ricollegata al più precoce sfruttamento della rete da parte dei loro cultori[30], d’altronde oggettivamente facilitati da una maggiore familiarità con il mondo del software e dei computer, se non da un intrinseco legame che unisce questi ultimi alle scienze esatte.
12. In questo ambito il cartaceo è stato
abbandonato quasi completamente: i ricercatori, per i quali la
velocità e
l’ampiezza della diffusione dei propri lavori sono
essenziali, usano la
rete per far circolare, prima ancora della pubblicazione, i loro papers tra
la comunità
scientifica. Rispetto a tale quadro, le pubblicazioni digitali in campo
umanistico scontano una serie di specificità che rendono
problematica
l’individuazione delle risorse e la definizione stessa di
ciò che
è “risorsa”. Si consideri non solo la
differenza tra fonti
primarie e letteratura secondaria, peculiare delle discipline
umanistiche, ma
anche la possibilità, tipica di un prodotto telematico, di
essere
più cose contemporaneamente – sito istituzionale,
vetrina per
progetti di ricerca, spazio di discussione, collezione di fonti,
rivista
specializzata, o altro ancora – sfumando le distinzioni
consolidate
nell’editoria tradizionale. Tali fattori rendono
più complessa sia
la classificazione manuale delle risorse, sia l’adozione di
metodologie
per la classificazione automatica, che è essenziale per un
efficace information retrieval.
Se per
queste ragioni è importante descrivere correttamente una
risorsa,
è altrettanto importante individuare a chi è
destinata.
L’utenza appare infatti stratificata: da una parte il
pubblico generale,
dall’altra gli studiosi avanzati, e in mezzo una platea
composta da
insegnanti, studenti universitari, persone colte. Senza affrontare in
questa
sede il tema della valutazione della qualità delle
pubblicazioni
elettroniche, va detto che il ricercatore professionale ha bisogno di
risorse
selezionate in base a criteri specifici. La provenienza, normalmente di
origine
accademica, deve garantire una qualità non inferiore a
quella di
pubblicazioni cartacee dalle caratteristiche analoghe. I punti di
riferimento
sono le banche dati editoriali o le riviste in formato elettronico,
accessibili
direttamente o tramite i cosiddetti aggregatori. A queste si affiancano
risorse
accessibili gratuitamente, che includono tanto riviste scientifiche
aventi le
stesse caratteristiche di quelle cartacee (ISSN, comitato editoriale,
utilizzo
di procedure di peer
reviewing),
quanto iniziative di digitalizzazione di fonti, promosse da varie
agenzie
(archivi nazionali, università e gruppi di studiosi) e a
volte attuate
anche individualmente, tramite la modalità del self-archiving nei repositories istituzionali connessi
alla Open Archives
Initiative[31].
Non di rado, con gli strumenti esistenti, questa galassia di risorse
rimane
tuttora inaccessibile o poco sfruttata.
13. Mettiamo ora un punto fermo. Ciò che emerge
da questa analisi è l’esistenza di una duplice
tensione, alla quale
sono riconducibili le dinamiche in atto tanto nella dimensione generale
della
gestione delle informazioni digitali, quanto nella sua dimensione
specifica che
si sviluppa nel mondo della ricerca universitaria. Sintetizzando e
semplificando
al massimo, potremmo utilizzare la formula directories vs search
engines.
Da
un lato, la preferenza è accordata alla selezione e
all’organizzazione dei documenti in categorie: questo
approccio asseconda
una modalità di esplorazione del Web, il browsing,
in cui l’utente si
muove da una pagina all’altra seguendo link impostati da un
autore/redattore. Lo scopo è disegnare le coordinate
mediante le quali
ricavare, dall’ambito più generale di Internet, un
ambito,
quantitativamente e qualitativamente circoscritto, di risorse ordinate
per
argomento. Di questo approccio, Intute è senz’altro l’esempio più
vitale.
Dall’altro lato, abbiamo la potenza di calcolo dei motori di
ricerca
e la loro capacità di trattare una vastissima mole di dati:
su tali
premesse si fonda l’altra modalità di esplorazione
del Web, il searching,
in cui l’utente ha
una maggiore libertà di creare i propri percorsi
ipertestuali (almeno per
quanto riguarda i primi nodi) rispetto al precedente, compensata
però
dalla carenza di punti di riferimento. Nel caso delle risorse
storiografiche, i
limiti di strumenti quali Google emergono nettamente. In particolare, diventa in questo caso
più urgente
il problema della selezione/validazione delle risorse, che come abbiamo
visto
è stato ed è il filo conduttore delle esperienze
tentate con i
motori tematici.
La novità che emerge dalle attuali linee di
tendenza è che i due percorsi (validazione/ricerca
automatica) paiono
potersi finalmente incrociare, trovando una strada comune. Tali
prospettive
sembrano ora in grado di uscire dallo spazio esoterico, per addetti ai
lavori,
dentro al quale erano confinate: idee – o slogan –
come Web
2.0[32] sono nel frattempo diventate realtà, con
l’esplosione della
“blogosfera”, la nascita di siti come YouTube o Wikipedia,
la più recente
crescita dei social networks come Facebook – tutti protagonisti di
questa “seconda ondata” di Internet.
14. Un’altra esperienza che rientra a pieno titolo in quest’ambito è la cosiddetta folksonomy, termine formato dall’unione delle parole inglesi folk e taxonomy. Sono ormai numerosi e molto popolari i siti che offrono all’utente la possibilità di caricare i propri items preferiti (bookmarks, in primo luogo, ma in generale qualsiasi oggetto digitale: foto, video ecc.), classificandoli con parole chiave, definite tags, ossia etichette, in modo da poterli ricercare per argomento e condividerli con altri. È facile intuire come una simile massa di informazioni generate dagli utenti, una volta riversata nell’infrastruttura di un motore di ricerca possa contribuire a modificarlo profondamente: la catalogazione umana può in questo modo completare e bilanciare il peso degli algoritmi matematici. Più che di un auspicio, si tratta di un processo già avviato[33]. Gli ostacoli da superare per rendere pienamente efficace questa strategia di catalogazione sono molteplici. Il primo, evidentemente, è di natura linguistica: in assenza di criteri metodologicamente fondati, l’assegnazione di tags in modo arbitrario e spesso casuale non produce una vera classificazione, la quale può essere soltanto il frutto di una autentica competenza. Il mondo della ricerca, tuttavia, non è rimasto estraneo a questi sviluppi: al contrario, si sono notevolmente diffusi alcuni servizi progettati per i ricercatori, che consentono appunto il tagging di articoli e altro materiale online[34].
15. Un altro tipo di catalogazione che si presta ad essere utilizzata con particolare successo sul Web è la classificazione analitico-sintetica, o multidimensionale, generalmente conosciuta come classificazione a faccette[35]. Essa prevede che ciascun documento sia descritto secondo vari punti di vista, o sfaccettature, differenziandosi in questo dalla monodimensionalità delle classificazioni gerarchiche. Flamenco, un progetto sviluppato presso la University of California - Berkeley, è l’esempio più noto di motore di ricerca basato su questa metodologia: l’interfaccia adottata rende visibile all’utente la struttura interna della banca dati[36]. Nel case study rappresentato dalle collezioni del Fine Arts Museums of San Francisco, i documenti sono classificati utilizzando metadati descrittivi appositamente definiti (tipologia dell’opera, materiale, colore, luogo, artista ecc.). Ciò consente di focalizzare opportunamente l’argomento desiderato, espandendo o restringendo i risultati restituiti dalla query iniziale: browsing e searching vengono così sapientemente intrecciati. Alle spalle di progetti come questo vi sono dei thesauri disciplinari, quando non la compilazione di tassonomie o di vere e proprie ontologie: strumenti, questi ultimi, su cui si fonda il cosiddetto web semantico, teorizzato dallo stesso Tim Berners-Lee e considerato il prossimo stadio dell’evoluzione della rete[37]. Gli attuali motori di ricerca cercano nel testo solo le occorrenze delle parole usate per formulare le queries, senza alcun “tentativo” di comprenderne il significato. Superare una ricerca per parole chiave e approdare a una ricerca per contenuti: è questa la prospettiva del web semantico. Si tratta, appunto, di una prospettiva, sulla quale si ragiona da diversi anni; l’approdo è tuttora lontano benché l’obiettivo sia largamente condiviso.
16. Ciò che mi pare emergere da questa rassegna
di esperienze acquisite e di tendenze innovative è che le
risorse
storiche – e, in generale, umanistiche –
accessibili in formato
elettronico necessitino di nuovi strumenti in grado di indirizzare ad
esse gli
studiosi. La risposta può essere trovata nella costruzione
di strumenti
di ricerca automatici, fondati però su una selezione delle
fonti
garantita dall’autorevolezza di una redazione umana. In
attesa del web
semantico – forse utopia regolativa più che
traguardo concreto
–, la classica ricerca per parole chiave dovrà
essere migliorata
attraverso tecniche di estrazione dei contenuti
(text mining),
dando altresì
all’utente la possibilità di dispiegare e
riorganizzare in modo
trasparente i risultati delle sue interrogazioni.
Questa è la sfida
che oggi ci attende, e che – sulla scorta dei notevoli
mutamenti, non solo
tecnologici, che compaiono all’orizzonte del Web –
può far
tornare d’attualità i principi ispiratori adottati
dai primi motori
tematici, aprendo spazi per nuove iniziative. L’evoluzione
della rete
sembra assecondare positivamente tale percorso: il senso di questo
intervento
risiede nella convinzione che gli storici debbano essere parte attiva
nella
definizione di un paradigma più avanzato.
È
per questa ragione
che chi scrive ha assunto l’incarico di coordinare un
progetto –
nato nel 2006 sotto la direzione di Guido Abbattista e dal 2007
inquadrato in un
assegno di ricerca presso l’Università del
Piemonte Orientale
– il cui obiettivo è la realizzazione di un
siffatto strumento: un
unico punto d’accesso alle risorse online, posto al servizio
della
comunità degli studiosi delle discipline umanistiche.
[*] Una prima versione di questo lavoro è stata presentata, con il titolo «Basi di dati e strumenti di interrogazione: i motori di ricerca nell’ambito storico-umanistico», al convegno L’informatica e i diversi periodi storici. Scritture, fonti e basi di dati: confronti e specificità, organizzato da École française de Rome, Università di Firenze, Istituto Universitario Europeo, Firenze, 26-28 aprile 2007. I collegamenti ipertestuali citati sono aggiornati al 15 febbraio 2009.
[1] F. Chiocchetti, «Le guide alle risorse storiche online: una rassegna critica», Cromohs, 7 (2002): 1-22, <http://www.cromohs.unifi.it/7_2002/chiocchetti.html>.
[2] V. Bush, «As We May Think», The Atlantic Monthly, July 1945, <http://www.theatlantic.com/doc/194507/bush>.
[3] T. Nelson, Literary machines 90.1, Padova, Muzzio, 1992.
[4] G. Salton, A theory of indexing, Philadelphia, Society for Industrial and Applied Mathematics, 1975.
[5] Cfr. J. Battelle, The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture, London, Portfolio, 2005, Chapter 2: «Search before Google», pp. 39-63.
[6] Cfr. M. Calvo, F. Ciotti, G. Roncaglia, M. Zela, Internet 2004. Manuale per l’uso della rete, Roma-Bari, Laterza, 2004, disponibile online all’indirizzo <http://www.marcocalvo.it/libri/internet/index.htm>, in particolare il paragrafo «La retorica dei portali», pp. 253-255.
[7] Fonte: Nielsen Online, Top U.S. Online Search Providers: January 2009, February 11, 2009, <http://blog.nielsen.com/nielsenwire/online_mobile/top-us-online-search-providers-january-2009>.
[8] Per un ampio resoconto su questo argomento cfr. G. Roncaglia, «I progetti internazionali di digitalizzazione bibliotecaria: un panorama in evoluzione», DigItalia, 1, giugno 2006, pp. 11-30, <http://digitalia.sbn.it/upload/documenti/digitalia20061_RONCAGLIA.pdf>.
[9] <http://books.google.com/>.
[10] <http://www.opencontentalliance.org/>.
[11] Su tale accordo, noto come Google Book Search Settlement, dovrà pronunciarsi la Corte del Distretto di New York. L’esito della causa avrà conseguenze di enorme portata: ovviamente il dibattito pubblico è nettamente polarizzato tra favorevoli e contrari. In questa sede mi limito a rimandare al testo dell’accordo, disponibile all’indirizzo <http://www.googlebooksettlement.com/>, e a un documento, datato 13 novembre 2008 e redatto a cura della Association of Research Libraries (ARL), che illustra in termini oggettivi la questione: «A Guide for the Perplexed: Libraries & the Google Library Project Settlement», disponibile all’indirizzo <http://www.arl.org/pp/ppcopyright/google/index.shtml>.
[12] F. Chiocchetti, «Sentieri telematici. Il “WWW Virtual Library History Central Catalogue”», Contemporanea, n. 1, gennaio 2006, p. 209. Stefano Vitali, a proposito di questa fase aurorale del Web, ha citato l’espressione “ideologia californiana”: S. Vitali, Passato Digitale: le fonti dello storico nell’era del computer, Milano, B. Mondadori, 2004, p. 113, nota 6.
[13] <http://www.intute.ac.uk/>.
[14] <http://infomine.ucr.edu/>.
[16] <http://www.rassegna.unibo.it/>.
[17] <http://album.revues.org/>.
[18] Hypothèses: plate-forme de carnets de recherche en sciences humaines et sociales, <http://hypotheses.org/>.
[19] <http://argos.evansville.edu/>.
[20] <http://hippias.evansville.edu/>.
[21] <http://noesis.evansville.edu/>.
[22] P. Suber, Open Access News, <http://www.earlham.edu/~peters/fos/fosblog.html>.
[23] A. F. Beavers, Noesis: Philosophical Research Online. Project Narrative, <http://noesis.evansville.edu/reference/narrative.pdf>.
[24] <http://noesis.evansville.edu/about.htm>.
[25] Cfr. in questo stesso numero R. Minuti, «Informazione storica e web: considerazioni su problemi aperti», Cromohs, 13 (2008): 1-14, 6, <http://www.cromohs.unifi.it/13_2008/minuti_infoweb.html>.
[26] L’acronimo BOSS sta per Build your Own Search Service: <http://developer.yahoo.com/search/boss/>. La versione iniziale, lanciata nell’agosto 2006, era denominata Yahoo! Search Builder. Oltre a fornire questo servizio direttamente, Yahoo! ha collaborato con alcune interessanti start-up: si tratta di Rollyo <http://www.rollyo.com/> e di Eurekster <http://www.eurekster.com/>.
[27] <http://www.in-extenso.org/>.
[28] <http://www.openarchives.org/>.
[29] In particolare Scirus <http://www.scirus.com/>, promosso dalla casa editrice scientifica Elsevier.
[30] Tra i vari esempi non si può non citare almeno ArXiv, l’archivio elettronico di preprints fondato dal fisico statunitense Paul Ginsparg nel 1991: <http://arxiv.org/>. Cfr. J.-C. Guédon, «In Oldenburg’s Long Shadow: Librarians, Research Scientists, Publishers, and the Control of Scientific Publishing», in Creating the Digital Future, Association of Research Libraries 138th Annual Meeting, Toronto, Ontario (Canada), May 23-25, 2001, <http://www.arl.org/resources/pubs/mmproceedings/138guedon.shtml>.
[31] Cfr. G. Abbattista e F. Chiocchetti, «La ricerca umanistica e le banche dati testuali», in G. Bandini e P. Bianchini (a cura di), Fare storia in rete. Fonti e modelli di scrittura digitale per la storia dell’educazione, la storia moderna e la storia contemporanea, Roma, Carocci, 2007, pp. 19-31.
[32] Con tale termine, coniato da Tim O’Reilly nel 2005, si vuole indicare un Web sociale e collaborativo, in cui il ruolo degli utenti viene programmaticamente enfatizzato. Cfr. T. O’Reilly, «What is Web 2.0. Design patterns and Business models for the Next Generation of Software», <http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html>.
[33] Nel dicembre 2005 Yahoo! ha portato a termine l’acquisizione del più noto sito di social bookmarking, Del.icio.us <http://del.icio.us>.
[34] I più utilizzati sono Connotea <http://www.connotea.org/>, lanciato dalla casa editrice che pubblica l’autorevole rivista Nature, e CiteULike <http://www.citeulike.org/>.
[35] Cfr. C. Gnoli, V. Marino, L. Rosati, Organizzare la conoscenza. Dalle biblioteche all’architettura dell’informazione per il web, Milano, Tecniche Nuove, 2006.
[36] L’acronimo FLAMENCO sta per FLexible information Access using MEtadata in Novel Combinations, <http://flamenco.berkeley.edu/>.
[37] T. Berners-Lee, J. Hendler, O. Lassila, «The Semantic Web», Scientific American, May 2001, <http://www.sciam.com/article.cfm?id=the-semantic-web>.