jump to navigation

L’evoluzione dei motori di ricerca lunedì 6 febbraio 2012

Posted by andy in Internet e società, tecnologia.
Tags: , , , ,
add a comment

Oggi nasce un nuovo motore di ricerca: Volunia, dopo una ragionevole gestazione.

Parto di una mente italiana (la medesima che ha ideato il cuore di Google), il suo obiettivo è quello di stare al passo con i tempi.

E questo mi ha portato a riguardare indietro, ai primi grandi motori di ricerca su Internet, ad Altavista

E ripercorrendo con il pensiero questi ultimi anni ho razionalizzato quella che è la sostanza dell’evoluzione della tecnologia alla base dei motori di ricerca:

  • i primi motori di ricerca erano content-based: il loro scopo era quello di indicizzare i contenuti e di fornire dei rimandi a tutte le pagine che contenevano le parole chiave ricercate;
  • con il tempo si è puntato anche a migliorare la qualità della comprensione, da parte del motore, delle parole chiave, puntando anche a comprendere (per quanto possibile) anche interrogazioni in linguaggio naturale;
  • ulteriore passo: si è dato valore alle relazioni ed ai link (in sostanza, quanto i contenuti risultavano ‘gettonati’), ed i motori hanno iniziato a fare del ‘ranking‘ evoluto, e quindi non solo a dire quali pagine contengono più parole chiave, ma quali sono le pagine di qualità superiore, ovverosia quelle più visitate e quindi ritenute più autorevoli;
  • a corredo, oltre che all’indicizzazione dei contenuti, si è iniziato ad indicizzare anche le immagini ed i contenuti multimediali, offrendo anche meccanismi di base per effettuare ricerche non solo per parole chiave ma anche per analogia;
  • siamo al terzo step: il motore di ricerca diventa ‘social’, proprio come il nuovo Volunia; il web diventa social? Ed il motore di ricerca diventa user-centrico;

…e lungo tutto questo percorso si è sempre parlato del web semantico, cercando anche di farsi aiutare da una migliore strutturazione del linguaggio HTML, passato attraverso varie versioni, ed infine attraverso XML; un’utopia? Certamente no, ma prematura rispetto alle attuali potenzialità della Rete (per quanto incredibili esse già siano).

E come sarà la prossima generazione di motori di ricerca?

Nella mia visione, la prossima generazione di motori di ricerca si baserà su paradigmi distribuite, basati su tecnologie P2P.

Non sto inventando l’acqua calda, o almeno non oggi: ho iniziato a formarmi questa idea già anni fa, e forse se ne trova traccia in qualche mio vecchio post.

La cosa interessante è che tecnologie di questo tipo sono già in fase di sviluppo, ed alcune sono anche già state rilasciate.

Ma perché il futuro dei motori di ricerca dovrebbe essere basato su tecnologie di questo genere?

Ritengo principalmente per due motivi:

  1. i netizen iniziano a rendersi conto di quante informazioni su di se circolano in Rete senza il proprio controllo, e diventano sempre più attendi alla propria privacy;
  2. la quantità di informazione presente in Rete cresce ad una velocità vertiginosa, con la conseguente necessità di far crescere di pari passo la ‘dimensione’ dei motori di ricerca, con le relative implicazioni di infrastruttura, costi, consumi, impatto ambientale, rischi …

Tutto sommato un sistema di indicizzazione e di ricerca distribuito (ed in qualche modo localizzato con i dati da indicizzare) avrebbe il vantaggio di ridurre la quantità di informazione duplicata, distribuendo e delegando costi ed infrastrutture ai proprietari dei dati, e di lasciare al proprietario degli stessi (e dei relativi indici) il controllo sugli stessi.

Idea per un motore di ricerca Etico giovedì 25 agosto 2011

Posted by andy in Etica, Information Security, Internet e società, tecnologia.
Tags: , , , ,
1 comment so far

Leggo oggi una (nuova) notizia sul tracciamento pervasivo che i motori di ricerca fanno della nostra navigazione in Rete (Lo scandalo “supercookies”
Utenti pedinati senza saperlo
).

Microsoft ha appena fatto ‘marcia indietro’, ma il problema è stato solo rimandato: saranno già alla ricerca di nuovi modi per fare la medesima cosa.

Dovrei scandalizzarmi? Assolutamente no: l’intero business dei motori di ricerca si basa proprio sulla raccolta sempre più precisa di informazioni sul profilo degli utenti da rivendere (come minimo) per scopi di advertising (non voglio addentrarmi sugli interessi che esistono per tali informazioni da parte di enti governativi e non).

Il problema è certamente sentito dai cittadini della Rete, che sono alla ricerca di motori di ricerca non traccianti (provate a fare una ricerca di ‘non tracking search engine‘ per farvi un’idea …); qui trovate una ‘Top 5’ di motori di ricerca anonimi.

Ma se leggete bene i commenti in Rete, i netizen non si fidano, ed a ragione: di fatto, cosa cambia utilizzando un motore di ricerca diverso da quelli tradizionali? Semplicemente che i propri dati finiscono in mano ad altri (ed in ogni caso sarebbe interessante scoprire chi realmente c’è dietro ad ogni motore di ricerca).

Faccio un paio di semplici considerazioni:

  1. i motori di ricerca costano, e tanto: lo storage, la banda per la connettività, la corrente, la manutenzione dei data center e lo sviluppo e la manutenzione del software hanno un costo (per non parlare del supporto da fornire agli enti governativi per l’estrazione di dati e per la rimozione di contenuti vietati);
  2. visto che i comuni motori ricerca non chiedono soldi, chi è così disinteressato da investire centinaia di milioni o addirittura miliardi senza una prospettiva di rientro (e possibilmente di utile)?

NOTA: ci tengo a fare una precisazione prima che intervenga qualche ‘misunderstanding’ (o cielo! … sto diventando anglofono? Avrei anche potuto utilizzare il termine ”incomprensione’ …!): il fatto che un motore di ricerca sia ‘anonimo’ non significa che non raccolga ed analizzi dati; l’importante è capire quali dati possono essere raccolti e quali no; sostanzialmente non devono essere raccolti dati che consentano la profilazione del singolo utente; un metro che utilizzi qualsiasi dato che consenta di capire quali siano le ricerche più ‘gettonate’ e da quale paese vengano, le fasce orarie di utilizzo, etc. può essere utilizzato senza mettere a rischio la privacy delle persone.

Ciò detto, proviamo a chiederci quali siano i requisiti minimi che un motore di ricerca deve soddisfare per poter realmente non aver bisogno di profilare gli utenti per sostentarsi:

  1. deve essere finanziariamente autonomo;
  2. deve poter dimostrare che nel proprio codice non sono implementate regole di profilazione.

Vediamo ora come sia possibile pensare di soddisfare tali requisiti:

  1. autonomia finanziaria:
    1. un contributo (simbolico) di 1 Euro all’anno, per 1 miliardo di utenti, sono 1 miliardo di Euro, che consentono il sostentamento di una struttura più che ragguardevole .. (questo implica ovviamente che gli utenti devono essere registrati);
    2. riduzione o eliminazione del contributo per coloro che non si vogliono registrare, per i quali verrà effettuata una limitata e ragionevole, e soprattutto dichiarata, profilazione; i dati così raccolti potranno essere utilizzati per finanziarsi anche con entrate per pubblicità mirata;
    3. entrate derivanti dalla rivendita di analisi dei dati raccolti (per scopi di studio o commerciali);
    4. eventuale licensing del codice del motore di ricerca, per la realizzazione di motori proprietari;
    5. probabilmente si
  2. trasparenza per dimostrare che non viene effettuata la profilazione degli utenti:
    1. apertura del codice (Open Source – che non significa necessariamente ‘gratuito e liberamente copiabile’);
    2. verifiche indipendenti di  parte terza sul rispetto della policy sulla privacy (forse potrebbe starci anche una certificazione ISO27001 …)