Archivio per la categoria 'motori di ricerca'

La ricerca semantica secondo Yahoo!

Fino ad oggi il mondo della “ricerca semantica”, intesa come la capacità di un applicazione di sfruttare le informazioni e i metadati presenti nelle pagine web in formati come RDF, è stato popolato da giocatori relativamente piccoli (un confronto si trova qui) o da soluzione ancora non disponibili per l’uso pubblico. Infatti, malgrado una certa enfasi giornalistica (Paul Miller in questo post si chiede a cosa sia dovuto il desiderio dei giornalisti che si occupano di tecnologia di trovare il google killer), siamo ancora lontani non soltanto da avere a disposizione applicazioni di ricerca “di nuovo tipo”, ma anche da avere capito chiaramente come queste nuove applicazioni potranno migliorare la user experience.

Yahoo ha annunciato recentemente che una parte importante della iniziativa definita Open Search Platform è il supporto per gli standard del semantc web, a cominciare da RDF e microformat. Si tratta di una novità importante, visto che Yahoo! resta un player di notevoli dimensioni nel mondo della ricerca. Si tratta anche di un approccio che ci sembra sulla strada giusta: piuttosto che porsi l’obiettivo, ambizioso, ma di difficile definizione, di sostituire la tradizionale ricerca full text con una ricerca diversa (”concettuale” o “semantica”), Yahoo! afferma più debolmente che i risultati ottenuti dall’utilizzo dei metadati strutturati possono servire, “ove possibile” a migliorare la ricerca full text.

Crediamo che in questo caso la parola chiave sia “ove possibile”. Non tutte le informazioni presenti in rete possono essere strutturate usando RDF, ma molte informazioni in rete già lo sono, per esempio dalle informazioni bibliografiche (da amazon alla libreria del confìgresso) o i profili di LinkdIn. La buona idea di Yahoo! è di inziare a sfruttare queste informazioni che gia’ esistono, piuttosto che proporsi di ripartire da zero per assegnare metadati semantici a tutto quanto. L’altra buona idea è di mantere un approccio aperto, consentendo a chiunque, all’interno della open search platform, di accedere a questi dati, distinguendosii in questi da coloro, come twine, che stanno puntando alla creazione di silos informativi prorprietari. Si tratta quindi di iniziare a sperimentare.

Marco Varone su “Che cos’è un motore di ricerca semantico”

Vale la pena rilanciare e commentare questa intervista a Marco Varone su Punto Informatico, almeno per questa affermazione:

“Oggi non è pensabile un motore di ricerca (semantica) per tutto il web come Google - prosegue Varone - ma per alcuni settori, quando il problema non è troppo complesso e ci si limita ad un contesto specifico, è possibile implementare soluzioni che consentono di guadagnare tempo e ottenere risultati migliori”

Rispetto alle mirabolanti promesse di alcuni (powerset, hakia, lo stesso Varone in altri interventi) questo approccio ci riporta in un situazione un po’ più realistica.

Chi si occupa di linguistica o di intelligenza artificiale è abituato, infatti, a trovarsi a che fare con situazioni come questa: il problema è interessante ma è davvero molto complicato da risolvere, sarebbe bellissimo avere una soluzione universale che vada bene per tutte le istanze del problema, ci promettiamo che la avremo entro il prossimo anno (o lustro o secolo) e poi non riusciamo a farcela.

Di fronte a questi problemi che resistono alla soluzione, le reazione sono due. La prima è sfidare virilmente la difficoltà, affermando che il problema è risolvibile e basta risolverlo, ci vorrà tempo e denaro ma ce la faremo (addirittura alcuni dcono che è già stato risolto, ma di solito sanno che non è vero). La seconda è indebolire gli obiettivi e accontentarsi di risolvere il problema non nel caso generale, ma in alcuni (possibilmente tanti) casi particolari.

Continua a leggere ‘Marco Varone su “Che cos’è un motore di ricerca semantico”’

Il futuro dei personal media ed il Google Enigma

Valeria Maltoni  in questo post fa alcune considerazioni sulla crescita dei personal media. Attualmente Google ha il potere di influenzare i contenuti dei social media: infatti molti scrivono in modo da ottenere traffico dal principale motore di ricerca (un po’ come accaduto con Blogbabel). Strutturare un blog in modo da ottenere la maggior parte delle visite da Google può essere controproducente, ad esempio nei casi in cui Google decide di modificare il Pagerank (la cosidetta Google dance), come sta accadendo sempre più spesso, punendo chi compra i link o quei siti che appartengono ad un network, con molti link tra loro nell’ambito del network, ma senza avere nulla in comune dal punto di vista dei contenuti.

Ci sono sistemi diversi per ottenere traffico: è possibile costruire una rete di contatti interessati ai contenuti prodotti, sfruttando le innate capacità relazionali delle persone, utilizzando i siti di social bookmarking oppure i nuovi ”crowdsourcing” networks come TechMeme o Mahalo.

Pertanto è necessario riflettere sul futuro dei personal media e sulle diverse opzioni di crescita che ci troviamo davanti. E’ giusto utilizzare il modello di innovazione proposto da Google? Siamo sicuri di volerci affidare completamente ad un unica organizzazione? Che ci constringe a delle regole che si fondano su valori che magari non condividiamo? Che ci fà ragionare come macchine invece che come persone?

Come conclude Conversation Agent, se logica sottostante ad ogni business di successo consiste nel “servire al meglio i propri clienti ”….ricordiamoci che i clienti di un ”personal media” sono i suoi lettori…e che qualsiasi strada verrà perseguita dovrà puntare a renderli (i lettori) sempre più soddisfatti dei contenuti trovati.

Web semantico e/o semantic web: io sono più semantico di te

Adesso che siamo tutti almeno un po’ semantici (ricerca semantica, motore semantico, tecnologia semantica, web semantico…) dobbiamo iniziare a distinguerci. Infatti, a quanto pare c’e’ semantica e semantica e non tutte le semantiche sono uguali.
In pratica la situazione è:
- ci sono quelli che usano semantica nel senso di semantic web: per costoro la rete deve diventare una gigantesca macchina inferenziale fondata su più o meno arcani sistemi di metadati (e accora più arcani sistemi di rapprsentazione di essi)
- ci sono quelli che usano semantica nel senso di approcci probabilistici (approcci bayesiani, latent semantic analysis e simili). Fino a poco tempo questi erano gli unici a parlare di semantic search; per costoro il significato emerge, in qualche modo, da complicati ragionamenti sulle occorrenze e co-occorenze di elementi linguistici (o anche non linguistici).
- ci sono quelli che usano semantica come sinonimo di “qualunque che cosa che faccia un’analisi del testo che vada oltre i caratteri di cui è composto”. Per costoro anche una semplice normalizzazione morfologica (che consente di trattare cane e cani come la stessa forma)  è semantica.
- ci sono quelli che usano semantica come sinonimo di semantica lessicale. Per costoro vale il seguente ragionamento: i significati e le relazioni tra significati, da che mondo e mondo, stanno nei dizionari; io ho un grosso dizionario, quindi faccio  analisi semantica. Talvolta questi grossi dizionari, magari specifici di dominio, sono chiamati ontologie. L’uso del termine “ontologia” al posto di “dizionario” ha, in molti contesti (non tutti, chiaramente), lo stesso ruolo comunicativo dell’uso del termine “rinite” al posto del termine “raffreddore”.

Indiscutibilemente la parola “semantica” sta subendo un processo di perdita di significato, almeno nel mondo IT (e in certi meandri della stampa tradizionale). Per fortuna i filosofi, i logici  e gli scienziati cognitivi si occupano poco di IT e quindi sui nostri blog e siti web e brochure possiamo dire quello che ci piace senza paura di essere corretti. Tuttavia ci teniamo a ribadire un concetto di una certa importanza (e anche di una certa ovvietà).

Continua a leggere ‘Web semantico e/o semantic web: io sono più semantico di te’

Informazione e salute: l’ho letto su internet…

Abbiamo già avuto modo di parlare dell’informazione presente in rete sui temi della salute e della sanità discutendo delle iniziative di Microsoft e Google per la creazione di un motore di ricerca verticale sanitario.

La rivista Cancer pubblica, nel numero ora online,  uno studio sull’affidabilità delle informazioni disponibili in rete sul tema del cancro al seno.

Lo studio di Cancer ha analizzato alcune centinaia di siti web dedicati al cancro al seno, selezionati tra quelli facilmente accessibli attraverso i motori di ricerca, per valutare la qualità delle informazioni che un cittadino può trovare sull’argomento.

I risultati sono in gran parte incoraggianti: su 343 siti sono state trovate soltanto 41 affermazioni errate, presenti in 18 siti, quindi il 5.2% del totale. In questo caso sembra falsa l’affermazione generalizzate e un po’ qualunquista secondo cui la rete è piena, in particolare per quanto riguarda la salute, di informazioni false o non affidabili.

Nello studio i ricercatori hanno selezionato i risultati ottenuti eseguendo 15 query sui motori di ricerca e hanno valutato i siti utilizzando criteri di accuratezza formale (chiarezza nell’identificare l’autore delle affermazioni e le sue credenziali) e di accuratezza di contenuti. La conclusione (piuttosto ovvia) è:

“Most breast cancer information that consumers are likely to encounter online is accurate. However, commonly cited quality criteria do not identify inaccurate information. Webpages that contain information about CAM (complementary and alternative medicine) are relatively likely to contain inaccurate statements. Consumers searching for health information online should still consult a clinician before taking action”

Vale la pena ricordare che le query per identificare i siti su cui effettuare la ricerca sono state eseguite tra i 1 giugno e il 30 luglio del 2004 (così riporta WebMD, un sito di informazione medica), a tutti gli effetti quindi circa un secolo fa in termini di evoluzione della rete. Varrebbe la pena ripetere l’indagine oggi, tenendo conto dello scenario attuale.

L’archivio storico online del Corriere della Sera è disponibile gratis!

La notizia è ottima, l’iniziativa assai lodevole: l’archivio storico del Corriere della Sera dal 1992 è disponibile gratuitamente on line. Il servizio è stato annunciato così:

Il Corriere della Sera ha aperto, primo quotidiano in Italia e tra i primi a livello internazionale, il proprio archivio storico ai lettori. Il nuovo servizio (disponibile all’indirizzo archiviostorico.corriere.it) permette di accedere gratuitamente a un patrimonio informativo di 1.300.000 articoli comparsi sul quotidiano a partire dal 2 gennaio 1992 ad oggi

(dalla news su corriere.it)

In effetti il servizio è spettacolare. Però, come sempre c’è un però. La parte di ricerca e navigazione non è proprio quello che ci saremmo aspettati.

Pochi giorni fa Ask ha lanciato BigNews, il nuovo servizio di ricerca / aggregazione di notizie. Provate a fare un confronto. A parte il differente impatto grafico (comunque l’occhio vuole la sua parte), è la diversa filosofia che colpisce. Ask ha realizzato un motore di ricerca di notizie, con funzionalità avanzate di aggregazione, suggerimenti contestuali e possibilità di tracciare la diffusione di una notizia e l’evoluzione di una storia (per non parlare della ricerca sui blog e l’integrazione con Digg).

Il Corriere ha realizzato un archivio, con funzioni di ricerca relativamente limitate e nessuna capacità di navigazione relazionale. Non sarebbe stato difficile fare qualcosa di più (riconoscimento automatico di nomi propri e luoghi, facet browsing, un po’ di classificazione dinamica…).

Evidentemente l’iniziativa del Corriere è stata pensata in termini documentaristi: un archivio in cui conservare. E’ un peccato, perché una risorsa come questa dovrebbe essere messa a disposizione come una risorsa in cui trovare e navigare. L’unico “vezzo” dell’archivio è una sorta di tag cloud costruita a partire dalle ricerche degli utenti, che dovrebbe consentire di conoscere in tempo reale le parole cercate più frequentemente. Peccato che questa feature sia stata relegata a fondo pagina dopo i collegamenti sponsorizzati e una pesante interfaccia per la navigazione nelle varie annate.

Insomma, l’iiniziativa è splendida e siamo grati al Corriere per aver reso disponibili i dati. Ora si dovrebbe costruire attorno a questi dati una vera applicazione di ricerca.

La organic search equity: l’esempio di JC Penney

Per misurare l’impatto di una campagna online oltre alle tradizionali tecniche di misurazione quali ad esempio le impression o il click-through rate,  si può prendere in considerazione la “organic search equity“: il valore che deriva dalla ricerca organica sui motori di ricerca. Infatti  creare o aggregare contenuti interessanti e lasciare che i lettori li condividano attraverso i social media può migliorare i risultati di posizionamento e visibilità relativi al brand e ad elementi ad esso collegati sui motori di ricerca.

Creare contenuto interessante per una campagna online “content-focused” può essere complesso e costoso, perciò spesso è più efficace aggregare contenuti di qualità, prodotti da persone impegnate, ad esempio blogger, che hanno già un loro seguito di utenti e possono spostare la conversazione sul network aziendale.

Questa tecnica è stata già adottata dalla famosa catena di grandi magazzini USA JC Penney, che, in collaborazione con Federated Media, ha lanciato Fall Shopping Guide, una raccolta di contenuti di blog (ad esempio Dooce, The Mommy Blog e Confessions of a Pioneer Woman) di donne (blogger) molto popolari. L’azienda JC Penney non ha potuto influenzare il contenuto dei blog aggregati (tanto che non tutti i blogger aggregati hanno citato il lancio del progetto), ma in ogni caso il traffico verso il sito ha cominciato a crescere con visitatori che provenivano sia dai siti di social bookmarking come StumbleUpon che dai feed RSS a dimostrazione che gli utenti stavano sottoscrivendo il sito ed erano interessati ai contenuti.

Una volta che le persone si sentono parte dell’esperienza, vogliono condividerla con i loro amici attraverso i social media, generando traffico che google non impiega molto a notare. Infatti a circa quattro mesi dal lancio del progetto la guida allo shopping di JC Penney si posiziona al quinto posto tra i risultati della ricerca “fall shopping” tra 13 milioni di risultati e al secondo posto tra 4 milioni di risultati per la ricerca “fall shopping guide.”

L’agenzia interattiva di JC Penney, Avenue A/Razorfish, pur senza riferirsi direttamente a questa campagna, ha parlato in generale di una ricerca che dimostra lo spostamento dell’autorevolezza tra le varie fonti di informazione: in particolare i blog sono diventati fonti degne di fiducia che possono suscitare interesse nei confronti di taluni prodotti. Tuttavia la  grande crescita dei contenuti disponibili online richiede l’esistenza di filtri per valutare l’affidabilità del contenuto. A questo propoosito Jeff Lanctot, senior VP della Avenue A/Razorfish, suggerisce che (in futuro) tale funzione di filtro potrà essere svolta dai brand considerati più autorevoli e affidabili.

Manzoni, l’armadio e l’ambiguità semantica

Circola questa storiella, forse vera, forse apocrifa, sicuramente esemplificativa di un tipo di ambiguità linguistica abbastanza difficile da risolvere (per un programma di computer).

Un’insegnante delle superiori legge il tema di un suo allievo. L’argomento è la vita di Manzoni. Dopo avere raccontato questo e quell’altro il ragazzo conclude affermando che

“Alessandro Manzoni morì in un armadio.”

La proferessa non riesce a capacitarsi e chiede spiegazioni. Il ragazzo insiste: l’ho letto sul libro, lo giuro. La professoressa controlla. Il libro in effetti riporta:

“Alessandro Manzoni morì ritornando alla sua credenza giansenista”

La rete semantica mentale del ragazzo, evidentemente, ha fatto quello che ogni buona rete semantica può fare, ovvero generalizzare le relazioni di sinonimia (o quasi-sinonimia). Le credenze sono in effetti anche armadi (per cosi’ dire), e quindi …. Certo, il risultato ottenuto non è quello sperato.

Internet marketing alberghiero: vademecum 2008

Considerato che il turismo è il settore trainante dell’e-commerce in Italia (quasi il 50% del totale degli acquisti via internet, circa 2,6 miliardi di euro, secondo il settimo Rapporto dell’Osservatorio permanente sull’eCommerce B2c promosso dalla School of Management del Politecnico di Milano, realizzato in collaborazione con Netcomm, il consorzio dell’eCommerce italiano) è ovvio che gli albergatori non possono più fare a meno di un’adeguata strategia di marketing online, a maggior ragione se si considerano le previsioni secondo cui nel 2008 il 40% circa di tutte le prenotazioni alberghiere mondiali saranno effettuate online (rispetto al 33% nel 2007 ed al 29% nel 2006).

Per questo, anche quest’anno, due esperti di Strategie di eBusiness per l’ospitalità (HeBS) Max Starkov e Jason Price hanno indicato le “Hotelier’s 2008 Top Ten Internet Marketing Resolutions” (su BookingBlog si può leggere la traduzione in italiano i buoni propositi degli albergatori per l’internet marketing del 2008).

In particolare tra le varie indicazioni degli esperti, a noi stanno particolarmente a cuore le seguenti tre:

-  la necessità per gli alberghi di prendere in considerazione strategie di marketing 2.0 finalizzate all’ascolto del passaparola online dei clienti

- la predisposizione di un sistema di e-CRM al fine di costruire con i propri clienti relazioni interattive che possano essere profittevoli per entrambi le parti

- la necessessità degli operatori del settore alberghiero di aumentare le proprie conoscenze di internet marketing (applicato al mercato turistico) grazie alla collaborazione con esperti della materia (web agency. seo, internet mktg consultants)

Il web2.0 ha cambiato profondamente il modo di organizzare i viaggi: ad esempio gli utenti condividono opinioni e consigli molto credibili in social network come Tripadvisor, e di conseguenza chi gestisce un hotel deve ascoltare queste conversazioni, analizzarle in modo da poter intervenire tempestivamente qualora ci fossero dei problemi.

Inoltre secondo i due esperti gli hotel dovranno realizzare un sistema completo di Customer Relationship Management online (e-CRM), che permetta di conoscere i clienti in modo da poterli differenziare, fornire a ciascuno un servizio personalizzato grazie a programmi fedeltà e differenziazione dell’offertaal fine di ottenere la fidelizzazione degli ospiti.

Per realizzare tutto questo è necessario che sia il management dell’azienda sia preparato: grazie alla consulenza di web agency specializzate e di esperti del marketing web2.0, gli amministratori degli hotel dovranno studiare le ultime tendenze del mercato turistico on-line e le best pratices del settore, in modo da ottimizzare il sito web, il search engine marketing e le iniziative nell’ambito del web2.0.

A BigG non interessa il linguaggio naturale: “ci interessa il significato delle parole”

L’intervista a Peter Norvig, Director for Search Quality di Google, pubblicata sulla MIT Technology review, ci fa capire due cose:

  1. BigG non crede alle query in linguaggio naturale (NLP)
  2. E’ più facile parlare di NLP quando si sa di cosa si sta parlando

Google, non crede alle query in linguaggio naturale, non pensa, come Powerset, Hakia e qualche altro che l’information retrieval si debba trasformare in question answering per avere successo:

we don’t think it’s a big advance to be able to type something as a question as opposed to keywords. Typing “What is the capital of France?” won’t get you better results than typing “capital of France”

Contemporaneamente però:

We think what’s important about natural language is the mapping of words onto the concepts that users are looking for [...] But understanding how words go together is important. To give some examples, “New York” is different from “York,” but “Vegas” is the same as “Las Vegas,” and “Jersey” may or may not be the same as “New Jersey.”

In effetti è proprio di questo, non di question answering, che si occupano i linguisti: di come certe relazioni di significato sono veicolate da certe espressioni linguistiche (e non da altre).

Tutto sommato è bello sapere che la più grande azienda al mondo che manipola, analizza, indicizza espressioni linguistiche (contenute in alcuni miliardi di documenti creati da alcuni milioni di esseri umani) sa esattamente che cosa sta facendo, e forse sta facendo la cosa giusta.

Nota a margine: Il lancio su slashdot di questa intevista in 24 ore ha accumulato quasi 150 commenti: l’argomento indubbiamente piace.

Pagina Successiva »


Subscribe to MediaMeter

Top Clicks

  • Nessuna

mybloglog

License