Archivio per la categoria 'motori di ricerca'

Google suggest e la ricerca “a misura d’utente”

Dalle notizie giunte negli ultimi giorni, è evidente che il settore dei motori di ricerca si muove lungo due direttrici complementari:da un lato, rendere la vita più facile agli utenti, in modo da svincolare l’operatività e la dimestichezza dalla conoscenza degli applicativi; dall’altro, rendere la vita più facile al motore, diminuendo la frammentazione delle query e concentrando più utenti sulle stesse ricerche.

La prima notizia riguarda Google, che ha introdotto nella sua home inglese l’ormai noto Google Suggest, un tool che suggerisce parole o intere query a partire dalle prime digitazioni dell’utente. Come accennato poc’anzi,tale strumento si rivela estremamente utile per aiutare l’utente a definire la propria query, restringendo via via il campo delle possibili alternative ed evitando lunghe e frustranti ricerche senza risultato. Il rovescio delle medaglia, come alcuni esperti di SEO hanno sottolineato, è la probabile perdita dell’effetto Long Tail, grazie al quale la visibilità di alcuni siti viene garantita dalla granularità delle keywords. Tale eventualità è tuttavia controversa.

L’introduzione di Google Suggest risulterà a molti come una novità, ma probabilmente non a coloro che utilizzano il browser di navigazione Firefox. Firefox si distingue da sempre per l’avanguardia sperimentativa delle sue features e per un continuo sviluppo di plug-ins user-centerd. In effetti le funzionalità di Suggest erano da tempo incorporate nella maschera di ricerca Google integrata nel browser.

E a tal proposito, è datato 26 agosto il lancio di una nuova feature sperimentale da parte dei Mozilla Labs, dall’attrattivo nome “ubiquity“. Firefox definisce ubiquity “An experiment into connecting the Web with language“. In che modo? L’idea è semplice, ma eccezionale: permettere all’utente di gestire più risorse o oggetti Web in una stessa schermata, richiamandoli semplicemente attraverso la digitazione, evitando l’apertura di più tab e l’effettuazione di ricerche multiple. Possiamo ad esempio comporre una mail includendo una mappa, senza dover aprire Google Maps, o segnalando la recensione di un ristorante, digitandone semplicemente il nome. Si tratta di un modo ancora più interattivo di utilizzare gli oggetti che popolano il Web (mappe, recensioni, definizioni, immagini ecc…).

Tali esempi, indipendentemente dalle perplessità o dagli entusiasmi che possano destare, mostrano una progressiva migrazione del motore di ricerca da interfaccia ad applicazione. Si profila ovvero uno scenario in cui la ricerca non sarà solamente il punto di partenza della nostra navigazione, ma diverrà sempre maggiormente il collante delle nostre attività online, grazie alla sensibile semplificazione del processo che unisce il pensiero alla risorsa.

A proposito di Cuil…

Una decina di giorni fa abbiamo assistito al trionfale ingresso di Cuil sulla scena dei motori di ricerca. L’accoglienza entusiastica riservata al nuovo, presunto, competitor di Google ha riguardato sia la dimensione del buzz online (una tale attenzione è stata riservata solo a eventi eccezionali quali le imprese della Carfagna…), sia quella dell’innovatività rivoluzionaria di Cuil (pronunciato cool) rispetto ai suoi predecessori.

Bisogna certamente riconoscere il successo della campagna di PR allestita attorno al nuovo motore di ricerca, basata su valori simbolici più che tecnici. Nella fattispecie, uno sfacciato dualismo con Google è stato l’espediente (poco creativo, ma molto efficace) che ha originato grande curiosità e WOM attorno a Cuil.

Società fondata da ex dipendenti di Google, indice tre volte più grande di quello di Google, interfaccia grafica simile a quella di Google (ma nera invece che bianca), tutti questi sono elementi a conferma di questa tesi, sostenuta anche da Richard MacManus su ReadWriteWeb.

Chiunque parlava di Cuil ancor prima di averlo provato, decantandone le capacità semantiche, le dimensioni dell’indice, l’originale pagina dei risultati. Presi, come spesso accade, dalla febbre della novità, pochi hanno appurato l’effettiva corrispondenza tra presunto e reale.

Sono bastati alcuni giorni e delle semplici prove di ricerca per raffreddare gli animi. Cuil è per ora un motore di ricerca assolutamente ordinario, con alcune features interessanti (ad esempio l’introduzione di clusters nella SERP – non proprio una novità, se pensiamo che Clusty li ha dal 2000), ma ancora tutto da verificare sotto i profili della rilevanza dei risultati e delle dimensioni dell’indice. Non da ultimo, Cuil deve ancora inventarsi un business model, dal momento che per ora non presenta risultati sponsorizzati, né può permettersi di creare dal nulla sistemi di online advertising, senza prima avere un certo numero di utenti fidelizzati.

Non vogliamo con questo presentare Cuil come un fuoco di paglia, sicuramente i margini di miglioramento esistono sotto tutti i punti di vista. Ma, come afferma in questo articolo David Berkowitz, per ora the safe bet is still on Google. Siamo d’accordo.

Microsoft non si compra Yahoo, ma si compra Powerset

Secondo quanto riportato da VentureBeat, Microsoft è prossima a chiudere l’acquisizione di Powerset per una cifra superire ai 100 milioni di dollari.

Powerset, di cui abbiamo già parlato qui e qui, è una delle startup (insieme a Hakia e ad alcuni altri) che cercano spazio nel mondo dei motori di ricerca web utilizzando tecnologie “semantiche” e di analisi del linguaggio naturale (tecnologia Xerox, nel caso di Powerset).

La mossa di Microsoft è sicuramente dovuta anche ad una certa abbondanza di liquidità rimasta senza destinazione dopo il fallimento dell’operazione Yahoo!, tuttavia è una mossa che colpisce: Powerset non è una piccola startup, ma un’azienda gia’ valutata oltre 40 milioni di dollari dopo l’ultimo round di finanziamento. Tuttavia non è nemmeno un’azienda affermata: dopo un paio di anni e molti denari spesi, oltre a molto hype, esiste soltanto una beta pubblica che cerca su wikipedia. Evidentemente, malgrado la crisi incombente, i tempi sono buoni per investimenti anche in tecnologie non consolidate. Oppure la paura che Microsoft ha di Google è davvero tanta.

Resta da capire come questa acquisizione rientri in una stragegia che sembrava prevedere un rilancio del perennemente in crisi “live search” e l’integrazione delle tecnologie di Fast (acquisita a gennaio per 1,2 miliardi dollari) nelle soluzioni di tipo enterprise. L’impressione è che su questi temi Microsoft navighi un po’ a vista…

La ricerca semantica secondo Yahoo!

Fino ad oggi il mondo della “ricerca semantica”, intesa come la capacità di un applicazione di sfruttare le informazioni e i metadati presenti nelle pagine web in formati come RDF, è stato popolato da giocatori relativamente piccoli (un confronto si trova qui) o da soluzione ancora non disponibili per l’uso pubblico. Infatti, malgrado una certa enfasi giornalistica (Paul Miller in questo post si chiede a cosa sia dovuto il desiderio dei giornalisti che si occupano di tecnologia di trovare il google killer), siamo ancora lontani non soltanto da avere a disposizione applicazioni di ricerca “di nuovo tipo”, ma anche da avere capito chiaramente come queste nuove applicazioni potranno migliorare la user experience.

Yahoo ha annunciato recentemente che una parte importante della iniziativa definita Open Search Platform è il supporto per gli standard del semantc web, a cominciare da RDF e microformat. Si tratta di una novità importante, visto che Yahoo! resta un player di notevoli dimensioni nel mondo della ricerca. Si tratta anche di un approccio che ci sembra sulla strada giusta: piuttosto che porsi l’obiettivo, ambizioso, ma di difficile definizione, di sostituire la tradizionale ricerca full text con una ricerca diversa (”concettuale” o “semantica”), Yahoo! afferma più debolmente che i risultati ottenuti dall’utilizzo dei metadati strutturati possono servire, “ove possibile” a migliorare la ricerca full text.

Crediamo che in questo caso la parola chiave sia “ove possibile”. Non tutte le informazioni presenti in rete possono essere strutturate usando RDF, ma molte informazioni in rete già lo sono, per esempio dalle informazioni bibliografiche (da amazon alla libreria del confìgresso) o i profili di LinkdIn. La buona idea di Yahoo! è di inziare a sfruttare queste informazioni che gia’ esistono, piuttosto che proporsi di ripartire da zero per assegnare metadati semantici a tutto quanto. L’altra buona idea è di mantere un approccio aperto, consentendo a chiunque, all’interno della open search platform, di accedere a questi dati, distinguendosii in questi da coloro, come twine, che stanno puntando alla creazione di silos informativi prorprietari. Si tratta quindi di iniziare a sperimentare.

Marco Varone su “Che cos’è un motore di ricerca semantico”

Vale la pena rilanciare e commentare questa intervista a Marco Varone su Punto Informatico, almeno per questa affermazione:

“Oggi non è pensabile un motore di ricerca (semantica) per tutto il web come Google – prosegue Varone – ma per alcuni settori, quando il problema non è troppo complesso e ci si limita ad un contesto specifico, è possibile implementare soluzioni che consentono di guadagnare tempo e ottenere risultati migliori”

Rispetto alle mirabolanti promesse di alcuni (powerset, hakia, lo stesso Varone in altri interventi) questo approccio ci riporta in un situazione un po’ più realistica.

Chi si occupa di linguistica o di intelligenza artificiale è abituato, infatti, a trovarsi a che fare con situazioni come questa: il problema è interessante ma è davvero molto complicato da risolvere, sarebbe bellissimo avere una soluzione universale che vada bene per tutte le istanze del problema, ci promettiamo che la avremo entro il prossimo anno (o lustro o secolo) e poi non riusciamo a farcela.

Di fronte a questi problemi che resistono alla soluzione, le reazione sono due. La prima è sfidare virilmente la difficoltà, affermando che il problema è risolvibile e basta risolverlo, ci vorrà tempo e denaro ma ce la faremo (addirittura alcuni dcono che è già stato risolto, ma di solito sanno che non è vero). La seconda è indebolire gli obiettivi e accontentarsi di risolvere il problema non nel caso generale, ma in alcuni (possibilmente tanti) casi particolari.

Continua a leggere ‘Marco Varone su “Che cos’è un motore di ricerca semantico”’

Il futuro dei personal media ed il Google Enigma

Valeria Maltoni  in questo post fa alcune considerazioni sulla crescita dei personal media. Attualmente Google ha il potere di influenzare i contenuti dei social media: infatti molti scrivono in modo da ottenere traffico dal principale motore di ricerca (un po’ come accaduto con Blogbabel). Strutturare un blog in modo da ottenere la maggior parte delle visite da Google può essere controproducente, ad esempio nei casi in cui Google decide di modificare il Pagerank (la cosidetta Google dance), come sta accadendo sempre più spesso, punendo chi compra i link o quei siti che appartengono ad un network, con molti link tra loro nell’ambito del network, ma senza avere nulla in comune dal punto di vista dei contenuti.

Ci sono sistemi diversi per ottenere traffico: è possibile costruire una rete di contatti interessati ai contenuti prodotti, sfruttando le innate capacità relazionali delle persone, utilizzando i siti di social bookmarking oppure i nuovi ”crowdsourcing” networks come TechMeme o Mahalo.

Pertanto è necessario riflettere sul futuro dei personal media e sulle diverse opzioni di crescita che ci troviamo davanti. E’ giusto utilizzare il modello di innovazione proposto da Google? Siamo sicuri di volerci affidare completamente ad un unica organizzazione? Che ci constringe a delle regole che si fondano su valori che magari non condividiamo? Che ci fà ragionare come macchine invece che come persone?

Come conclude Conversation Agent, se logica sottostante ad ogni business di successo consiste nel “servire al meglio i propri clienti ”….ricordiamoci che i clienti di un ”personal media” sono i suoi lettori…e che qualsiasi strada verrà perseguita dovrà puntare a renderli (i lettori) sempre più soddisfatti dei contenuti trovati.

Web semantico e/o semantic web: io sono più semantico di te

Adesso che siamo tutti almeno un po’ semantici (ricerca semantica, motore semantico, tecnologia semantica, web semantico…) dobbiamo iniziare a distinguerci. Infatti, a quanto pare c’e’ semantica e semantica e non tutte le semantiche sono uguali.
In pratica la situazione è:
- ci sono quelli che usano semantica nel senso di semantic web: per costoro la rete deve diventare una gigantesca macchina inferenziale fondata su più o meno arcani sistemi di metadati (e accora più arcani sistemi di rapprsentazione di essi)
- ci sono quelli che usano semantica nel senso di approcci probabilistici (approcci bayesiani, latent semantic analysis e simili). Fino a poco tempo questi erano gli unici a parlare di semantic search; per costoro il significato emerge, in qualche modo, da complicati ragionamenti sulle occorrenze e co-occorenze di elementi linguistici (o anche non linguistici).
- ci sono quelli che usano semantica come sinonimo di “qualunque che cosa che faccia un’analisi del testo che vada oltre i caratteri di cui è composto”. Per costoro anche una semplice normalizzazione morfologica (che consente di trattare cane e cani come la stessa forma)  è semantica.
- ci sono quelli che usano semantica come sinonimo di semantica lessicale. Per costoro vale il seguente ragionamento: i significati e le relazioni tra significati, da che mondo e mondo, stanno nei dizionari; io ho un grosso dizionario, quindi faccio  analisi semantica. Talvolta questi grossi dizionari, magari specifici di dominio, sono chiamati ontologie. L’uso del termine “ontologia” al posto di “dizionario” ha, in molti contesti (non tutti, chiaramente), lo stesso ruolo comunicativo dell’uso del termine “rinite” al posto del termine “raffreddore”.

Indiscutibilemente la parola “semantica” sta subendo un processo di perdita di significato, almeno nel mondo IT (e in certi meandri della stampa tradizionale). Per fortuna i filosofi, i logici  e gli scienziati cognitivi si occupano poco di IT e quindi sui nostri blog e siti web e brochure possiamo dire quello che ci piace senza paura di essere corretti. Tuttavia ci teniamo a ribadire un concetto di una certa importanza (e anche di una certa ovvietà).

Continua a leggere ‘Web semantico e/o semantic web: io sono più semantico di te’

Informazione e salute: l’ho letto su internet…

Abbiamo già avuto modo di parlare dell’informazione presente in rete sui temi della salute e della sanità discutendo delle iniziative di Microsoft e Google per la creazione di un motore di ricerca verticale sanitario.

La rivista Cancer pubblica, nel numero ora online,  uno studio sull’affidabilità delle informazioni disponibili in rete sul tema del cancro al seno.

Lo studio di Cancer ha analizzato alcune centinaia di siti web dedicati al cancro al seno, selezionati tra quelli facilmente accessibli attraverso i motori di ricerca, per valutare la qualità delle informazioni che un cittadino può trovare sull’argomento.

I risultati sono in gran parte incoraggianti: su 343 siti sono state trovate soltanto 41 affermazioni errate, presenti in 18 siti, quindi il 5.2% del totale. In questo caso sembra falsa l’affermazione generalizzate e un po’ qualunquista secondo cui la rete è piena, in particolare per quanto riguarda la salute, di informazioni false o non affidabili.

Nello studio i ricercatori hanno selezionato i risultati ottenuti eseguendo 15 query sui motori di ricerca e hanno valutato i siti utilizzando criteri di accuratezza formale (chiarezza nell’identificare l’autore delle affermazioni e le sue credenziali) e di accuratezza di contenuti. La conclusione (piuttosto ovvia) è:

“Most breast cancer information that consumers are likely to encounter online is accurate. However, commonly cited quality criteria do not identify inaccurate information. Webpages that contain information about CAM (complementary and alternative medicine) are relatively likely to contain inaccurate statements. Consumers searching for health information online should still consult a clinician before taking action”

Vale la pena ricordare che le query per identificare i siti su cui effettuare la ricerca sono state eseguite tra i 1 giugno e il 30 luglio del 2004 (così riporta WebMD, un sito di informazione medica), a tutti gli effetti quindi circa un secolo fa in termini di evoluzione della rete. Varrebbe la pena ripetere l’indagine oggi, tenendo conto dello scenario attuale.

L’archivio storico online del Corriere della Sera è disponibile gratis!

La notizia è ottima, l’iniziativa assai lodevole: l’archivio storico del Corriere della Sera dal 1992 è disponibile gratuitamente on line. Il servizio è stato annunciato così:

Il Corriere della Sera ha aperto, primo quotidiano in Italia e tra i primi a livello internazionale, il proprio archivio storico ai lettori. Il nuovo servizio (disponibile all’indirizzo archiviostorico.corriere.it) permette di accedere gratuitamente a un patrimonio informativo di 1.300.000 articoli comparsi sul quotidiano a partire dal 2 gennaio 1992 ad oggi

(dalla news su corriere.it)

In effetti il servizio è spettacolare. Però, come sempre c’è un però. La parte di ricerca e navigazione non è proprio quello che ci saremmo aspettati.

Pochi giorni fa Ask ha lanciato BigNews, il nuovo servizio di ricerca / aggregazione di notizie. Provate a fare un confronto. A parte il differente impatto grafico (comunque l’occhio vuole la sua parte), è la diversa filosofia che colpisce. Ask ha realizzato un motore di ricerca di notizie, con funzionalità avanzate di aggregazione, suggerimenti contestuali e possibilità di tracciare la diffusione di una notizia e l’evoluzione di una storia (per non parlare della ricerca sui blog e l’integrazione con Digg).

Il Corriere ha realizzato un archivio, con funzioni di ricerca relativamente limitate e nessuna capacità di navigazione relazionale. Non sarebbe stato difficile fare qualcosa di più (riconoscimento automatico di nomi propri e luoghi, facet browsing, un po’ di classificazione dinamica…).

Evidentemente l’iniziativa del Corriere è stata pensata in termini documentaristi: un archivio in cui conservare. E’ un peccato, perché una risorsa come questa dovrebbe essere messa a disposizione come una risorsa in cui trovare e navigare. L’unico “vezzo” dell’archivio è una sorta di tag cloud costruita a partire dalle ricerche degli utenti, che dovrebbe consentire di conoscere in tempo reale le parole cercate più frequentemente. Peccato che questa feature sia stata relegata a fondo pagina dopo i collegamenti sponsorizzati e una pesante interfaccia per la navigazione nelle varie annate.

Insomma, l’iiniziativa è splendida e siamo grati al Corriere per aver reso disponibili i dati. Ora si dovrebbe costruire attorno a questi dati una vera applicazione di ricerca.

La organic search equity: l’esempio di JC Penney

Per misurare l’impatto di una campagna online oltre alle tradizionali tecniche di misurazione quali ad esempio le impression o il click-through rate,  si può prendere in considerazione la “organic search equity“: il valore che deriva dalla ricerca organica sui motori di ricerca. Infatti  creare o aggregare contenuti interessanti e lasciare che i lettori li condividano attraverso i social media può migliorare i risultati di posizionamento e visibilità relativi al brand e ad elementi ad esso collegati sui motori di ricerca.

Creare contenuto interessante per una campagna online “content-focused” può essere complesso e costoso, perciò spesso è più efficace aggregare contenuti di qualità, prodotti da persone impegnate, ad esempio blogger, che hanno già un loro seguito di utenti e possono spostare la conversazione sul network aziendale.

Questa tecnica è stata già adottata dalla famosa catena di grandi magazzini USA JC Penney, che, in collaborazione con Federated Media, ha lanciato Fall Shopping Guide, una raccolta di contenuti di blog (ad esempio Dooce, The Mommy Blog e Confessions of a Pioneer Woman) di donne (blogger) molto popolari. L’azienda JC Penney non ha potuto influenzare il contenuto dei blog aggregati (tanto che non tutti i blogger aggregati hanno citato il lancio del progetto), ma in ogni caso il traffico verso il sito ha cominciato a crescere con visitatori che provenivano sia dai siti di social bookmarking come StumbleUpon che dai feed RSS a dimostrazione che gli utenti stavano sottoscrivendo il sito ed erano interessati ai contenuti.

Una volta che le persone si sentono parte dell’esperienza, vogliono condividerla con i loro amici attraverso i social media, generando traffico che google non impiega molto a notare. Infatti a circa quattro mesi dal lancio del progetto la guida allo shopping di JC Penney si posiziona al quinto posto tra i risultati della ricerca “fall shopping” tra 13 milioni di risultati e al secondo posto tra 4 milioni di risultati per la ricerca “fall shopping guide.”

L’agenzia interattiva di JC Penney, Avenue A/Razorfish, pur senza riferirsi direttamente a questa campagna, ha parlato in generale di una ricerca che dimostra lo spostamento dell’autorevolezza tra le varie fonti di informazione: in particolare i blog sono diventati fonti degne di fiducia che possono suscitare interesse nei confronti di taluni prodotti. Tuttavia la  grande crescita dei contenuti disponibili online richiede l’esistenza di filtri per valutare l’affidabilità del contenuto. A questo propoosito Jeff Lanctot, senior VP della Avenue A/Razorfish, suggerisce che (in futuro) tale funzione di filtro potrà essere svolta dai brand considerati più autorevoli e affidabili.

Pagina Successiva »


Subscribe to MediaMeter

RSS Web mining world

  • Predictive Text Analytics and SPSS's Predictive Enterprise Vision Luglio 17, 2009
    Damn trademarks. I'm slated to speak on predictive text analytics at October's Predictive Analytics World conference near Washington DC. Release of the PAW agenda elicited a twitter comment from my friend Olivier Jouve, "Seth, glad to see you using 'Predictive Text Analytics' - expression that SPSS and I crafted in 2003!" (I’m a […]
    Array
  • Update on Microsoft's Madison and Fast Track Data Warehouse Products Luglio 17, 2009
    I chatted with Stuart Frost of Microsoft on Tuesday. Stuart is and remains GM of Microsoft's data warehouse product unit, covering about $1 billion or so of revenue. While rumors of Stuart's departure from Microsoft are clearly exaggerated, it does seem that his role is more one of coordination than actual management. Microsoft Madison availability […]
    Array
  • TechCrunch’s Other Ethical Travesties Luglio 17, 2009
    As TechCrunch celebrates the freedom of the press to pursue money and attention over basic civility, it makes you wonder what other stolen documents, business plans, private emails, etc. they have purchased or acquired from less well known companies. Perhaps...
    Matthew Hurst
  • Should You Buy Social Software From Your ECM Vendor? Luglio 16, 2009
    One of the questions at a "town hall" debate I facilitated at last month's Enterprise 2.0 conference addressed the topic of information lifecycle management for enterprise social spaces. Most of the attendees didn't seem to think it was necessary. I disagree. All information -- be it official enterprise documents or social content -- foll […]
    Array
  • TechNet August 2009 Luglio 16, 2009
    TechNet’s August 2009 edition features on of my network visualization on the cover.
    Matthew Hurst
  • Mike Arrington Sex Tape Scandal Mercy Dash Luglio 16, 2009
    In an ironic turn of events, Mike Arrington, the author of Valleywag, had an embarrassing video of an intimate personal moment with a friend stolen from his offices earlier today. Mr Arrington agreed that the content of the tape really...
    Matthew Hurst
  • Google Chrome OS FAQ Luglio 15, 2009
    Google's newly introduced Chrome operating system has led to a media frenzy and flurry of analyst interpretations. In a previous posting, I provided a bit of historical perspective to the Chrome OS. As a follow-up, for time-challenged readers (and who isn't?), here are five key questions -- and answers -- about the Chrome OS... How is Chrome OS dif […]
    Array
  • Beware the Dreaded Cloud Pirates! Luglio 15, 2009
    In this San Jose Mercury News article, "Cloud computing may create new venues for high-tech criminals," Brandon Bailey outlines a compelling case around a potential downside of cloud computing: crime. Matt Parrella, the federal government's top tech prosecutor in the Bay Area, had this to say: "The trend toward cloud computing, in which b […]
    Array
  • Software AG to Acquire IDS Scheer Luglio 13, 2009
    In a Teutonic transaction not likely to be surpassed unless applications giant SAP is ever acquired, Software AG announced today that it has issued a tender offer for IDS Scheer AG, the business process modeling and optimization vendor. Software AG and IDS Scheer have much in common, including their roots in Germany and their common focus on business process […]
    Array
  • What Will Drive Next-Era BI? Take the Survey! Luglio 13, 2009
    Our "Next-Era Business Intelligence" Tech Center has been a big hit since it was launched in April, drawing more than 40,000 unique visitors and hundreds of downloads of insightful reports. We're now getting ready to launch more reports, but we'd like your feedback on the topics you'd be most interested in reading about. When you th […]
    Array

mybloglog

Blog Stats

  • 57,080 hits

License