Archivio per la categoria 'semantica'

Tag clouds a “Essere e Avere” di Radio24

Domani (domenica 19 Aprile) se avete un secondo libero e vi va di ascoltare il sottoscritto parlare di di tag/concept clouds e rappresentazioni grafiche delle informazioni un poco innovative sintonizzatevi su radio24 alle 13:15 (il programma si chiama “Essere e Avere”).

Aggiornamento: ecco qui il podcast dell’intervento (inzia a partire dal 15° minuto della trasmissione)

A proposito di Cuil…

Una decina di giorni fa abbiamo assistito al trionfale ingresso di Cuil sulla scena dei motori di ricerca. L’accoglienza entusiastica riservata al nuovo, presunto, competitor di Google ha riguardato sia la dimensione del buzz online (una tale attenzione è stata riservata solo a eventi eccezionali quali le imprese della Carfagna…), sia quella dell’innovatività rivoluzionaria di Cuil (pronunciato cool) rispetto ai suoi predecessori.

Bisogna certamente riconoscere il successo della campagna di PR allestita attorno al nuovo motore di ricerca, basata su valori simbolici più che tecnici. Nella fattispecie, uno sfacciato dualismo con Google è stato l’espediente (poco creativo, ma molto efficace) che ha originato grande curiosità e WOM attorno a Cuil.

Società fondata da ex dipendenti di Google, indice tre volte più grande di quello di Google, interfaccia grafica simile a quella di Google (ma nera invece che bianca), tutti questi sono elementi a conferma di questa tesi, sostenuta anche da Richard MacManus su ReadWriteWeb.

Chiunque parlava di Cuil ancor prima di averlo provato, decantandone le capacità semantiche, le dimensioni dell’indice, l’originale pagina dei risultati. Presi, come spesso accade, dalla febbre della novità, pochi hanno appurato l’effettiva corrispondenza tra presunto e reale.

Sono bastati alcuni giorni e delle semplici prove di ricerca per raffreddare gli animi. Cuil è per ora un motore di ricerca assolutamente ordinario, con alcune features interessanti (ad esempio l’introduzione di clusters nella SERP – non proprio una novità, se pensiamo che Clusty li ha dal 2000), ma ancora tutto da verificare sotto i profili della rilevanza dei risultati e delle dimensioni dell’indice. Non da ultimo, Cuil deve ancora inventarsi un business model, dal momento che per ora non presenta risultati sponsorizzati, né può permettersi di creare dal nulla sistemi di online advertising, senza prima avere un certo numero di utenti fidelizzati.

Non vogliamo con questo presentare Cuil come un fuoco di paglia, sicuramente i margini di miglioramento esistono sotto tutti i punti di vista. Ma, come afferma in questo articolo David Berkowitz, per ora the safe bet is still on Google. Siamo d’accordo.

Microsoft non si compra Yahoo, ma si compra Powerset

Secondo quanto riportato da VentureBeat, Microsoft è prossima a chiudere l’acquisizione di Powerset per una cifra superire ai 100 milioni di dollari.

Powerset, di cui abbiamo già parlato qui e qui, è una delle startup (insieme a Hakia e ad alcuni altri) che cercano spazio nel mondo dei motori di ricerca web utilizzando tecnologie “semantiche” e di analisi del linguaggio naturale (tecnologia Xerox, nel caso di Powerset).

La mossa di Microsoft è sicuramente dovuta anche ad una certa abbondanza di liquidità rimasta senza destinazione dopo il fallimento dell’operazione Yahoo!, tuttavia è una mossa che colpisce: Powerset non è una piccola startup, ma un’azienda gia’ valutata oltre 40 milioni di dollari dopo l’ultimo round di finanziamento. Tuttavia non è nemmeno un’azienda affermata: dopo un paio di anni e molti denari spesi, oltre a molto hype, esiste soltanto una beta pubblica che cerca su wikipedia. Evidentemente, malgrado la crisi incombente, i tempi sono buoni per investimenti anche in tecnologie non consolidate. Oppure la paura che Microsoft ha di Google è davvero tanta.

Resta da capire come questa acquisizione rientri in una stragegia che sembrava prevedere un rilancio del perennemente in crisi “live search” e l’integrazione delle tecnologie di Fast (acquisita a gennaio per 1,2 miliardi dollari) nelle soluzioni di tipo enterprise. L’impressione è che su questi temi Microsoft navighi un po’ a vista…

La ricerca semantica secondo Yahoo!

Fino ad oggi il mondo della “ricerca semantica”, intesa come la capacità di un applicazione di sfruttare le informazioni e i metadati presenti nelle pagine web in formati come RDF, è stato popolato da giocatori relativamente piccoli (un confronto si trova qui) o da soluzione ancora non disponibili per l’uso pubblico. Infatti, malgrado una certa enfasi giornalistica (Paul Miller in questo post si chiede a cosa sia dovuto il desiderio dei giornalisti che si occupano di tecnologia di trovare il google killer), siamo ancora lontani non soltanto da avere a disposizione applicazioni di ricerca “di nuovo tipo”, ma anche da avere capito chiaramente come queste nuove applicazioni potranno migliorare la user experience.

Yahoo ha annunciato recentemente che una parte importante della iniziativa definita Open Search Platform è il supporto per gli standard del semantc web, a cominciare da RDF e microformat. Si tratta di una novità importante, visto che Yahoo! resta un player di notevoli dimensioni nel mondo della ricerca. Si tratta anche di un approccio che ci sembra sulla strada giusta: piuttosto che porsi l’obiettivo, ambizioso, ma di difficile definizione, di sostituire la tradizionale ricerca full text con una ricerca diversa (”concettuale” o “semantica”), Yahoo! afferma più debolmente che i risultati ottenuti dall’utilizzo dei metadati strutturati possono servire, “ove possibile” a migliorare la ricerca full text.

Crediamo che in questo caso la parola chiave sia “ove possibile”. Non tutte le informazioni presenti in rete possono essere strutturate usando RDF, ma molte informazioni in rete già lo sono, per esempio dalle informazioni bibliografiche (da amazon alla libreria del confìgresso) o i profili di LinkdIn. La buona idea di Yahoo! è di inziare a sfruttare queste informazioni che gia’ esistono, piuttosto che proporsi di ripartire da zero per assegnare metadati semantici a tutto quanto. L’altra buona idea è di mantere un approccio aperto, consentendo a chiunque, all’interno della open search platform, di accedere a questi dati, distinguendosii in questi da coloro, come twine, che stanno puntando alla creazione di silos informativi prorprietari. Si tratta quindi di iniziare a sperimentare.

Marco Varone su “Che cos’è un motore di ricerca semantico”

Vale la pena rilanciare e commentare questa intervista a Marco Varone su Punto Informatico, almeno per questa affermazione:

“Oggi non è pensabile un motore di ricerca (semantica) per tutto il web come Google – prosegue Varone – ma per alcuni settori, quando il problema non è troppo complesso e ci si limita ad un contesto specifico, è possibile implementare soluzioni che consentono di guadagnare tempo e ottenere risultati migliori”

Rispetto alle mirabolanti promesse di alcuni (powerset, hakia, lo stesso Varone in altri interventi) questo approccio ci riporta in un situazione un po’ più realistica.

Chi si occupa di linguistica o di intelligenza artificiale è abituato, infatti, a trovarsi a che fare con situazioni come questa: il problema è interessante ma è davvero molto complicato da risolvere, sarebbe bellissimo avere una soluzione universale che vada bene per tutte le istanze del problema, ci promettiamo che la avremo entro il prossimo anno (o lustro o secolo) e poi non riusciamo a farcela.

Di fronte a questi problemi che resistono alla soluzione, le reazione sono due. La prima è sfidare virilmente la difficoltà, affermando che il problema è risolvibile e basta risolverlo, ci vorrà tempo e denaro ma ce la faremo (addirittura alcuni dcono che è già stato risolto, ma di solito sanno che non è vero). La seconda è indebolire gli obiettivi e accontentarsi di risolvere il problema non nel caso generale, ma in alcuni (possibilmente tanti) casi particolari.

Continua a leggere ‘Marco Varone su “Che cos’è un motore di ricerca semantico”’

Una chiacchierata con Carlo Bruno per parlare di BlogMeter

Qui potete trovare il resoconto di una piacevole “chiacchierata” con Carlo Bruno che ci ha chiesto di raccontargli qualcosa di BlogMeter e dell’ascolto della rete in generale.

 buona lettura!

Discutendo di analisi semantica e di monitoraggio dei social media

L’amico Carlo Bruno ha aperto sul suo blog uno spazio di discussione sulle tecnologie di analisi semantica, ecco le nostre considerazioni.
Parlare di analisi “semantica” non è facile. Il termine stesso è oggi ricco di significati molteplici e talvolta doscordanti (ne ho parlato qui).

Il problema è che non è esattemante facile definire che cosa sia il significato (i filosofi ci provano da un po’, almeno da Platone e Aristotele, e certo non sono giunti ad un consenso universale) e non è nemmeno facile definire e valutare un sistema che afferma di utilizzare analisi semantica.
Penso che si debba partire da una definizione un po’ debole”: ci sono alcune attività, legate al significato e alla comprensione, che pur essendo proprie, a quanto ne sappiamo, quasi soltanto degli esseri umani, possono essere in qualche maniera automatizzate ed eseguite da programmi di computer.
In Blogmeter, i nostri programmi manifestano comprensione di un testo in non moltissimi casi, rispetto alla enorme molteplicità dei fenomeni linguistici, ma in casi comunque utili e interessanti.
Riusciamo, con un buon grado di successo, a classificare un testo. La classificazione automatica è da alcuni un po’ snobbata, in quanto può essere fatta anche con tecnologie di machine learning (statistiche, non simboliche), tuttavia, data la nostra definizione debole e pragmatica, ci sentiamo di affermare che dire di che cosa parla un testo è un’attività che è sicuramente semantica.
In molti casi, di solito in domini ristretti, riusciamo a estrarre informazioni di dettaglio a partire dalle descrizioni linguistiche: per esempio riusciamo non soltanto a dire che un certo testo parla di un problema, ma a anche a dire di che problema si tratta, quale è il suo grado di criticità percepita, quali sono gli elementi o gli aspetti di un prodotto / servizio che vengono percepiti come problematici. In generale, possiamo estrarre “fatti”, intesi come descrizioni di eventi e situazionio accaduti e descritti linguisticamente e associarli ad una “ontologia“, intesa come una descrizione formale di cio’ che esiste in un dominio a partire dalla quale si possono effettuare inferenze.
Avendo a disposizione le opportune risorse (nel nostro caso una rete semantica) i nostri programmi manifestano una certa capacità di effettuare inferenze basate sul significato delle parole, per esempio dall’affermazione: “l’operatore del call center non ha saputo rispondere” possiamo inferire che qualcuno ha chiamato il call center.
Tutto questo viene fatto, proprio perche’ incorporiamo un sistema di analisi del testo che è composto di almeno tre elementi principali:

  • un lessico che fornisce significati e relazioni tra significati,
  • un parser, che fornisce analisi sintattiche ricostruendo la struttura della frase,
  • uno o più moduli di interpretazione che trattano fenomeni semantici, dall’identificazione delle relazioni soggetto / oggetto / complementi alla capacità, di solito, come detto, dipendente da dominio, di identificare fatti, eventi e relazioni tra di essi.

La copertura sintattica dei fenomeni della lingua è nel nostro caso piuttosto ampia, così come è ampia la copertura lessicale, anche se il fine tuning è continuo, soprattutto avendo a che fare con testo molti particolari quali quelli presenti nei social media. La precisione delle analisi è buona, talvolta ottima, almeno laddove una misura è possibile.
La direzione in cui stiamo lavorando più alacremente in questo periodo è rinforzare la comprensione del linguaggio emotivo, soggettivo ed emozionale, che in certi settori è quasi la norma. L’idea è che non è soltanto utile e interssante scoprire se l’opinione espressa su un prodotto / servizio è positiva o negativa, ma anche capire quale è l’atteggiamento soggettivo verso quel prodotto / servizio, lungo linee quali la fiducia, il timore, l’engagement in generale.
In ogni caso, e’ chiaro che se l’utente non percepisce alcuna differenza di qualità dei risultati, allora e’ meglio andare avanti con il buon vecchio vector space model. Bisogna pero’ essere consapevoli che per catturare certi fenomeni la statistica delle occorrenze e il pagerank non saranno mai sufficienti, basta provare a catturare concetti come la fiducia o le intenzioni di acquisto. E’ per questo che vale la pena di investire in tecnologie di analisi del linguaggio.
Insomma, consapevoli dei limiti, non soltanto tecnologici ma insiti nella natura stessa del problema (le proprietà computazionali di certi fenomeni linguistici, per esempio la ccordinazione, si sa che non sono sono proprio amichevoli), andiamo avanti nella ricerca e nell’applicazione dei suoi risultati.


Subscribe to MediaMeter

RSS Web mining world

  • Should You Buy Social Software From Your ECM Vendor? Luglio 16, 2009
    One of the questions at a "town hall" debate I facilitated at last month's Enterprise 2.0 conference addressed the topic of information lifecycle management for enterprise social spaces. Most of the attendees didn't seem to think it was necessary. I disagree. All information -- be it official enterprise documents or social content -- foll […]
    Array
  • TechNet August 2009 Luglio 16, 2009
    TechNet’s August 2009 edition features on of my network visualization on the cover.
    Matthew Hurst
  • Mike Arrington Sex Tape Scandal Mercy Dash Luglio 16, 2009
    In an ironic turn of events, Mike Arrington, the author of Valleywag, had an embarrassing video of an intimate personal moment with a friend stolen from his offices earlier today. Mr Arrington agreed that the content of the tape really...
    Matthew Hurst
  • Google Chrome OS FAQ Luglio 15, 2009
    Google's newly introduced Chrome operating system has led to a media frenzy and flurry of analyst interpretations. In a previous posting, I provided a bit of historical perspective to the Chrome OS. As a follow-up, for time-challenged readers (and who isn't?), here are five key questions -- and answers -- about the Chrome OS... How is Chrome OS dif […]
    Array
  • Beware the Dreaded Cloud Pirates! Luglio 15, 2009
    In this San Jose Mercury News article, "Cloud computing may create new venues for high-tech criminals," Brandon Bailey outlines a compelling case around a potential downside of cloud computing: crime. Matt Parrella, the federal government's top tech prosecutor in the Bay Area, had this to say: "The trend toward cloud computing, in which b […]
    Array
  • Software AG to Acquire IDS Scheer Luglio 13, 2009
    In a Teutonic transaction not likely to be surpassed unless applications giant SAP is ever acquired, Software AG announced today that it has issued a tender offer for IDS Scheer AG, the business process modeling and optimization vendor. Software AG and IDS Scheer have much in common, including their roots in Germany and their common focus on business process […]
    Array
  • What Will Drive Next-Era BI? Take the Survey! Luglio 13, 2009
    Our "Next-Era Business Intelligence" Tech Center has been a big hit since it was launched in April, drawing more than 40,000 unique visitors and hundreds of downloads of insightful reports. We're now getting ready to launch more reports, but we'd like your feedback on the topics you'd be most interested in reading about. When you th […]
    Array
  • Catcher in the what? Luglio 13, 2009
    Something that interests me greatly is the relationship between inherent value and social value. For example, a book (let’s say one of those Harry Something-or-other books) has some inherent value, but it also has social value. This social value exists...
    Matthew Hurst
  • Hyperlocal Luglio 11, 2009
    I’ve removed the redirect from Hyperlocal on Wikipedia so that it no longer points to Local News. I’ve got the beginnings of an article on hyperlocal going, but could certainly use some help. One of the reasons behind separating these...
    Matthew Hurst
  • Sentiment Papers at KDD 2009 Luglio 11, 2009
    There were a few of papers at KDD this year on sentiment mining: Sentiment Analysis of Blogs by Combining Lexical Knowledge with Text Classification, Prem Melville, IBM; Wojciech Gryc, ; Richard Lawrence, IBM, USA Entity Discovery and Assignment for Opinion...
    Matthew Hurst

mybloglog

Blog Stats

  • 57,043 hits

License