Microsoft non si compra Yahoo, ma si compra Powerset

Secondo quanto riportato da VentureBeat, Microsoft è prossima a chiudere l’acquisizione di Powerset per una cifra superire ai 100 milioni di dollari.

Powerset, di cui abbiamo già parlato qui e qui, è una delle startup (insieme a Hakia e ad alcuni altri) che cercano spazio nel mondo dei motori di ricerca web utilizzando tecnologie “semantiche” e di analisi del linguaggio naturale (tecnologia Xerox, nel caso di Powerset).

La mossa di Microsoft è sicuramente dovuta anche ad una certa abbondanza di liquidità rimasta senza destinazione dopo il fallimento dell’operazione Yahoo!, tuttavia è una mossa che colpisce: Powerset non è una piccola startup, ma un’azienda gia’ valutata oltre 40 milioni di dollari dopo l’ultimo round di finanziamento. Tuttavia non è nemmeno un’azienda affermata: dopo un paio di anni e molti denari spesi, oltre a molto hype, esiste soltanto una beta pubblica che cerca su wikipedia. Evidentemente, malgrado la crisi incombente, i tempi sono buoni per investimenti anche in tecnologie non consolidate. Oppure la paura che Microsoft ha di Google è davvero tanta.

Resta da capire come questa acquisizione rientri in una stragegia che sembrava prevedere un rilancio del perennemente in crisi “live search” e l’integrazione delle tecnologie di Fast (acquisita a gennaio per 1,2 miliardi dollari) nelle soluzioni di tipo enterprise. L’impressione è che su questi temi Microsoft navighi un po’ a vista…

Discutendo di analisi semantica e di monitoraggio dei social media

L’amico Carlo Bruno ha aperto sul suo blog uno spazio di discussione sulle tecnologie di analisi semantica, ecco le nostre considerazioni.
Parlare di analisi “semantica” non è facile. Il termine stesso è oggi ricco di significati molteplici e talvolta doscordanti (ne ho parlato qui).

Il problema è che non è esattemante facile definire che cosa sia il significato (i filosofi ci provano da un po’, almeno da Platone e Aristotele, e certo non sono giunti ad un consenso universale) e non è nemmeno facile definire e valutare un sistema che afferma di utilizzare analisi semantica.
Penso che si debba partire da una definizione un po’ debole”: ci sono alcune attività, legate al significato e alla comprensione, che pur essendo proprie, a quanto ne sappiamo, quasi soltanto degli esseri umani, possono essere in qualche maniera automatizzate ed eseguite da programmi di computer.
In Blogmeter, i nostri programmi manifestano comprensione di un testo in non moltissimi casi, rispetto alla enorme molteplicità dei fenomeni linguistici, ma in casi comunque utili e interessanti.
Riusciamo, con un buon grado di successo, a classificare un testo. La classificazione automatica è da alcuni un po’ snobbata, in quanto può essere fatta anche con tecnologie di machine learning (statistiche, non simboliche), tuttavia, data la nostra definizione debole e pragmatica, ci sentiamo di affermare che dire di che cosa parla un testo è un’attività che è sicuramente semantica.
In molti casi, di solito in domini ristretti, riusciamo a estrarre informazioni di dettaglio a partire dalle descrizioni linguistiche: per esempio riusciamo non soltanto a dire che un certo testo parla di un problema, ma a anche a dire di che problema si tratta, quale è il suo grado di criticità percepita, quali sono gli elementi o gli aspetti di un prodotto / servizio che vengono percepiti come problematici. In generale, possiamo estrarre “fatti”, intesi come descrizioni di eventi e situazionio accaduti e descritti linguisticamente e associarli ad una “ontologia“, intesa come una descrizione formale di cio’ che esiste in un dominio a partire dalla quale si possono effettuare inferenze.
Avendo a disposizione le opportune risorse (nel nostro caso una rete semantica) i nostri programmi manifestano una certa capacità di effettuare inferenze basate sul significato delle parole, per esempio dall’affermazione: “l’operatore del call center non ha saputo rispondere” possiamo inferire che qualcuno ha chiamato il call center.
Tutto questo viene fatto, proprio perche’ incorporiamo un sistema di analisi del testo che è composto di almeno tre elementi principali:

  • un lessico che fornisce significati e relazioni tra significati,
  • un parser, che fornisce analisi sintattiche ricostruendo la struttura della frase,
  • uno o più moduli di interpretazione che trattano fenomeni semantici, dall’identificazione delle relazioni soggetto / oggetto / complementi alla capacità, di solito, come detto, dipendente da dominio, di identificare fatti, eventi e relazioni tra di essi.

La copertura sintattica dei fenomeni della lingua è nel nostro caso piuttosto ampia, così come è ampia la copertura lessicale, anche se il fine tuning è continuo, soprattutto avendo a che fare con testo molti particolari quali quelli presenti nei social media. La precisione delle analisi è buona, talvolta ottima, almeno laddove una misura è possibile.
La direzione in cui stiamo lavorando più alacremente in questo periodo è rinforzare la comprensione del linguaggio emotivo, soggettivo ed emozionale, che in certi settori è quasi la norma. L’idea è che non è soltanto utile e interssante scoprire se l’opinione espressa su un prodotto / servizio è positiva o negativa, ma anche capire quale è l’atteggiamento soggettivo verso quel prodotto / servizio, lungo linee quali la fiducia, il timore, l’engagement in generale.
In ogni caso, e’ chiaro che se l’utente non percepisce alcuna differenza di qualità dei risultati, allora e’ meglio andare avanti con il buon vecchio vector space model. Bisogna pero’ essere consapevoli che per catturare certi fenomeni la statistica delle occorrenze e il pagerank non saranno mai sufficienti, basta provare a catturare concetti come la fiducia o le intenzioni di acquisto. E’ per questo che vale la pena di investire in tecnologie di analisi del linguaggio.
Insomma, consapevoli dei limiti, non soltanto tecnologici ma insiti nella natura stessa del problema (le proprietà computazionali di certi fenomeni linguistici, per esempio la ccordinazione, si sa che non sono sono proprio amichevoli), andiamo avanti nella ricerca e nell’applicazione dei suoi risultati.

A BigG non interessa il linguaggio naturale: “ci interessa il significato delle parole”

L’intervista a Peter Norvig, Director for Search Quality di Google, pubblicata sulla MIT Technology review, ci fa capire due cose:

  1. BigG non crede alle query in linguaggio naturale (NLP)
  2. E’ più facile parlare di NLP quando si sa di cosa si sta parlando

Google, non crede alle query in linguaggio naturale, non pensa, come Powerset, Hakia e qualche altro che l’information retrieval si debba trasformare in question answering per avere successo:

we don’t think it’s a big advance to be able to type something as a question as opposed to keywords. Typing “What is the capital of France?” won’t get you better results than typing “capital of France”

Contemporaneamente però:

We think what’s important about natural language is the mapping of words onto the concepts that users are looking for [...] But understanding how words go together is important. To give some examples, “New York” is different from “York,” but “Vegas” is the same as “Las Vegas,” and “Jersey” may or may not be the same as “New Jersey.”

In effetti è proprio di questo, non di question answering, che si occupano i linguisti: di come certe relazioni di significato sono veicolate da certe espressioni linguistiche (e non da altre).

Tutto sommato è bello sapere che la più grande azienda al mondo che manipola, analizza, indicizza espressioni linguistiche (contenute in alcuni miliardi di documenti creati da alcuni milioni di esseri umani) sa esattamente che cosa sta facendo, e forse sta facendo la cosa giusta.

Nota a margine: Il lancio su slashdot di questa intevista in 24 ore ha accumulato quasi 150 commenti: l’argomento indubbiamente piace.

Iscriviti

Ricevi al tuo indirizzo email tutti i nuovi post del sito.