Discutendo di analisi semantica e di monitoraggio dei social media

L’amico Carlo Bruno ha aperto sul suo blog uno spazio di discussione sulle tecnologie di analisi semantica, ecco le nostre considerazioni.
Parlare di analisi “semantica” non è facile. Il termine stesso è oggi ricco di significati molteplici e talvolta doscordanti (ne ho parlato qui).

Il problema è che non è esattemante facile definire che cosa sia il significato (i filosofi ci provano da un po’, almeno da Platone e Aristotele, e certo non sono giunti ad un consenso universale) e non è nemmeno facile definire e valutare un sistema che afferma di utilizzare analisi semantica.
Penso che si debba partire da una definizione un po’ debole”: ci sono alcune attività, legate al significato e alla comprensione, che pur essendo proprie, a quanto ne sappiamo, quasi soltanto degli esseri umani, possono essere in qualche maniera automatizzate ed eseguite da programmi di computer.
In Blogmeter, i nostri programmi manifestano comprensione di un testo in non moltissimi casi, rispetto alla enorme molteplicità dei fenomeni linguistici, ma in casi comunque utili e interessanti.
Riusciamo, con un buon grado di successo, a classificare un testo. La classificazione automatica è da alcuni un po’ snobbata, in quanto può essere fatta anche con tecnologie di machine learning (statistiche, non simboliche), tuttavia, data la nostra definizione debole e pragmatica, ci sentiamo di affermare che dire di che cosa parla un testo è un’attività che è sicuramente semantica.
In molti casi, di solito in domini ristretti, riusciamo a estrarre informazioni di dettaglio a partire dalle descrizioni linguistiche: per esempio riusciamo non soltanto a dire che un certo testo parla di un problema, ma a anche a dire di che problema si tratta, quale è il suo grado di criticità percepita, quali sono gli elementi o gli aspetti di un prodotto / servizio che vengono percepiti come problematici. In generale, possiamo estrarre “fatti”, intesi come descrizioni di eventi e situazionio accaduti e descritti linguisticamente e associarli ad una “ontologia“, intesa come una descrizione formale di cio’ che esiste in un dominio a partire dalla quale si possono effettuare inferenze.
Avendo a disposizione le opportune risorse (nel nostro caso una rete semantica) i nostri programmi manifestano una certa capacità di effettuare inferenze basate sul significato delle parole, per esempio dall’affermazione: “l’operatore del call center non ha saputo rispondere” possiamo inferire che qualcuno ha chiamato il call center.
Tutto questo viene fatto, proprio perche’ incorporiamo un sistema di analisi del testo che è composto di almeno tre elementi principali:

  • un lessico che fornisce significati e relazioni tra significati,
  • un parser, che fornisce analisi sintattiche ricostruendo la struttura della frase,
  • uno o più moduli di interpretazione che trattano fenomeni semantici, dall’identificazione delle relazioni soggetto / oggetto / complementi alla capacità, di solito, come detto, dipendente da dominio, di identificare fatti, eventi e relazioni tra di essi.

La copertura sintattica dei fenomeni della lingua è nel nostro caso piuttosto ampia, così come è ampia la copertura lessicale, anche se il fine tuning è continuo, soprattutto avendo a che fare con testo molti particolari quali quelli presenti nei social media. La precisione delle analisi è buona, talvolta ottima, almeno laddove una misura è possibile.
La direzione in cui stiamo lavorando più alacremente in questo periodo è rinforzare la comprensione del linguaggio emotivo, soggettivo ed emozionale, che in certi settori è quasi la norma. L’idea è che non è soltanto utile e interssante scoprire se l’opinione espressa su un prodotto / servizio è positiva o negativa, ma anche capire quale è l’atteggiamento soggettivo verso quel prodotto / servizio, lungo linee quali la fiducia, il timore, l’engagement in generale.
In ogni caso, e’ chiaro che se l’utente non percepisce alcuna differenza di qualità dei risultati, allora e’ meglio andare avanti con il buon vecchio vector space model. Bisogna pero’ essere consapevoli che per catturare certi fenomeni la statistica delle occorrenze e il pagerank non saranno mai sufficienti, basta provare a catturare concetti come la fiducia o le intenzioni di acquisto. E’ per questo che vale la pena di investire in tecnologie di analisi del linguaggio.
Insomma, consapevoli dei limiti, non soltanto tecnologici ma insiti nella natura stessa del problema (le proprietà computazionali di certi fenomeni linguistici, per esempio la ccordinazione, si sa che non sono sono proprio amichevoli), andiamo avanti nella ricerca e nell’applicazione dei suoi risultati.

4 Risposte a “Discutendo di analisi semantica e di monitoraggio dei social media”


  1. 1 karlitos Marzo 19, 2008 alle 11:41 am

    la discussione che si è aperta sul blog è stata effettivamente vivace e ringrazio vittorio e sacha di avervi partecipato. se posso astrarre un concetto (non tecnologico) quello che sembra emergere da parte di alcuni è una certa diffidenza nei risultati prodotti da tali tecnologie.
    se posso aggiungere la mia modesta opinione credo che debbano essere poste due premesse a questa valutazione: comprensione delle attese, che devono essere adeguate allo stato dell’arte, altrimenti una eventuale delusione viene ingigantita e “nasconde” risultati anche notevoli che possono essere ottenuti.
    chiarezza degli obiettivi e delle alternative. strumenti di questo genere in alcuni campi danno, come sostiene vittorio in questo post, risultati importanti che non potremmo raggiungere altrimenti.

  2. 2 Andrea Barchiesi Marzo 21, 2008 alle 12:24 pm

    Salve a tutti, colgo l’invito di Sacha lanciato su un altro blog che sta contemporaneamente dibattendo sullo stesso tema.
    Più che di diffidenza parlerei di un tema che è appena stato sdoganato dai laboratori di ricerca ed è diventato di forte interesse per le aziende. L’argomento è complesso e ha implicazioni forti in vari settori del marketing e della comunicazione.
    Questo a mio avviso è solo il primo passo di una consapevolezza che sarà crescente. Ci si concentra in questo caso nel’analisi semantica e si discute della sua efficacia o meno. Questo però è solo il penultimo anello della catena, una catena complessa e per nulla scontata, un valore già percepito in modo chiaro dalle aziende è reperire informazioni importanti dall’oceano che ormai è il web. Monitorarle. Studiarne gli andamenti. Verificarne il potenziale virale.

    In questa chiave di lettura gli strumenti sono essenziali, impensabile navigare l’oceano web con un canotto.


  1. 1 Marco Varone su “Che cos’è un motore di ricerca semantico” « MediaMeter Trackback su Marzo 28, 2008 alle 5:07 pm
  2. 2 Ricerca semantica, mito e realtà « MediaMeter Trackback su Giugno 5, 2008 alle 12:52 pm

Lascia una Risposta




Subscribe to MediaMeter

RSS Web mining world

  • Is Your City HyperLocal? Luglio 3, 2009
    Seattle resident’s are spoiled for choice when it comes to hyperlocal blogging. In addition to a couple of networks – Next Door Media {My Ballard, PhinneyWood, Magnolia Voice, Queen Anne View, Fremont Universe} and Neighborlogs {Capitol Hill Seattle, Central District...
    Matthew Hurst
  • Interactive Dashboards: US.Gov Aces, Wimbledon Double Faults Luglio 2, 2009
    The US government has unveiled a dashboard to track IT spending, which looks at first sight a shining example of the power and value of business intelligence. The Wimbledon tennis dashboard, on the other hand, appears less than impressive… As reported in The New York Times, the so-called IT Dashboard was put together by the US government in a remarkably sho […]
    Array
  • Government Dashboard Scores a Bulls-Eye Luglio 2, 2009
    The US government has unveiled a dashboard to track IT spending. Apparently put together in a remarkably short six weeks, it looks at first sight a shining example of the power and value of business intelligence. But don't take my word for it... browse the dashboard yourself! As reported in The New York Times, the so-called IT Dashboard will "track […]
    Array
  • Naughty Feeds Luglio 2, 2009
    Do you have a naughty feed? Come on, admit it. You deliberately left out the title, or did you put in an empty summary? Maybe you’re the one who doesn’t put in any dates, or perhaps you set the permalink...
    Matthew Hurst
  • Bing haz Twitter Luglio 2, 2009
    This is very cool. When Bing recognizes a search for a celeb (of the real space or other varieties), it will provide an answer composed of their Twitter identity and recent tweets. Not yet rolled out for me, but the...
    Matthew Hurst
  • CEP, Events, and Continuous {Transformation | Intelligence} Luglio 1, 2009
    Given that BI thought leaders are wrestling with the notion of events, perhaps we will see a BI-mainstreaming of event processing in the not-too-distant future. Myself, I was way ahead of the game in my expectations of demand for BI access to stream sources. While a combination of legacy database and analytical technology has held BI back, lack of perception […]
    Array
  • Mulling the Mystery of Microsoft's BI Market Share Luglio 1, 2009
    How do you gauge Microsoft's business intelligence market share when it gives BI functionality away for free? That was a bit of a puzzle even before Microsoft's January announcement that it would end development of the PerformancePoint Server, the one and only entirely BI-focused product the company had. As part of that move, Microsoft now bundles […]
    Array
  • Twisting Terms to Make BI Market Share Claims Giugno 30, 2009
    I always look forward to IDC's annual BI market shares, waiting to see who comes out on top and who is losing ground. I'm sure everyone noticed that they were, in fact, a month early this year! Call me a bean counter at-heart, but I like the irrefutable, quantifiable comparison they bring that other evaluations (including my own BI Scorecard) lack. […]
    Array
  • Free, Blogs Giugno 30, 2009
    The Blog Herald comments on the Free skirmish between Gladwell and Anderson by pointing out The blog is alive and kicking, if nothing else but because it is hard to pick critics and arguments to pieces in 140 characters or...
    Matthew Hurst
  • Bucking the Cloud Computing Hype Giugno 29, 2009
    Years ago I was running a large software development shop when the "offshoring" movement became all that and a bag of chips. I felt extreme pressure to fire some of my staff in the US and cut a deal with the dozens of outsourcing firms that were calling me daily. I was asked about offshoring so many times that it was clear to me that the pressure w […]
    Array

mybloglog

Blog Stats

  • 56,476 hits

License