knowledge graph, asocialman, hummingbird, google, wikipedia

L’ho letto: A Cross-Lingual Dictionary for English Wikipedia Concepts

A proposito di Web Semantico, ormai un anno fa e oltre lessi uno studio del team di ricerca di Google. Valentin Spitkovsky e Angel X. Chang pubblicarono nel 2012 A Cross-Lingual Dictionary for English Wikipedia Concepts (nelle risorse, il PDF) in collaborazione con il Dipartimento di Scienze Informatiche dell’Università di Stanford.

I succulentissimi dati raccolti (sotto forma di file excel se non ricordo male) erano pubblici, poi sono misteriosamente spariti da un po’, ma il documento è ancora tranquillamente a disposizione di tutti ed è, a mio parere, uno di quelli che sta dietro l’abbraccio semantico dell’algoritmo Hummingbird, di cui ho parlato anche qui, lo sviluppo dell’intelligenza artificiale di RankBrain e quindi dello Knowledge Graph. Insomma, è parte della piega che ha preso il Motore di ricerca negli ultimi anni.

Ma cosa è il web semantico?

Mai come stavolta, direi che è il caso di citare l’enciclopedia open source più consultata del mondo:

Con il termine web semantico, termine coniato dal suo ideatore, Tim Berners-Lee, si intende la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) sono associati ad informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all’interrogazione e l’interpretazione (es. tramite motori di ricerca) e, più in generale, all’elaborazione automatica.

Con l’interpretazione del contenuto dei documenti che il Web semantico impone, saranno possibili ricerche molto più evolute delle attuali, basate sulla presenza nel documento di parole chiave, e altre operazioni specialistiche come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche più elaborate del semplice collegamento ipertestuale.

Come già accennato, la più evidente conseguenza pratica per l’utente è la maggiore precisione che il motore di ricerca mostra nell’offrire la risposta alla query sottoposta. Il motivo? L’avvicinamento ad un metodo di analisi che processi i dati linguistici in maniera più “umana”.

Web semantico, knowledge graph

In altre parole: da World Wide Web ai Metadati

Dare un senso alle pagine e ai link in maniera da fornire come risposta solo ciò che può essere veramente utile o pertinente. Ecco cosa fa il Web Semantico teorizzato da Berners Lee.

Le macchine diventano capaci di analizzare tutti i dati sul Web, il contenuto, i link e le transazioni tra persone e computer. […] i meccanismi quotidiani di commercio, burocrazia e vita saranno gestiti da macchine che parleranno a macchine, lasciando che gli uomini pensino soltanto a fornire l’ispirazione e l’intuito. (Tim Berners-Lee)

Un Web dove i tools imitano i flussi cerebrali interpretando i contenuti e collegando elementi diversi in un percorso inter-net, logicamente.  Il Web Semantico è un tentativo – potenzialmente ben riuscito – di rendere i contenuti comprensibili anche alle macchine.

Intelligenza Artificiale, gente.

web semantico, hummingbird, knowledge graph,

Siamo cioè nel mondo dei sistemi esperti, della logica e del ragionamento. Ma cosa c’è alla base di tutto il WS?

I metadati. Dati sui dati, informazioni sulle risorse. In un web perfettamente semantico, ogni risorsa dovrebbe avere una descrizione associata. L’adeguamento sociale e tecnologico poi è la chiave/ostacolo per la realizzazione completa di questa nuova visione/struttura.

Una parentesi sulla SEO

Già, struttura. Che è ciò che mette ogni SEO specialist alla prova con questa nuova sfida. La standardizzazione dei Microdata, il nuovo linguaggio di Markup supportato dall’HTML5 basato su un vocabolario condiviso. I dati strutturati che associano le suddette informazioni alle risorse online.

Al di là degli aspetti tecnici, l’umanizzazione dei contenuti e dell’interpretazione del motore di ricerca si ripercuote anche sulle regole di scrittura seo-oriented, rendendola – di fatto – meno seo-oriented.

Mi spiego meglio: già con l’avvento di Hummingbird l’importanza della naturalezza del linguaggio e delle long-tailed keywords è cresciuta esponenzialmente. L’ottimizzazione dei contenuti nella direzione che preferisce alle keywords la gestione delle query in maniera conversazionale, paga. Allo stesso modo la diversificazione dei contenuti (si pensi all’importanza dei sinonimi efficaci semanticamente e per evitare pratiche di keyword stuffing) orientata a soddisfare il popolo del web è una pratica sempre meglio percepita da big G.

In una intervista del 2015 Goggle classificò RankBrain al terzo posto insieme ai link e ai contenuti per la determinazione del posizionamento dei contenuti secondo l’algoritmo dedicato al ranking.

La infiltrazione delle informazioni semantiche all’interno del codice delle pagine web sembra influire relativamente fino ad ora per le pratiche relative alla SEO, ma sono certo che i tag semantici acquisiranno importanza maggiore anche in questo senso. Oltre, cioè, a determinare una corrispondenza più soddisfacente bisogno-risorsa.

Vorrei lanciarmi su una riflessione relativa alle ontologie dal basso, ma ho appena deciso che chiederò un guest post a Francesco Margherita!

A Cross-Lingual Dictionary for English Wikipedia Concepts

Torniamo alla ricerca del team di Google. Che ha fatto?

I risultati della ricerca sono riassumibili in due listone di 7.560.141 concetti e 175.100.788 stringhe di testo uniche. Una risorsa che connette parole e significati – praticamente il task chiave di Google – per facilitare la raccolta di informazioni, migliorare le corrispondenze tra queries e risultati, aiutare gli advertisers con le keywords per le campagne. Insomma queste le intenzioni dichiarate.

web semantico

Il tutto utilizzando Wikipedia come database. E la sua struttura di link interni come connessioni semantiche.

Siamo, per quanto mi riguarda, in pieno ambito linguistico-computazionale.

L’operazione svolta è stata più o meno questa:

• individuare gli articoli dell’enciclopedia e considerarli come concetti (entità o idee). Ognuno di essi è identificato da un url.

• i milioni di stringhe di testo riferiti ai concetti suddetti, invece, sono stati collezionati prendendo in considerazione tutti gli anchor text con link che puntavano ai concetti stessi – alias gli articoli di wikipedia. Anchor texts provenienti da Wikipedia, dal web intero e da pagine dell’enciclopedia in altre lingue – non inglesi quindi.

L’intento, quello di aprire al livello di generalizzazione desiderato i concetti cross-linguistici.

Una risorsa inter-linguistica, per l’appunto, che prende di petto la ricchezza e l’ambiguità del linguaggio umano. Portando al centro dello studio quelle rappresentazioni mentali, concettuali che l’essere umano fa spontaneamente perché è parte di una specie simbolica.

Lo schema del metodo di compilazione dei set di dati (non più accessibili ahimè):

I. stringa di testo -> II. URL, ovvero un concetto correlato (articolo di wikipedia) -> III. numero indicante la somma delle volte che la stringa è stata ritrovata connessa con il concetto.

Il database conteneva anche delle unità di misura per valutare il peso del grado di associazione.

Questo mio articolo, forse, acquista un valore in più ora che (ma tenterò di ritrovare il materiale) i database sono diventati difficilmente recuperabili.

 

Dietro una risposta semplice, quanti processi complessi possono coesistere?

 

 

Risorse esterne

Blog di Andrea Minini – Web Semantico

The Semantic Web – libri nello store di Google

La ricerca di Spitkovsky e Chang

Gran bell’articolo del 2013 pieno di link e tool su Moz: Semantic Web and Link Building without Links > The Future for SEO?

Ciro Bocchetti

Napoli: 5/2/1985 - Digital Marketing Specialist, Social Media Manager Laurea magistrale in Linguistica e traduzione specialistica - Inglese/Spagnolo

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *