Pagerank, Autovettori e Catene di Markov

April 26, 2008 - Noises

Surfista casualeL’autovettore da $25.000.000.000 è un paper molto interessante, che discute di come l’Algebra lineare sia stata usata per plasmare il cuore di Google: Pagerank.

Si parte da un’introduzione ad alto livello, e si finisce per perdersi tra autovettori e autovalori. La favoletta legata al Page Rank è quella di un web surfer che clicca su qualche link, poi si annoia e visita una pagina a caso: dunque Page Rank è essenzialmente un’applicazione delle Catene di Markov al grafo del web in cui gli stati sono pagine, e le transizioni sono link.

Il valore del PR di una pagina web riflette la probabilità che il random surfer finisca su quella pagina cliccando su un link. Come avrete capito, l’obiettivo di questo post non è decantare l’importanza del PR nel posizionamento, ma presentare come l’algoritmo del Pagerank rappresenti un’interessante applicazione di concetti matematici. Un riferimento è l’ormai classico “The PageRank Citation Ranking: Bringing Order to the Web” di Larry Page, Sergey Brin, R. Motwani, and T. Winograd.


OpenSocial di Google

October 31, 2007 - Noises

Google Opensocial OpenSocial è un insieme di tre API definite da Google che permette agli sviluppatori di accedere a :

- Profili degli utenti
- Connessioni tra amici (Grafo sociale)
- Flusso delle attività che gli utenti compiono all’interno dei social network (il news feed già noto agli utenti di Facebook)

Le entità partecipanti si dividono in due gruppi:

- Gli Host (cioè i social network partecipanti, che includono: Orkut, Salesforce, LinkedIn, Ning, Hi5, Plaxo, Friendster, Viadeo e Oracle) che accetteranno le chiamate API, restituendo dati appropriati.
- Gli Sviluppatori: ad es. Flixster, iLike, RockYou e Slide.

Secondo quanto annunciato, l’integrazione metterà a disposizione degli sviluppatori di applicazioni Web che poggiano su social network già esistenti un’utenza pari a 100 milioni di utenti circa.

La data di lancio del progetto è questo venerdì, all’indirizzo http://code.google.com/apis/opensocial


Ricerche correlate

June 19, 2007 - Noises

Mi ha stupito come per la stessa query Google.com e Google.it suggeriscano ricerche correlate diverse:

Ricerche correlate a pc

termini inglesi correlati a PC

Scioccamente mi aspettavo di leggere la stessa lista di termini sia per l’italiano che per l’inglese, compilata una volta per tutte e poi tradotta in tutte le lingue. Ma se non è questo il processo, allora come è ottenuta?

Mi piace l’idea che i termini che compaiono nelle ricerche correlate siano indotti dalla struttura dei link della porzione del grafo del web che parla italiano, inglese, o turco, e possano rivelare ciò a cui pensano gli autori di pagine web di un particolare Paese quando sentono la parola pc.

Certo non è l’unica opzione: la lista potrebbe essere ricavata dal modo in cui i bisogni informazionali degli utenti si “incarnino” nella query [pc] inizialmente grezza, e vengano poi raffinati per gradi. O, più verosimilmente, è una combinazione di queste ed altre tecniche.

Ecco un altro esempio:

Sinonimi di storia

Storia in inglese

Qui la cosa che mi colpisce è la presenza del termine geografia in italiano e math in inglese. Che c’entrano? Sono anch’esse materie scolastiche!

Questo comportamento mi ricorda un’applicazione in cui mi ero imbattuto nei Google Labs parecchio tempo fa’: Google Sets, che crea in modo automatico insiemi di oggetti a partire dagli esempi suggeriti dall’utente.


Luci e ombre di Google

April 15, 2007 - Noises

Una volta i libri si prestavano, oppure si consigliava un titolo.
Oggi Yerimen, un amico argentino, mi ha inviato per e-mail un link per scaricare un libro.

Copertina del libro luci e ombre di Google

Vado sul sito degli autori e mi rendo conto che si tratta di un libro presentato all’Hackmeeting 2006, nell’ambito di quella che a mio parere è stata l’oretta e mezza di conversazione più interessante e più oggettiva dell’intera manifestazione.

Ora io il libro non l’ho ancora letto, causa un maledetto esame di Sistemi Distribuiti. Però dalle premesse sembra interessante.
Scarica Luci e ombre di Google in formato PDF >>


Il pesce d’aprile di Matt Cutts

April 2, 2007 - Noises

Matt Cutts, ingegnere impiegato presso Google diventato noto per l’abitudine di dispensare consigli ai webmaster, simula il defacing del proprio blog e ci regala il pesce d’aprile più riuscito della rete.

Ovviamente lo fà a modo suo, e coglie il pretesto per spiegarci come effettuare un defacing search engine friendly. :) Inizia facendo realizzare la nuova index dalla moglie, poi imposta .htaccess in modo che ogni pagina (eccetto quelle che iniziano con una “i”) effettui un redirect 302 alla index “compromessa”.

Matt prevede che, per via del carattere temporaneo del redirect 302, il numero di pagine indicizzate del proprio blog non subirà una flessione. ..se lo dice lui!


Tutti i tuoi link su Google

February 7, 2007 - Noises

Ne parlano tutti, ma se ancora non lo sapete da ora in poi i webmaster possono controllare tutti i siti che linkano i loro blog/siti personali/portali a scopo di lucro negli Strumenti per webmaster di Google. Non manca l’opzione per esportare i dati in formato CSV, da importare nel vostro foglio elettronico preferito per analisi più approfondite.

Questa dell’esportazione dei link in entrata è un’utile aggiunta agli strumenti per webmaster; nati soltanto per caricare il proprio sitemap, sembrano essere diventati il servizio targato Google che viene aggiornato più di frequente.

Altra novità? Google apre Gmail a tutti! Addio inviti.

Iscriviti a Gmail


Nella mente di Google

December 22, 2006 - Noises

Lettura della menteNon ci è dato sapere quello che le altre persone pensano di noi, se non indirettamente: interpretando il linguaggio del corpo e le loro reazioni.

Capire Google era ancora peggio: eravamo condannati a stimare quanto gradisse i nostri siti scrivendo query esoteriche, analizzando le SERP e misurando barrette verdi.

Ma da oggi, grazie ad una nuova funzionalità degli Strumenti per Webmaster di Google, la mente del motore di ricerca diventa un libro aperto, da consultare per sapere se ha capito di cosa parlano i nostri siti.

Passo subito ad illustrare la procedura:

- Determina i concetti chiave del tuo sito web.

- Verifica che Google abbia rilevato le stesse frasi che ritieni importanti. Come? Esegui il login ai webmaster tools, seleziona il tuo sito, e scegli Page analysis dalla linguetta Statistics. In questa pagina, sotto Common words in your site’s content, troverai una lista di frasi che rappresenta ciò che Google crede essere l’argomento del tuo sito.

Mi fermo qui, perchè nel mio pannello dei Webmaster Tools questa feature non è ancora disponibile :(

Fonte: Webmaster Central Blog


Google brevetta le pagine dei risultati

December 14, 2006 - Noises

Google SERP brevetto Il layout delle pagine dei risultati delle ricerche di Google (anche dette SERP) è fenomenale.

Qualcuno potrebbe dire: “è così semplice, ma che ci vuole!”, ma la proliferazione di interfacce utente scadenti in giro per la rete (e fuori) suggeriscono il contrario: è facile creare interfacce fastidiose, mentre il progetto di una buona interfaccia utente è un compito lungo e difficile (e gli addetti ai lavori lo sanno).

E allora Google si è recato presso lo US Patent and Trademark Office e ha brevettato una interfaccia grafica.

Mah! Inutile aggiungere che spero che l’unione europea non ceda alle pressioni dei giganti e continui a tenere le porte chiuse ai brevetti software, che portano ad assurdi come questo di Google e il One Click Shopping di Amazon.


Virgilio malvisto da Google?

November 16, 2006 - Noises

Apprendo dall’ottimo blog Marketing Routes che uno dei principali portali italiani (Virgilio.it) viene etichettato da Google come potenzialmente dannoso per i nostri PC.

L’esperimento da compiere è cercare Virgilio su Google e cliccare sul primo risultato, ed ecco il messaggio visualizzato:

Avviso di Google: Virgilio potrebbe contenere software dannoso

Decidendo di proseguire (ATTENZIONE: non mi assumo nessuna responsabilità nel caso decidiate di farlo ;) ), un redirect 302 server-side ci trasferisce su Alice.it. La lettura dell’RFC ci rileva il significato del codice 302: “The requested resource (virgilio.it) resides temporarily under a different URI (alice.it). Since the redirection might be altered on occasion (pensano di trasferirlo altrove o non hanno azzeccato il redirect?), the client SHOULD continue to use the Request-URI for future requests“.

Redirezione temporanea..che sia questa la causa dell’avviso? Certo è che Google non è nuovo ad avere problemini con i siti con redirect, che in passato venivano usati per alterare artificialmente il ranking.


La mia Google home page personalizzata

November 6, 2006 - Noises

“La home page classica di Google (quella minimale) è imbattibile, e compatisco gli utenti di quella personalizzata”.

Home page personalizzata su google.it

Avrei scritto questo qualche mese fà…
Ma il tempo passa e, prima di accorgermene, l’avevo già customizzata e ormai la leggo tutte le mattine.

Gli unici nei:

  • Il sistema di aggiunta degli elementi mi dà l’impressione di non aver inserito qualche elemento interessante: i più scelti non rispondono ai miei gusti e 24 elementi per pagina sono pochi.
  • La configurazione degli elementi dell’home page non è legata al mio Google Account: vorrei potervi accedere dal PC fisso, dal portatile, dall’università e in ufficio, una volta loggato su Gmail. E invece riesco a vederla solo dal pc dove l’ho customizzata.