I segreti nel tagging

L’idea dei Tag è molto semplice, stiamo navigando e troviamo un articolo interessante sull’installazione di PHP, un paio di anni fa avremmo fatto un bookmark, oggi invece salviamo il link in del.icio.us con dei “tag” che ne sintetizzano l’argomento, ad esempio: “php, apache, programmazione“.
Dal punto di vista dei dati, un sistema di tagging conserva 3 tipi informazioni:

Tag-Item-User

* L’utente che ha fatto il bookmark: User
* La risorsa che è stata salvata: Item
* I tag associati: Tag

Indipendentemente dalla struttura dati sottostante abbiamo:

* Ogni User ha associati vari Tag e vari Item.
* Ogni Item ha associati vari Tag e vari User.
* Ogni Tag ha associati vari User e vari Item.

Possiamo immaginare l’insieme di tutti i Tag come la base di uno spazio ortonormato, osserviamo che ogni User utilizza i Tag con frequenza diversa, ad esempio:

* User1: 2 x T1, 3 x T2, 1 x T3
* User2: 3 x T2, 1 x T3, 2 x T4

Lo spazio è evidentemente ha una dimensione per ognuno dei 4 Tag (T1, …, T4), in questo spazio ad ogni User possiamo associare un vettore che ha per componenti nelle varie dimensioni il numero di occorrenze dei Tag nel suo archivio.

Fin qua niente di nuovo, questa tecnica è già stata usata con successo nei motori di ricerca con le parole chiave, la novità del modello di tagging sta nella differente interpretazione che possiamo dare alla distanza tra questi vettori.
Evidentemente ogni elemento di User ha associati due vettori, in due spazi diversi: uno in Tags ed uno in Items.

Abbiamo visto che le modalità di tagging differiscono in modo sorprendente da persona a persona, sono molto legate alla personalità, al contrario gli Item sono elementi un po’ più neutrali (se non lo fossero gli attuali motori di ricerca non avrebbero senso).
Possiamo quindi interpretare tutte le possibili distanze nei tre spazi:

* Nello spazio dei Tag:
– La distanza tra due User nello spazio dei Tag rappresenta la differente personalità nello stile di tagging.
– La distanza tra due Item nello spazio dei Tag rappresenta la differente specificità dei contenuti (quando il contenuto non è specifico, i tag tendono ad essere molto diversi a seconda degli User).
* Nello spazio degli Item:
– La distanza tra due User nello spazio degli Item rappresenta la differenza negli argomenti di interesse, “disturbata” dalle possibili differenti ragioni che hanno portato al bookmark (diversi tag ad esempio).
– La distanza tra due Tag nello spazio degli Item rappresenta la differente genericità del tag (un tag generico è associato a molti Item differenti).
* Nello spazio degli User:
– La distanza tra due Tag nello spazio degli User rappresenta la diversa diffusione del Tag.
– La distanza tra due Item nello spazio degli User rappresenta la diversa popolarità dell’Item.

Il fatto di aver definito degli spazi normati permette di ereditare dalla matematica alcune comode regole. Ad esempio per “distanza” possiamo scegliere una qualsiasi norma ed utilizzare, se necessarie, le varie regole che governano gli spazi normati.

This entry was posted in Informatica, Politica, Tesi. Bookmark the permalink.

Comments are closed.