Primo risultato dai dati per la tesi

Ho scaricato 1000 profili di ed ho fatto una prima statistica:

* Media post per utente 412 (0, 947, 14790)
* Media tag per utente 201 (0, 471, 7884)
* Media tag per post 3 (0, 3, 120)

Tra parentesi minimo, deviazione standard, massimo.

Ebbene si, esistono persone che hanno quasi 15.000 post, esistono persone che hanno messo 120 tag ad un singolo post, e persone che usano quasi 8.000 tag…

Il mondo è bello perché è vario!

Secondo i Terms of Service di pare si possa fare di tutto, forché fare una copia del loro sito usando i loro dati!

You may not use these or any other features or the Site itself to allow the display of a substantial portion of the database or reproduce, duplicate or copy the Site.

In un’altra parte, specifica per l’uso delle API, suggerisce di:

  • Please wait AT LEAST ONE SECOND between queries, or you are likely to get automatically throttled. If you are releasing a library to access the API, you MUST do this.
  • Please watch for 503 errors and back-off appropriately. It means that you have been throttled.
  • Please let us know ( if you are going to release software that uses this publicly, so that we can at least have a heads-up and hopefully test things out beforehand.
  • Please set your User-Agent to something identifiable. The default identifiers like “Java/1.4.3″ or “lwp-perl” etc tend to get banned from time to time.
  • If you are releasing code for other people to use, your application MUST NOT add any links without a user’s explicit direction. Likewise, you MUST NOT modify any urls except under the user’s explicit direction.

Nel rispetto di questi “suggerimenti” nel mio scaricatore in python mi sono identificato come “Student Project bla bla bla” e ho limitato la frequenza di download ad 1 pagina ogni 30-60 secondi.


A quota 1227 utenti le statistiche si presentano con:

* Media post per utente 408 [min=0, d=919, max=14790]
* Media tag per utente 198 [min=0, d=462, max=7884]
* Media tag per post 2 [min=0, d=3, max=166]

Notiamo che la deviazione standard è leggermente diminuita al crescere del campione, vedrò come questa è legata alla consistenza del campione per avere indicazioni sul numero ottimale di utenti da studiare.

*Update 23-feb:*

A quota 1674 utenti:

* Media post per utente 454 [min=0, d=963, max=14925]
* Media tag per utente 220 [min=0, d=479, max=7884]
* Media tag per post 2 [min=0, d=2, max=166]

*Update 26-feb*

Quota 2003 utenti:

* Media post per utente 466 [min=0, d=1072, max=23262]
* Media tag per utente 217 [min=0, d=463, max=7884]
* Media tag per post 2 [min=0, d=2, max=166]

This entry was posted in Tesi. Bookmark the permalink.

0 Responses to Primo risultato dai dati per la tesi

  1. Enrico Panascia says:


    mi chiamo Enrico e non ci conosciamo.

    Ti ho “beccato” ( con google,
    cercando “signoraggio”.

    La cosa sconcertante è la somiglianza dei nostri
    bookmark! Ti giuro che mi sono chiesto
    “che è successo ai miei bookmarks?”

    Che flash!

    mi becchi su


  2. Matteo says:

    eheh, è vero, Aachen, machine learning, signoraggio… lo sai che ti sei candidato per far parte dei dati della mia tesi? :-P