User:Bluekuma/sandbox

Tengt Efni

A study on Icelandic Wikipedia's pages network

by Enrico Guiraud

Intro
Abbiamo pensato che potesse essere interessante studiare una rete empirica VIVA com'è wikipedia, in costante aggiornamento. Ci siamo concentrati propri
 * _| titolo: il mio progetto come pagina di wikipedia, magari le cose non interessanti fuori fuoco (usare sandbox, screenshot -> gimp)

Data acquisition and processing
Wikipedia mette a disposizione dei dump di tutte le proprie pagine in un database online, ma ho preferito, piuttosto che parsare un singolo file xml di
 * _| titolo sezione: Il Codice (screenshot di multiget_related -> gimp con titolo in sovraimpressione)

Building the network
- l'API di wikipedia (come funziona, come ci si interfaccia) perchè curl (i cookie, l'account wikimedia) esempio di richiesta all'API |_| screenshot google chrome con richiesta api e risultato (magari due, uno per il contenuto pagina e uno per i timestamp) - parsing via awk (se parso un header --> codice) (se parso il contenuto di un wikifile --> codice - regex per matchare uno wikilink) - problemi riscontrati (solo quelli interessanti)
 * _| la regex che matcha un wikilink
 * _| diagramma di flusso di multiget_related


 * _| slide con tutta quanta la iswiki

Network analysis
- la classe Nodo, la classe Grafo - come faccio pageranking
 * _| slide con gli schemi di entrambi le classi, datamembri e metodi che uso nel progetto

Results and plots
- skimming dei dati (quali pagine effettivamente considero rispetto al totale) |_| schema dello skimming con qualche dato numerico
 * _| correlazione frequenza media di modifica -> pagerank, indegree
 * _| correlazione pagerank - indegree ? (ce n'è poca a causa della topologia del grafo)
 * _| correlazione numero medio di visite - numero di modifiche (ultimi 90 giorni)
 * _| burst nei periodi tra una modifica e l'altra