Una scuola di open data

In data 9th giugno, 2011, postato in: Studi da

| Tags: ,

Quando sentii per la prima volta parlare del progetto dati.piemonte.it, a tutti noi oggi ben noto per essere un esempio virtuoso di apertura dei dati da parte dell’ente pubblico, decisi di mettere alla prova il materiale pubblicato per capire cosa poteva esserne tratto di interessante e quale fosse la sua qualità.

Avviai subito un piccolo blog (chiamato ironicamente “Masciap”, purtroppo oramai offline) in cui, a cadenza settimanale, pubblicavo una recensione di un dataset pescato più o meno a caso ed un piccolo esempio di trattamento delle informazioni contenute. Per quest’ultima finalità decisi di adottare gli strumenti più semplici ed elementari a disposizione, affinché i miei esperimenti ed i miei risultati fossero riproducibili da chiunque: Google Chart e lo scripting Bash.

Google Chart è la scelta ideale nel momento in cui si vogliono visualizzare dei dati senza eccessive pretese estetiche: permette di generare modesti grafici di diverso tipo semplicemente richiamando un URL formattato in un certo modo, in cui i numeri da rappresentare sono passati come parametri: a tale richiesta il server Google risponde con una immagine fatta e finita contenente il grafico, pronta per essere salvata, pubblicata online o inclusa in un documento.

Bash è il linguaggio di scripting nativo di ogni sistema GNU/Linux, che permette di richiamare in modo sequenziale e strutturato la pletora programmi da linea di comando che tipicamente accompagnano qualsiasi installazione. È sufficiente aprire un terminale testuale per accedere a programmi che contano le righe all’interno di un testo (wc), ne estraggono alcune parti secondo criteri più o meno sofisticati (grep), isolano varie porzioni in funzione di un separatore arbitrario (cut), e più in generale nella loro piccolezza e maneggevolezza garantiscono elevate possibilità di trattamento dei testi (ed ancora più dei files CSV, formato in cui si trovano gran parte dei contenuti di dati.piemonte.it).

Nelle mie peregrinazioni digitali sull’archivio piemontese sono incappato nel dataset “Posizione giuriudica delle scuole piemontesi”, un insieme di informazioni particolarmente interessante in quanto esplorabile secondo le più disparate euristiche: riporta dati a cadenza annuale dal 1980 al 2009 (permettendo dunque una approfondita analisi temporale), relativi a tutti o quasi i comuni piemontesi (da cui possono essere cavate ricche mappe geografiche), e la granularità dei dati è tale da poterli intersecare tra di loro in innumerevoli modi. Questo è sicuramente uno dei migliori dataset che ho avuto modo di manipolare nella mia breve esperienza sulla piattaforma.

Uno dei più grossi problemi che si pongono quando si contemplano grossi dataset con varianti ortogonali (e/o più dataset combinabili tra loro), la vera domanda che affligge l’aspirante analizzatore è “E ora, cosa ci faccio?”. Le scelte sono tante ed aumentano esponenzialmente per ogni colonna che si trova nel CSV di riferimento, alcune sono piuttosto scontate ed altre più elaborate, ma non sapendo a priori dove si vuole andare a parare ogni strada può portare a risultati inattesi e degni di nota. Nell’intimità di casa si sperimenta, in piccolo, il comune dilemma dei “Big Data”: quantità immense di numeri che contengono informazioni importanti, magari importantissime, ma nessuna nozione pregressa per poterli interpretare correttamente.

Nel summenzionato caso delle scuole sono stato fortunato. Un poco per pigrizia, un poco per i vincoli dettati dai semplici strumenti di analisi che mi sono imposto, ho optato di fare una delle cose più elementari, ovvero: contare il numero di scuole, e dividerle per anno. Ne è saltato fuori questo:

Numero di scuole in Piemonte dal 1980 al 2009

Sorvolando sul quasi costante stato nel numero di scuole per l’infanzia, scuole medie inferiori e scuole medie superiori, sono chiaramente evidenziate almeno due condizioni anomale. La prima, quella più lapalissiana, è che il numero di scuole elementari è drasticamente crollato, in alcuni periodi anche con pendenze vertiginose. La seconda è che nell’ultimo periodo il numero di scuole medie inferiori (che rientrano nel percorso di studi obbligatorio per ogni cittadino) è minore di quello delle scuole superiori (che invece sono obbligatorie solo in parte).

Il primo fenomeno è parzialmente spiegabile con la quantità di istituti disseminati nei piccoli centri abitati che, progressivamente e costantemente, vanno svuotandosi per effetto dell’urbanizzazione e non hanno dunque più un bacino di utenza che giustifichi la loro esistenza. Il secondo ha motivazioni potenziali analoghe, ed allo spopolamento dei paeselli e dei rispettivi centri educativi va affiancata la mera constatazione che gli istituti superiori sono scuole di specializzazione e ne esistono infinite tipologie che vanno a coprire esigenze e desideri specifici, dunque hanno maggiori probabilità di sopravvivenza rispetto ai livelli inferiori, tutti equivalenti e per questo facilmente intercambiabili.

Questo semplice esempio rappresenta molto bene come un insieme apparentemente scomposto e disordinato di cifre nasconda nozioni concrete e pragmatiche e possa generare meditazioni profonde, o magari innescare maggiori indagini. Le spiegazioni che io ho fornito in merito alle citate anomalie sono realistiche e sufficienti? Forse rielaborare questi numeri con le statistiche sulla popolazione dei singoli comuni potrebbe validare la mia tesi sullo spopolamento. O forse no. Forse se si avessero le quantità di studenti che hanno frequentato i vari istituti scopriremmo che quelle rimaste si sono ingrandite ed hanno “fagocitato” le più piccole. O forse bisognerebbe sovrapporre una timeline con le leggi emanate nel periodo di riferimento per il settore scolastico per scoprire che c’è una motivazione giuridica alla chiusura delle scuole elementari.

La risposta di questo dilemma, e di molti altri, sta nei numeri.

 

Studio di Roberto Guido

No Responses to “Una scuola di open data”

Leave a Reply