Come si diventa data scientist
Più aumenta l’importanza dei dati e più questa figura viene richiesta dalle aziende. Ne parliamo con chi in Italia è stato tra i primi a immaginare un percorso universitario per configurare questo ruolo sempre più indispensabile.
Nell’epoca in cui i dati stanno diventando sempre più centrali per il business di ogni azienda, i data scientist sono diventati una delle figure professionali più richieste e gettonate. Ma come si diventa data scientist? In questa intervista ce lo spiega Gianluca Della Vedova, professore associato del Dipartimento di Informatica presso l’Università degli Studi di Milano–Bicocca che nello stesso ateneo è fra gli organizzatori e presidente della commissione didattica della Laurea Magistrale in Data Science.
Che differenza c’è tra un data scientist di oggi e un esperto di statistica o un data analyst di dieci o venti anni fa?
Si tratta sicuramente di un’evoluzione. Ci tengo però a distinguere che cosa vuol dire data scientist oggi rispetto a uno statistico tradizionale. Nel mondo del lavoro la differenza può non essere molto forte, tranne il fatto che venti anni fa non era così usuale avere quantità di dati così imponenti da richiedere necessariamente un’analisi elaborata da un computer. Naturalmente qualcuno utilizzava già strumenti informatici, ma in generale gli specialisti preferivano approcciare la ricerca con i metodi statistici classici.
Agli studenti dico sempre, il data scientist è un ‘esploratore’ dei dati. Questi sono nati per tanti scopi diversi e, generalmente, sono già disponibili in azienda. Non bisogna quindi andare a cercarli chissà dove. Questi dati inoltre sono molto voluminosi, e quindi avendone molti, e già a disposizione, si possono fare analisi migliori e più esaustive. La formazione del data scientist parte da questo approccio, mentre lo statistico tradizionale spesso ragiona invece in termini di estrazione di un campione da un universo di riferimento, di preparazione di un questionario e cerca di ridurre il tutto a dei dati che, per come sono nati e per come si strutturano queste ricerche, sono generalmente in quantità molto ridotta. È un ribaltamento di approccio alla ricerca di informazioni significative che comunque ha radici lontane.
In che senso?
Le racconto brevemente come ho conosciuto la ‘data science’ quando ancora non si chiamava così. Nel 2001 quando sono diventato ricercatore del Dipartimento di Statistica, pur essendo laureato in informatica, il nostro preside ci indirizzava a capire come si potevano utilizzare banche dati esistenti per ottenere nuove informazioni diverse da quelle per cui erano nate originariamente. Esempio: dall’anagrafe fiscale quali analisi economiche si potevano fare.
All’epoca una banca gli chiese di preparare un questionario per analizzare come la clientela utilizzava la liquidità a disposizione. La sua risposta è stata: “Tutti questi dati sono già nel vostro sistema informativo, dateci piuttosto l’accesso a queste informazioni così da poter ricavare le risposte che cercate, in modo esaustivo e senza costruire un questionario”. Rispetto al metodo di ricerca statistico più classico, avendo a disposizione i dati, in maniera più economica si possono fare delle analisi migliori e più complete.
La formazione del data scientist parte da questo approccio e fin dall’inizio è consapevole che deve ricercare valore in una massa di dati di grandi dimensioni. Il data scientist non ha il controllo sul contenuto dei dati, ma si occupa di un tipo di analisi nuova – l’analisi esplorativa – dove parte dal fatto che non sa bene cosa troverà dentro una determinata base dati e quindi inizia a esplorare i dati per capire quali sono le ipotetiche domande a cui possono rispondere.
Cosa deve fare e cosa non deve fare oggi un data scientist operativo in azienda?
Secondo noi, sicuramente un data scientist non deve occuparsi della raccolta dei dati e quindi della loro modellazione.
Il data scientist riceve dati su cui non ha possibilità di influire, li deve capire, comprendere e analizzare. La cosa più importante per il data scientist è identificare la chiave primaria che permette di leggere al meglio le ‘tabelle’ che racchiudono i dati che gli sono stati passati. Deve capire se i dati sono normalizzati oppure, se non lo sono, cosa si deve fare per normalizzarli. Torno a ripetere che il data scientist è un esploratore, un investigatore, non è colui che ha costruito il data base. Deve capire come sono fatti i dati, e per fare ciò è importante che abbia delle forti conoscenze di dominio, con il fine di individuare il tipo di informazioni che possono essere estratte da questi.
Oggi sul tema della normalizzazione dei dati, una vulgata molto di moda sostiene che è un lavoro che porta poco valore e che andrebbe automatizzato il più possibile, cosa ne pensa?
Ritengo che anche il lavoro di normalizzazione abbia un suo valore intrinseco importante. Avere dei data set normalizzati aiuta più facilmente a capire qual è la realtà rappresentata dai dati. Un dato non normalizzato è difficile da capire, lo potrebbe fare solo chi ha modellato quel dato, chi ha costruito il data set e quindi non il data scientist.
In mancanza del dato normalizzato il data scientist potrebbe capire come muoversi analizzando la ‘documentazione’ che descrive il data set. Ma come sanno bene gli informatici il tema documentazione è una grande utopia. Per efficienza la documentazione non si fa mai quando si programma e anche quando si costruiscono i data base.
I dati non normalizzati risultano sempre molto fragili e inaffidabili, e la normalizzazione dei dati è quindi una delle attività a valore che deve compiere il data scientist e oggi non è sicuramente un lavoro che può essere automatizzato con facilità.
È anche vero però che rispetto al passato oggi, e sempre più domani, è già più facile ottenere data set con dati normalizzati, o comunque anche se non lo sono che risultino semplici da ‘leggere’. Oggi tanti dati sono prodotti in maniera automatizzata seguendo schemi ben definiti perché arrivano direttamente da software o da sensori. Sempre di più sono normalizzati, e quelli che non lo sono, sono comunque più facili perché è molto semplice capirne la struttura. File JSON o XML anche se non normalizzati danno comunque delle informazioni che permettono di capire cosa bisogna fare.
Magari nelle aziende sui dati storici la situazione è più vicina a quella di vent’anni fa che non a quella di oggi?
Sono d’accordo con questa affermazione, ma non è detto che il lavoro del data scientist sia analizzare dati legacy.
Ribadisco comunque che la tendenza è, e sarà sempre di più, avere una produzione di dati di qualità in partenza, e quindi dati normalizzati. Più andremo avanti e più i nuovi dati saranno già a posto o comunque facilmente normalizzabili. La normalizzazione è un fattore importante, ma nel tempo tenderà a diventare meno frequente. Nonostante questo, oggi un occhio esperto è indispensabile. Non credo sia possibile un’automazione completa o quasi completa del processo di normalizzazione dei dati.
Quanto di conoscenze statistiche e di conoscenze informatiche deve avere un data scientist?
Per noi la data science inizialmente è l’incrocio tra informatica e statistica, e quindi il data scientist deve conoscere, magari non con la stessa profondità di uno statistico, le metodologie statistiche, ma deve avere anche una forte e chiara competenza negli strumenti informatici che gli permettono di navigare nei dati. Poi c’è però un terzo aspetto fondamentale: il data scientist deve avere una conoscenza di dominio molto forte nell’ambito in cui opera. Ossia economia, business, piuttosto che scienze naturali, biologia, sociologia e altro ancora.
L’informatico, così come lo statistico, ha generalmente una visione molto verticale e tecnica. Il data scientist invece deve avere una formazione più ampia. Deve essere in grado di gestire la complessità e la varietà dei dati che ha disposizione, come detto deve avere competenze di dominio e deve sapere cosa gli serve per svolgere il suo lavoro sia di informatica che di statistica.
Che percorso formativo devono avere gli studenti che accedono alla vostra laurea magistrale in data science?
Tecnicamente i requisiti sono: una certificazione di inglese livello B2, diversi corsi sono infatti tenuti in questa lingua; 30 crediti formativi universitari in totale, che corrispondono all’incirca a un semestre, fra corsi di informatica, matematica, statistica e fisica. Detto questo, analizzando l’origine degli studenti che frequentano il nostro corso troviamo: un po’ meno di un terzo proviene da informatica, un po’ meno di un terzo da statistica, e quasi il 40% che arriva da tutti gli altri percorsi di studi, tra questi economia, fisica, ingegneria, matematica, scienze politiche. E abbiamo anche qualcuno che arriva da filosofia.
È chiaro che gli studenti provenienti da ‘altri studi’ devono essere persone che nell’arco della loro triennale hanno dimostrato interesse per aspetti statistici e di informatica che andranno a completare nella magistrale. Vogliamo formare i cosiddetti ‘quant’, ossia gli esperti dell’approccio quantitativo. Mi spiego: un laureato in economia che è interessato agli aspetti quantitativi di questa disciplina ha sicuramente un’impostazione migliore per seguire il percorso della nostra laurea magistrale di uno che ha una laurea in economia indirizzata in altri campi.
Qual è dunque il percorso di formazione del data scientist che proponete nel vostro ateneo?
Nell’organizzazione della nostra laurea magistrale in data science sono coinvolti in modo sostanziale sia il dipartimento di informatica sia i due dipartimenti di statistica della nostra università, a cui si aggregano altri docenti che portano competenze di dominio molto specifiche nelle aree business administration, biologia, sociologia, fisica e altro… Il primo anno, tutti gli studenti devono di fatto sostenere almeno uno dei due corsi tra Fondamenti di Informatica e Fondamenti di Statistica, con l’idea che chi ha maggiori carenze in una, o in entrambe le due materie, deve portarsi in pari con gli altri. In Fondamenti di Informatica, il mio corso dove arrivano i laureati in economia, matematica, statistica… gli studenti vengono formati sulle strutture delle basi dati, sul linguaggio di programmazione Python e molto altro. Simmetricamente chi ha una laurea triennale in informatica viene formato, grazie all’altro corso, sui fondamenti della statistica.
Fatto questo primo passo il percorso di studi affronta, con un approccio molto pragmatico che spiegherò dopo, i diversi temi che caratterizzano la data science: dal data management and visualization al machine learning, dalla data semantic al text mining alla business intelligence e altro. Nel secondo anno offriamo due percorsi: un analytical track e un business track focalizzandoci in diverse aree di dominio. Ci tengo però anche a sottolineare che trattando una materia molto delicata come i ‘dati’ bisogna tener ben presenti anche gli aspetti di etica e riservatezza, e quindi negli insegnamenti del primo anno c’è anche un corso obbligatorio su argomenti giuridici e sociali. Un corso che non c’è normalmente nelle tradizionali lauree di informatica e di statistica. Conclude il percorso di laurea uno stage obbligatorio, di norma in azienda, di tre mesi.
Ci spiega cosa intende per approccio pragmatico nel vostro piano di studi?
I nostri laureati devono conoscere tutte le metodologie di analisi, ma devono anche padroneggiare bene i due linguaggi più usati oggi nel mondo dei big data, ossia Python ed R. Dobbiamo formare degli esperti che siano in grado di lavorare con le macchine per trarre valore dai dati. Per questo motivo abbiamo legato a molti esami la realizzazione di un progetto che nasce dalla possibilità di avere a completa disposizione dei data set anonimizzati su diversi argomenti su cui è possibile realizzare i nostri progetti. La fonte primaria di queste basi dati è il sito kaggle.com, molto famoso tra gli esperti di data science, che tra l’altro organizza anche delle competizioni, a cui partecipiamo volentieri, dove il migliore progetto riceve un premio in denaro. Ci sono anche aziende USA che magari sono interessate a migliorare i loro algoritmi e quindi mettono a disposizione i loro data set anonimizzati per una competizione tra gruppi diversi. Le aziende provano i nuovi algoritmi su dati reali, e anche in questi casi il migliore viene premiato.
Ogni progetto porta gli studenti a lavorare su argomenti diversi partendo dall’esplorazione del data set per capire come questo può essere plasmato, e quindi realizzare analisi successive sempre più raffinate, come tipicamente viene richiesto in azienda. Come detto questo approccio spazia su molti argomenti: dal machine learning alla capacità di utilizzare le risorse dei principali cloud service provider mondiali, per esempio, per condividere un job su più macchine contemporaneamente perché si ha a che fare con un data set dalle dimensioni particolarmente elevate.
Alla fine del suo percorso di studi, un nostro laureato ha lavorato mediamente su otto progetti reali che affrontano problematiche di data science. È un meccanismo molto utile ed efficace e inoltre abitua gli studenti al confronto competitivo. Ci piacerebbe molto trovare delle aziende italiane che fossero interessate a fare cose analoghe per mettere alla prova i nostri studenti. Li vogliamo infatti spingere sempre di più a interagire con il nostro mercato del lavoro.
Quanti studenti si sono finora laureati in data science grazie alla vostra formazione, in quali realtà si sono inseriti e che riscontri vi hanno dato dopo il loro ingresso nel mondo del lavoro?
Abbiamo iniziato il corso in data science nell’anno accademico 2017/2018 e a novembre 2019 abbiamo avuto i primi laureati e con le sessioni successive siamo arrivati in totale a 68. Molti sono andati a lavorare per le principali società di consulenza, ma comunque siamo davanti a un panorama molto variegato. Bisogna poi tener presente che Fondazione Tronchetti Provera finanzia alcune borse di studio e quindi una parte dei nostri laureati ha svolto stage e lavora presso Pirelli e Prysmian, che tra l’altro sono anche molto vicine alla nostra sede.
Il tasso di occupazione dei nostri laureati è molto alto.
Che riscontro avete su questo percorso di studi? Come vi confrontate con le richieste che arrivano dalle aziende?
Quello che a oggi vediamo è un aumento importante di iscritti. Il primo anno siamo partiti con poco meno di 100 immatricolati, ne avevamo previsti 75, l’anno scorso abbiamo superato i 150 e quest’anno ce ne aspettiamo di più.
Siamo costantemente interessati ad avere un sempre maggiore coinvolgimento delle imprese. I nostri primi laureati non hanno fatto fatica a trovare lavoro, un buon numero di stage si sono concretizzati con l’assunzione. Tipicamente quando interagiamo con queste aziende percepiamo una certa soddisfazione. Il nostro obiettivo è reclutare sempre più realtà per organizzare gli stage degli studenti.
Sono previste delle novità per questo percorso di laurea?
In questo periodo è in discussione presso il ministero la creazione della classe di laurea magistrale in data science. Se ne parla da tempo e sono circolate le prime bozze, ci aspettiamo che presto vengano rilasciate tutte le indicazioni e i nuovi requisiti. Una volta pubblicate avremo circa un anno di tempo per adeguarci agli eventuali cambiamenti richiesti. Senza l’emergenza Covid probabilmente staremmo già lavorando con il nuovo schema predisposto dal ministero.