L’arte di conoscere il contesto: la data science
Contenuti
La definizione di data science che preferisco è l’attuale voce italiana di Wikipedia:
” La scienza dei dati è l’insieme di principi metodologici (basati sul metodo scientifico) e di tecniche multidisciplinari volto a interpretare ed estrarre conoscenza dai dati attraverso la relativa fase di analisi da parte di un esperto (Data Scientist) “
Wikipedia – voce italiana data science
Tre osservazioni sulla data science
Ci sono tre concetti chiave, in questa definizione, che servono a contestualizzarla in maniera ancora più pragmatica all’interno delle organizzazioni moderne.
1 – Partiamo dai principi metodologici. Due sono gli aspetti importanti: da una parte la riproducibilità, cioè la possibilità di rendere il progetto verificabile da una terza parte e dall’altra il suo gemello cioè il principio di falsificazione , cioè di rendere verificabile e falsificabile, soprattutto su scala temporale, quello che è stato estratto attraverso la scienza dei dati. E i dati da cui si è partiti per il progetto/analisi sono almeno altrettanto importanti, in termini di riproducibilità e falsificazione, quanto le metodologie (algoritmi) che sono stati usati per estrarne conoscenza.
2 – Passiamo alla multidisciplinarità delle tecniche. Questo aggettivo assume un significato tanto più importante quanto la scienza dei dati evolve in maniera frenetica. Si era partiti quasi con la sola la statistica ma, sempre di più, la statistica è rimasta una, seppur rilevante, delle tecniche utilizzate dalla scienza dei dati. Un esempio su tutti: la capacità di avere dati il più aderenti possibili alla realtà, con i minori bias possibili, porta, quando si realizza un sondaggio verso un pubblico di utenti, verso domini quali la psicologia, le neuroscienze e la conoscenza del mezzo comunicativo che sto utilizzando. Tutte cose che un data scientist non può ignorare.
3 – Concludiamo la terza osservazione con il protagonista di questa attività cioè il data scientist. Questa è la parte, a mio giudizio, più obsoleta della definizione stessa perché si sta allargando, sempre più, la platea di quelli che riescono a trarre valore dalla data science. Il data scientist rimane la figura centrale ma da unico “estrattore di valore” passa ad essere un validatore dei principi e tecniche utilizzate ed un facilitatore di tutti quelli che estraggono valore dai dati all’interno delle organizzazioni. Per usare una metafora sempre più da sacerdote sta diventando un evangelizzatore della sacra dottrina!
Il contesto … o meglio i contesti!
Dopo aver condiviso e commentato una buona definizione di scienza dei dati proviamo ora a fare un passaggio verso il futuro e vediamo perché l’abbiamo definita nel titolo l’arte di conoscere il contesto.
Partiamo dalle cause principali degli insuccessi della data science nelle organizzazioni. Non è facile misurarli ma è opinione abbastanza condivisa che un’elevato numero di progetti (si stima più del 80%) degli ultimi 15 anni non abbia portato valore significativo alle organizzazione che ci hanno investito. Perché è successo tutto questo? Se devo sintetizzare la risposta in una parola direi che è stato ed è un tema di scarsa conoscenza del contesto in cui questi progetti si sono sviluppati e in cui gli esperti dati sono stati messi a operare. Proviamo a dare concretezza però alla parola contesto. Cosa significa conoscere il contesto per chi lavora in un progetto in cui dati e algoritmi sono una componente rilevante? Sono cinque gli aspetti che rendono il contesto chiaro ad un data scientist quando deve lavorare con efficacia in una organizzazione. Vediamoli velocemente facendo qualche esempio concreto.
Il settore in cui opera l’organizzazione
Fare un progetto di data science in una organizzazione che opera in ambito finanziario, in ambito biomedico o nel settore no-profit non è la stessa cosa! Non è solo un tema di strumenti (piattaforme di sviluppo) che sono sempre più specializzate per area industriale ma anche di “dialetto” terminologico che viene parlato e che spesso costituisce una barriera alla comprensione dei requisiti o all’esplorazione dei dati stessi. Sempre più la data science, pur mantenendo principi metodologici comuni, si sta specializzando in ambiti specifici e l’esperienza in uno specifico ambito diventa un fattore strategico di successo. Ci sono tanti strumenti, che vedremo in approfondimenti dedicati, che possono mitigare questo problema e possono ridurre il tempo di apprendimento. Il data scientist, comunque, non può essere spostato da un ambito ad un altro senza fargli perdere efficacia e generare disagio, come a volte succede, specialmente se si utilizzano risorse esterne all’organizzazione.
La missione e gli obiettivi dell’organizzazione
Questo secondo aspetto sembra banale e semplice ma non è affatto scontato. Profondamente diverso è lavorare in un’azienda quotata in borsa, in una start-up o in una azienda no-profit. Tutto ciò è vero anche quando queste organizzazioni vogliono aiutare a risolvere lo stesso problema come, per esempio, il cambiamento climatico.
La mission è spesso sintetizzata in poche righe mentre gli obiettivi si evincono da documenti e analisi che l’azienda, a seconda della loro rilevanza, condivide all’interno e all’esterno. Gli obiettivi di un’azienda quotata sono spesso più concentrati in ambito finanziario mentre quelli di una start-up possono essere più legati al grado di adozione del prodotto o servizio stesso. Ancora diversi possono esser quelli di una azienda no-profit che si può concentrare anche su obiettivi di diffusione di una pratica o della conoscenza di un problema. Senza la capacità di collegare il progetto di data science allo scopo dell’organizzazione l’utilità del progetto stesso è difficilmente misurabile e integrabile con i processi chiave dell’organizzazione stessa.
Il contesto normativo di riferimento
Mi è capitato tante volte di vivere o di osservare progetti di data science conclusi e mai andati in reale produzione perché non rispettavano alcune basilari normative relative alla sicurezza, alla privacy o a normative specifiche del settore di riferimento. Per essere efficaci non si può lasciare la conoscenza di questi aspetti ai soli esperti specifici . Sia per avere una agile autonomia iniziale sia per esser in grado di confrontarsi con gli esperti legali o di sicurezza è importante che i data scientist si abituino a considerarli, fin dall’inizio dei progetti. In un mondo, quello dei dati e algoritmi, che si sta specializzando e globalizzando il ruolo del data scientist non può rimanere confinato solo ad aspetti tecnici.
Gli strumenti della data science
L’enorme dinamismo della tecnologia e i relativi investimenti che si sono fatti negli ultimi anni hanno portato una diversificazione di strumenti e piattaforme con cui si può fare data science nelle organizzazioni. E non sto parlando solo del cloud, che è comunque una scelta rilevante. Mi riferisco a tutte quelle piattaforme che si stanno preoccupando di semplificare e in alcuni casi automatizzare molte attività della data science. Per questo è sempre più importante per un data scientist dedicare del tempo per seguire e conoscere tutte queste nuove piattaforme e essere protagonista delle scelte che si fanno all’interno delle organizzazioni senza subirle in maniera passiva.
I dati della data science
L’aumento esponenziale dei dati a nostra disposizione ha reso, paradossalmente, ancora più importante e centrali la ricerca, la scelta e la comprensione dei dati che si usano all’interno dei progetti. La qualità del risultato finale e gli errori evitati sono sempre più dipendenti dalla scelta dei dati e dagli algoritmi utilizzati. Quindi conoscere i dati che si hanno a disposizione e soprattutto avere una loro descrizione semantica facile e accessibile è il punto di partenza di ogni progetto di data science. E guardarsi attorno, dedicare del tempo all’attività di data scouting, cioè vedere anche al di fuori del perimetro aziendale, quali sono i dati che possono aiutare i progetti presenti e futuri, fa parte del bagaglio di un moderno ed efficace data scientist.
L’arte di conoscere il contesto
Spero di aver giustificato a sufficienza perché ho definito nel titolo di questo post la data science come l’arte di conoscere il contesto. Tutto questo in completa antitesi con l’abitudine di molte aziende, molto in voga in pieno boom “Big Data”, di selezionare data scientist e “chiuderli” in torri d’avorio separate dalle realtà di business e operative. La moderna data science è il vero trade-union tra le aree tecnologiche (la cara e vecchia Information Technology) e quelle di business.
Se la digitalizzazione, o meglio la “datificazione”, ha fornito una fotografia più granulare e aggiornata del mondo, la data science, usando tecnologia e metodi rigorosi, può portare ad averne una comprensione più evoluta ed interagire con il mondo stesso in maniera più efficace . Tutto ciò parte però da conoscere bene il contesto e sapere quindi interagirci al meglio.
Le cinque domande nella check-list di ogni data scientist moderno, pragmatico e consapevole
Per finire, concretizzando quello di cui abbiamo discusso finora, proviamo a suggerire quali sono le cinque domande che ogni data scientist periodicamente deve chiedersi quando lavora in una organizzazione o sta per scegliere se lavorare per una nuova: