Dal dato all'infrastruttura: perché i synthetic health data hub stanno ridefinendo l'innovazione sanitaria

Negli ultimi anni, l’innovazione sanitaria si è fondata su un presupposto semplice: più dati portano a risultati migliori.

Eppure, questo paradigma sta mostrando i propri limiti.

Il settore sanitario genera enormi quantità di dati, ma la maggior parte rimane inutilizzata—non perché manchino le tecnologie per elaborarli, ma perché manca la capacità di renderli utilizzabili.

Il problema reale non è la scarsità di dati, ma la loro inutilizzabilità sistemica. I dati sanitari sono frammentati, eterogenei e vincolati da barriere regolamentari e organizzative, rendendo il loro utilizzo—specialmente nell’intelligenza artificiale e nella ricerca clinica—lento e difficile.

Si crea così un paradosso: abbiamo più dati che mai, ma meno capacità di usarli efficacemente.

La sfida non è accedere ai dati, ma renderli utilizzabili in modo sicuro, scalabile e ripetibile.

Il dato sintetico viene spesso presentato come una soluzione tecnica ai vincoli della privacy—dati generati artificialmente che preservano le proprietà statistiche dei dati reali senza esporre informazioni identificabili. Ma questa visione è troppo limitata.

Nel contesto più ampio dell’innovazione sanitaria, il dato sintetico rappresenta qualcosa di più: un modo per trasformare il dato in qualcosa di operativo. Non si tratta solo di proteggere i dati, ma di renderli condivisibili, scalabili e utilizzabili in ambienti complessi.

In altre parole, il dato sintetico non abilita solo l’accesso ai dati. Abilita il loro utilizzo.

Il cambiamento chiave: dai dataset alle infrastrutture

Questo cambiamento emerge con particolare chiarezza nel concetto di synthetic health data hub, come quello proposto in Friuli Venezia Giulia.

In questi modelli, il valore non risiede nella produzione di nuovi dataset, ma nella costruzione di un’infrastruttura che permette ai dati di circolare, essere usati e generare valore attraverso un ecosistema. L’hub diventa uno strato intermediario—un punto di accesso controllato e un ambiente per la sperimentazione e lo sviluppo. Questo è in linea con la più ampia evoluzione normativa europea, in particolare con l’European Health Data Space, che introduce il concetto di intermediario del dato: un’entità che abilita l’accesso e l’utilizzo regolamentato dei dati, piuttosto che limitarsi a detenerli.

Il focus si sposta da “quali dati abbiamo?” a “quale infrastruttura abbiamo per usarli?”.

Questo cambiamento ha conseguenze immediate.

Nei clinical trial, i synthetic control arm possono sostituire o ridurre la necessità di gruppi di controllo reali, abbassando i requisiti di reclutamento e accelerando i tempi. L’accettazione regolamentare sta già emergendo: la FDA ha approvato trattamenti utilizzando dati di controllo esterno da fonti real-world (es. Nulibry), e la metodologia si sta formalizzando attraverso il propensity score matching e framework causali espliciti per affrontare il selection bias e garantire la comparabilità.

Nella RWE, il dato sintetico può essere usato per simulare popolazioni di pazienti, permettendo ai ricercatori di testare ipotesi e validare modelli senza ripetere complessi processi autorizzativi ogni volta.

Nelle operazioni ospedaliere, gli ospedali possono usare dati sintetici per simulare i flussi di pazienti, ottimizzare l’allocazione delle risorse o testare nuove strategie organizzative prima di implementarle in contesti reali. Le prime implementazioni, come il synthetic health data hub proposto per il Friuli Venezia Giulia, hanno proiettato guadagni di capacità significativi—fino al 17% di aumento nel throughput diagnostico (TAC/RMN) e riduzioni misurabili dei tempi di attesa—dimostrando che gli approcci basati sull’infrastruttura possono generare un valore operativo tangibile.

In tutti questi casi, il valore non risiede nel dato in sé, ma nella sua utilizzabilità operativa.

Questo approccio basato sull’infrastruttura sta guadagnando riconoscimento istituzionale al di là della governance dei dati. Gli enti regolatori stanno iniziando a formalizzare framework per la valutazione delle prove generate dall’IA nella ricerca clinica—tra cui il reflection paper in corso dell’EMA sull’uso dei controlli esterni per la generazione di prove e la recentemente finalizzata linea guida ICH M15 sullo sviluppo farmaceutico model-informed. Questi sviluppi segnalano un cambiamento: il dato sintetico non viene più trattato come un espediente, ma come uno strumento metodologico che, se correttamente validato, può supportare il processo decisionale regolatorio.

Europa: dalla protezione dei dati alla loro attivazione

Questa transizione è particolarmente rilevante nel contesto europeo.

L’Unione Europea ha costruito uno dei framework più avanzati per la protezione dei dati. Tuttavia, questo ha anche contribuito a rallentare l’utilizzo dei dati.

In questo contesto, il dato sintetico rappresenta uno dei pochi percorsi praticabili per conciliare la protezione dei diritti fondamentali, l’innovazione tecnologica e lo sviluppo economico.

Una questione critica in questa transizione è la chiarezza normativa sul dato sintetico in sé: quando si qualifica come completamente anonimizzato ai sensi del GDPR, e quando rimane un dato personale soggetto agli stessi vincoli? Mentre la guida è ancora in evoluzione, recenti certificazioni (come Europrivacy per le applicazioni sanitarie) suggeriscono che i dati sintetici di alta qualità—generati attraverso modelli validati con un rischio di re-identificazione dimostrabilmente basso—possono essere trattati come anonimi. Questa distinzione non è meramente tecnica: determina se i synthetic data hub possono funzionare come vera infrastruttura, o restare vincolati agli stessi colli di bottiglia di governance che mirano a superare.

I synthetic health data hub possono quindi essere visti come un tentativo di costruire una nuova infrastruttura del dato—una che superi i limiti del modello attuale.

Se il valore si sposta dai dataset all’infrastruttura, cambia anche il ruolo dei principali attori. Il focus non è più solo produrre o analizzare dati, ma abilitare sistemi in cui i dati possano essere generati, usati e continuamente valorizzati. In questo contesto, le tecnologie di dato sintetico assumono un nuovo ruolo: non come strumenti autonomi, ma come componenti fondamentali di questo nascente strato infrastrutturale.

La sfida oggi non è avere più dati. È rendere i dati utilizzabili su scala.

Questo richiede un cambiamento: dall’accesso alla generazione, dai dataset all’infrastruttura, dalla disponibilità all’operatività.

I Synthetic Health Data Hub rappresentano uno dei primi tentativi concreti di costruire questa nuova architettura. E molto probabilmente, non sono un’eccezione. Sono l’inizio di una nuova fase.

Dal dato all'infrastruttura: perché i synthetic health data hub stanno ridefinendo l'innovazione sanitaria

Il cambiamento chiave: dai dataset alle infrastrutture

Europa: dalla protezione dei dati alla loro attivazione

Articoli correlati

Dati sintetici: l'infrastruttura per lo Spazio Europeo dei Dati Sanitari

Aindo nominata Sample Vendor nel report Gartner® Emerging Tech Impact Radar per la Conversational AI

Synthetic digital twins - the future of healthcare

Unisciti a noi