Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti
Negli ultimi anni si è assistito ad un incremento smisurato nella generazione di dati che ha dato vita al fenomeno dei Big Data. Le caratteristiche attribuite a questi dati hanno evidenziato la necessità di riorganizzare i processi aziendali e di sviluppare nuove soluzioni che permettessero di cogliere le opportunità dei Big Data e di controllare la complessità derivante dalla loro gestione. Per rispondere a quest'esigenza ci si è rivolti all'utilizzo di framework basati su architetture parallele ma, senza definire un'organizzazione interna al Data Lake (repository in cui i dati vengono memorizzati) ed adeguate politiche di governance, abilitate da una solida base di metadati, c'è il rischio che il valore dei dati vada perdendosi e che i dati diventino difficilmente reperibili all'interno del repository. Il prototipo di tesi è basato su un caso di studio aziendale ed è volto a predisporre i sistemi aziendali ad una corretta gestione futura dei Big Data. Il suo obiettivo è sviluppare un approccio estendibile e parametrizzabile che permetta di indicizzare, nella maniera più automatica possibile, i singoli file presenti nel Data Lake sulla base del loro tipo di evento tramite l'estrazione di metadati strutturali, di processo e semantici, che consentano e facilitino il recupero dei file quando rilevanti rispetto a determinate interrogazioni. I file che il caso di studio prende in esame sono file XML che fanno riferimento ad eventi generati in ambito sanitario. Per portare a termine quest'obiettivo viene definita un'architettura per Data Lake ed un modello per l'archiviazione di metadati, realizzato come ontologia. Le funzionalità del prototipo, come tarare i parametri del processo di estrazione e visualizzare i risultati, sono disponibili tramite un'interfaccia web.