author:"Leoni, Anna Giulia" | Pollux - Fachinformationsdienst Politikwissenschaft

Open Access#12019

Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti

Negli ultimi anni si è assistito ad un incremento smisurato nella generazione di dati che ha dato vita al fenomeno dei Big Data. Le caratteristiche attribuite a questi dati hanno evidenziato la necessità di riorganizzare i processi aziendali e di sviluppare nuove soluzioni che permettessero di cogliere le opportunità dei Big Data e di controllare la complessità derivante dalla loro gestione. Per rispondere a quest'esigenza ci si è rivolti all'utilizzo di framework basati su architetture parallele ma, senza definire un'organizzazione interna al Data Lake (repository in cui i dati vengono memorizzati) ed adeguate politiche di governance, abilitate da una solida base di metadati, c'è il rischio che il valore dei dati vada perdendosi e che i dati diventino difficilmente reperibili all'interno del repository. Il prototipo di tesi è basato su un caso di studio aziendale ed è volto a predisporre i sistemi aziendali ad una corretta gestione futura dei Big Data. Il suo obiettivo è sviluppare un approccio estendibile e parametrizzabile che permetta di indicizzare, nella maniera più automatica possibile, i singoli file presenti nel Data Lake sulla base del loro tipo di evento tramite l'estrazione di metadati strutturali, di processo e semantici, che consentano e facilitino il recupero dei file quando rilevanti rispetto a determinate interrogazioni. I file che il caso di studio prende in esame sono file XML che fanno riferimento ad eventi generati in ambito sanitario. Per portare a termine quest'obiettivo viene definita un'architettura per Data Lake ed un modello per l'archiviazione di metadati, realizzato come ontologia. Le funzionalità del prototipo, come tarare i parametri del processo di estrazione e visualizzare i risultati, sono disponibili tramite un'interfaccia web.

Zugriff(Open Access)

Filter

Format

Medientyp

Sprache

Jahre

Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti

Suchergebnisse

Filter

Format

Medientyp

Sprache

Jahre

Gestione di un data lake strutturato attraverso il riconoscimento semantico dei dati acquisiti

Kontakt

Hilfe