Data mining: l’estrapolazione di dati

L’analisi dei dati e il data mining risultano utili per districarsi nella realtà odierna, in cui si viene sommersi da infinite nozioni, permettendo di fornire risposte specifiche e accurate a precisi quesiti. L’altra faccia di questo processo è la gestione di dati sensibili. Questi possono essere utilizzati per una semplice campagna di promozione di scarpe sportive, oppure con fini meno nobili, come nel caso di Cambridge Analytica nel 2013.

Data mining: cos’è?

Per poter dare una definizione di data mining bisogna tener presente la complessità della materia. La Treccani offre la seguente descrizione del fenomeno:

“Il data mining è l’insieme di tecniche e metodi per estrarre dati significativi ancorché impliciti, rispetto a un particolare scopo, da un database o comunque da una qualunque fonte informativa.”

Un’altra definizione descrive il data mining come:

“Quell’estrazione complessa di informazioni implicite, precedentemente sconosciute e potenzialmente utili dai dati e l’esplorazione e l’analisi, per mezzo di sistemi automatici e semiautomatici, di grandi quantità di dati al fine di scoprire pattern significativi”.

Come si può evincere da entrambe le definizioni, il data mining viene considerato come un grosso insieme comprendente tecniche e metodologie, principalmente di statistica inferenziale. Attraverso queste tecniche è possibile estrapolare da un miscuglio di dati, apparentemente scollegati e disordinati, informazioni significative in merito a un fenomeno. Questa disciplina nasce in concomitanza allo sviluppo del machine learning. Essa attinge a un bacino di materie quali la statistica, la pattern recognition e le basi di dati. La necessità all’origine era quella di sostituire le vecchie tecniche di analisi, rese obsolete per tre ragioni principali: elevata dimensionalità dei dati, eterogeneità degli stessi e la sempre crescente quantità di dati disponibile.

Fattori alla base dello sviluppo del fenomeno

Verso la fine del secolo scorso si sono create le basi per lo sviluppo del data mining odierno, partendo da tre premesse fondamentali: l’avvento di internet, che ha reso disponibile on line una enorme quantità di dati prima inimmaginabile; lo sviluppo di hardware sempre più potenti e allo stesso tempo economici, capace di processare più informazioni contemporaneamente, e infine nuovi metodi di analisi all’avanguardia, possibili grazie all’ausilio di intelligenze artificiali che permettono di districarsi tra le infinite disponibilità di dati. Quest’ultime mettono in evidenza informazioni implicite, che difficilmente una persona riuscirebbe a vedere senza l’aiuto degli algoritmi.

Il knowledge discovery in databases

L’intero processo di estrapolazione d’informazioni prende il nome di Knolewdge Discovery in Databases, anche se spesso, erroneamente, si tende a definirlo semplicemente data mining. Infatti le attività principali attorno alle quali si snoda l’estrapolazione dei dati non si riducono al solo data mining ma contano più fasi. La prima consiste nell’identificare l’obiettivo della propria ricerca. Successivamente i dati vengono pre-selezionati. Successivamente è necessaria una pulizia dei dati per avere una prima parziale scrematura degli stessi e una pre-elaborazione. Prima di arrivare alla vera e propria fase di data mining è necessario un ultimo importante passo, ovvero la trasformazione dei dati. Questi devono avere un formato valido per essere sottoposti al software in maniera inequivoca. Vi è poi la fase di data mining, che verrà approfondita di seguito, e le ultime due fasi di interpretazione dei risultati e di visualizzazione di questi ultimi.

Il data mining

In questa fase, che è sicuramente la più importante, viene scelto il software più adatto ad analizzare i dati. Questa parte del processo si avvale di diverse sottofasi:

  • la classificazione, in cui vengono identificati elementi accomunati da corrispondenza alla medesima classe;
  • il clusterin, individuazione di elementi omogenei accomunati sulla base di regole ignote;
  • l’associazione, grazie alla quale è possibile rilevare eventuali anomalie a partire da nessi casuali e ripetuti presenti nei dati immagazzinati nel database;
  • la regressione, in cui le variabili che individuano l’appartenenza di un dato alla medesima classe di un altro non si basano più su elementi categorici, come nella fase di classificazione, ma su valori che tendono all’infinito;
  • time series o serie storiche, si riferiscono a tutte quelle variabili di valore temporale che risultano particolarmente utili a scopo predittivo;
  • sequence discovery, ovvero la scoperta di sequenze che riprendendo il concetto di associazione mettono in evidenza quando ad una certa domanda o ad un certo dato ne fa seguito un altro ben preciso.

Principali settori d’impiego

Diversi sono i settori che si avvalgono del data mining per dare risposte sempre più efficaci ai propri clienti.

Nel campo del marketing viene utilizzato per la clusterizzazione della clientela (tipologia di clienti e loro abitudini), per il customer retriever (identificazione della clientela non fidelizzata o a rischio abbandono), market basket analysis (quali prodotti vengono abitualmente comprati).

In ambito finanziario è utilizzato principalmente per rilevare eventuali attività fraudolente, prevedere trend azionari ed elaborare analisi sulle interazioni fra i vari mercati finanziari.

Molto importante risulta il suo utilizzo anche in ambito scientifico. Si utilizza nella medicina clinica a fine predittivo e nelle decision making per quanto attiene alla farmacologia.

Permette inoltre anche una più accurata analisi meteorologica e astronomica. In ambito statistico velocizza le analisi demografiche e lo sviluppo di modelli predittivi.

Tutela della privacy e ulteriori sviluppi

Se da un lato questo processo, con la finalità di realizzare algoritmi sempre più precisi, permette di giungere a risultati in cui il margine di errore è molto basso, dall’altro per realizzare indagini sempre più accurate sono necessarie informazioni altrettanto accurate. Ad esempio può capitare che per creare una campagna marketing siano necessarie diverse informazioni sul cliente, che possono spaziare dalle sue abitudini d’acquisto sino a scendere ad aspetti molto più personali che rischiano di collidere con la privacy del consumatore. Infatti con l’avvento dei social media qualsiasi preferenza o like possono finire in una banca dati e tracciare un ritratto accurato della persona in questione. Il social data mining, ovvero l’analisi delle informazioni provenienti dalle piattaforme social, risulta essere la pratica che oggi come oggi sta crescendo di più.

 

A cura di

Pasqualina Ciancio


FONTI:

CREDITS: