Nella prima parte di questa serie di articoli su Flink ci siamo dedicati alla descrizione dello Stream Processing in generale e di Apache Flink in particolare, in questa seconda parte ci occuperemo di come in pratica scrivere una applicazione Apache Flink.
Apache Flink è al momento una delle piattaforme di elaborazione dati più potenti e promettenti: si tratta di un framework di stream processing capace di analizzare ed elaborare imponenti volumi di dati in tempo quasi reale. In questo e nel prossimo articolo ne presentiamo concetti di base e caratteristiche.
Dopo aver introdotto nel primo articolo alcuni concetti di statistica e il progetto FSDA in generale, in questa seconda parte concentriamo la nostra attenzione su una soluzione tecnica particolare adottata per allestire un sistema di testing automatico per il progetto FSDA.
Negli ultimi anni, il “data mining” ha visto crescere enormemente la sua importanza. In questa miniserie di due articoli, esporremo brevemente i concetti di “statistica robusta” e “outlier” e passeremo poi in rassegna un toolbox sviluppato in MATLAB e usato nell’analisi di queste tematiche.
Il primo articolo della serie ha rappresentato una introduzione al mondo dei Data WareHouse; con questa seconda parte, vediamo alcune tecnologie abilitanti affrontando una analisi dei prodotti open source attualmente presenti sul mercato che sono a supporto della Business Intelligence: Pentaho, SpagoBI e JasperForge.
In questa seconda parte, analizziamo il modo in cui il codice sorgente di WEKA possa essere integrato in un‘applicazione Java-based per il Data Mining, finalizzata alla classificazione di dati meteo. L‘interfaccia grafica utilizza componenti Swing ed è sviluppata secondo un approccio event-driven.
In questo articolo presenteremo un case-study dell‘utilizzo del tool WEKA relativo a dati meteorologici per la creazione di un indice locale di nebbia utilizzando tecniche di Data Mining. WEKA è stato usato per supportare tutte le fasi previste dalla metodologia CRISP-DM: dall‘analisi e preparazione dei dati alla creazione di modelli e la loro valutazione.
Un sistema di Knowledge Discovery in Data (KDD) è composto da un insieme di componenti che tutte insieme possono identificare ed estrarre relazioni dai dati memorizzati nella base di dati che siano nuove, utili ed interessanti. Vediamo in questo articolo il componente Experimenter.
Integriamo all‘interno del framework Weka un generico algoritmo di classificazione. Come caso di studio analizzeremo un semplice schema di apprendimento basato su un albero di decisione e ne implementeremo una semplice versione che estende gli algoritmi di classificazione di Weka.
In questo articolo esamineremo il processo di estrazione della conoscenza, noto in letteratura col nome di Knowledge Discovery to Data (KDD), analizzando come viene implementato nel framework Weka e fornendo un semplice esempio pratico.