COALA ANALYSIS

Analizzare grandi moli di dati non strutturati ed eterogenei nella forma, caratteristiche comuni ai file di log generati da ciascuna infrastruttura IT, è stato per molti anni un compito molto impegnativo, a causa dell’impossibilità di gestire efficacemente grandi volumi di dati testuali in tempi compatibili con i bisogni informativi degli utenti. Ma grazie all’evoluzione delle tecnologie orientate all’elaborazione di moli di dati sempre crescenti, i cosiddetti Big Data, la possibilità di analizzare i log in tempo reale è oramai realtà.

Coala Analysis è il modulo applicativo sviluppato da HTS orientato a:

  • Analisi in tempo reale dei log raccolti da Coala Collector, con possibilità di ricerca full-text sul contenuto dei log e dei metadati ad essi associati mediante definizione di indici di ricerca, in grado di rendere l’operazione efficiente e semplice da eseguire anche per l’operatore finale.

  • Rappresentazione grafica evoluta per il monitoraggio e confronto in tempo reale delle grandezze estratte dai dati e per l'individuazione immediata di anomalie e situazioni ottimali, ciò grazie anche alla possibilità di Template di analisi e dashboard di controllo personalizzabili e strettamente connesse con le funzioni di ricerca.

  • Attivazione di allarmi in tempo reale, definiti mediante opportune regole decisionali, ai quali possono essere associate eventuali processi, attivati dall’insorgere delle condizioni di allarme. Ad esempio sarà possibile per l’utente definire che in caso uno specifico log (e.g.: login da parte dell’utente X) si manifesti per un numero di volte superiore ad X in un dato intervallo di tempo, una mail dovrà essere inviata al comparto IT per indicare una possibile violazione dei protocolli di sicurezza. La gestione degli allarmi include allarmi predefiniti in accordo alle esigenze normative del cliente, sviluppati dai consulenti HTS.

  • Estrazione e compilazione di report periodici, finalizzati al rispetto della normativa ovvero all’estrazione di dati di interesse dello specifico cliente. I report possono includere al loro interno grafici riepilogativi delle singole informazioni esportate, in formato accessibile digitalmente e stampabile.

La soluzione per l’analisi sviluppata da HTS, si basa sull’adozione di uno stack di servizi orientata ai big data basato sulla soluzione Open Source (ElasticSearch, Logstash, Kibana), in grado di garantire la memorizzazione efficace di grandi moli di dati testuali e, in aggiunta, la possibilità di elaborate tali informazioni in modalità efficace e distribuita. Lo stack di servizi è distribuito mediante macchine virtuali pre-installate, pronte all’utilizzo presso l’infrastruttura di virtualizzazione del cliente. La soluzione è in grado di scalare automaticamente in accordo con la capacità computazionale a disposizione del cliente e con le esigenze in termini di volume dei dati da gestire e di retention degli stessi al variare del tempo. I servizi sui quali si basa la soluzione HTS, nello specifico, sono strutturati al fine di poter automaticamente scalare la capacità computazionale al variare, senza necessità di riavvio, del numero di nodi computazionali a disposizione.

Il processo di acquisizione dei dati è complementare alla raccolta effettuata dai prodotti della famiglia Coala Suite ma, al tempo stesso, può essere applicato anche ad altre sorgenti dati (e.g.: SIEM prodotti da terze parti) o a dati caricati all’interno della soluzione in modalità batch (e.g.: archivio di log a disposizione del cliente). I dati ivi acquisiti, una volta raggiunto il modulo Coala Analysis, sono oggetto di una serie di processi di filtraggio, che conducono alla definizione di un insieme di archivi, quali:

Indice di tutti gli eventi: indice inverso, utilizzato per finalità di ricerca in tempo reale, contenente le informazioni relative a tutti gli eventi acquisiti, opportunamente strutturate al fine di consentire la definizione di ricerca complesse o basate su operatori logici;

Indice degli eventi oggetto del primo grado di filtraggio: consente l’indicizzazione di un sottoinsieme di eventi rispetto all’intero volume acquisito dalla soluzione. Gli eventi sono filtrati in accordo con un insieme di espressioni regolari definite dall’utente, finalizzate alla rimozione di tutti gli eventi che possono non risultare interessanti per le finalità di ricerca, reportistica o analisi che caratterizzano lo specifico contesto normativo ed operativo dove opera il cliente.

Indice degli eventi oggetto del secondo grado di filtraggio: consente l’indicizzazione ulteriore di un sottoinsieme degli eventi già filtrati, al fine anche in questo caso di limitare lo spazio di analisi e, al tempo stesso, ridurre l’occupazione di spazio e risorse computazionali.

Gli indici di ricerca consentono di arricchire le informazioni raccolte con meta-dati e processi di ETL personalizzati sulla base delle specifiche esigenze del cliente.

In aggiunta agli archivi descritti, finalizzati alle funzionalità di ricerca e di elaborazione delle informazioni, le prime in tempo reale e le seconde in modalità batch, il sistema può prevedere la presenza di eventuali tabelle accessorie di supporto finalizzate all’elaborazione delle informazioni. Elaborazioni che possono essere eseguite con modalità una tantum ovvero previa pianificazione di uno specifico workflow di esecuzione delle stesse.

Tutti gli archivi identificati possono essere caratterizzati da uno specifico valore di retention, in grado di determinare la durata di vita dei dati contenuti all’interno dello specifico archivio. Grazie a tale informazione sarà possibile, ad esempio, ridurre l’occupazione dello spazio disco da parte di alcuni archivi (ad esempio nel caso dell’indice relativo all’interno insieme di eventi non filtrati) e rendere più ampio l’intervallo temporale che è possibile coprire con l’attività di conservazione dei log stessi rispetto alle caratteristiche dell’infrastruttura del cliente (in termini di computazione e di archiviazione).