Talend Data Fabric è stata scelta dall’International Consortium of Investigative Journalists (ICIJ) per il lavoro di indagine sui Paradise Papers, una ‘fuoriuscita’ di 13,4 milioni di file criptati provenienti da due paradisi fiscali e 19 giurisdizioni segrete che proteggono i rapporti finanziari di politici e delle più grandi multinazionali del mondo.
ICIJ si è affidata a Talend, specialista in soluzioni di integrazione cloud e big data, per caricare oltre 1,4 TB di dati non strutturati nel database grafico di Neo4j, che sfrutta la piattaforma di visualizzazione grafica Linkurious per organizzare e accedere alle informazioni. I dati includono e-mail, documenti Excel, CSV e PDF con testo e immagini su aziende e persone che utilizzano un sistema nascosto per evadere le tasse. ICIJ ha anche utilizzato altri strumenti open source per supportare il proprio "Knowledge Center" e rendere le informazioni disponibili per i giornalisti.
"Talend è la nostra soluzione preferita quando si tratta di pulire, trasformare e integrare i dati che riceviamo. E’ un elemento cruciale che ci consente di costruire un solido database – ha dichiarato Pierre Romera, CTO di ICIJ -. Lavorare con soluzioni open source come Talend garantisce sicurezza e affidabilità dei dati mentre la nostra ampia rete di giornalisti investigativi esamina terabyte di file. Le soluzioni open source, alimentate costantemente da una vasta community di collaboratori, ci consentono di beneficiare delle ultime innovazioni per l'elaborazione, l'estrazione e a visualizzazione dei dati”.
Il cloud è anche un elemento centrale del processo di gestione dei dati di ICIJ. L’azienda utilizza la potenza di Amazon Web Services (AWS) per elaborare tutti i dati e ampliare l'accesso. ICIJ ha impostato computer temporanei in AWS per parallelizzare l'estrazione dei dati – l’azienda utilizza Ubuntu, Tesseract e uno strumento proprietario denominato Extract per il riconoscimento ottico dei caratteri in modo da poter estrarre il testo dai file.
"Il passaggio al cloud era ovvio a causa della natura della nostra missione e della grande mole di dati che elaboriamo. La tecnologia cloud offre infatti la scalabilità di cui abbiamo bisogno nel momento in cui è necessaria, per gestire facilmente il nostro carico di lavoro. Con elevata potenza di elaborazione e sicurezza, AWS era la scelta più adatta per noi" ha spiegato Pierre.
Il giornale tedesco Süddeutsche Zeitung è riuscito a ottenere 13,4 milioni di documenti con i dati provenienti da due società di servizi offshore in Paesi che vanno dalle Bermuda a Singapore, nonché 19 registri delle imprese in tutto il mondo. Per circa un anno, ICIJ ha collaborato con centinaia di giornalisti e media partner per rendere note le indagini, con una forte ricaduta su personaggi noti e grandi aziende.
“Da quando ICIJ ha rivelato il Panama Papers leak nel 2016, per il quale ha vinto il premio Pulitzer, abbiamo visto come le tecnologie per la gestione e l’elaborazione dei dati possano avere un impatto sulla nostra società – ha dichiarato Ciaran Dynes, SVP of Products, Talend -. Siamo lieti di supportare il giornalismo investigativo accurato e coloro che dai dati cercano di estrarre informazioni significative".