Aktualno > Regija i svijet

Kako smo analizirali 11,5 milijuna dokumenata „Panama Papersa“

06.04.2016.

Najveće curenje informacija u povijesti povezalo je više od 70 bivših i sadašnjih svjetskih lidera u istoj shemi izbjegavanja plaćanja poreza kojom su bilijuni funti kanalizirani na off-shore račune. Ovo je priča o tome kako su ti podaci analizirani.

„Panama Papers“ pokazuju kako je odvjetnička tvrtka Mossack Fonseca pomogla stotinama klijenata povezanim s nekim od najmoćnijih ljudi svijeta da peru novac, izbjegnu poreze, a po mogućnosti i sankcije.

Sami dokumenti su dostavljeni anonimno jednoj novinarskoj kući te poslani na još stotinjak adresa izdavača i 400 novinara – istraga o tome traje već gotovo godinu dana.

Proces kojim su sirovi podaci pretvoreni u nešto upotrebljivo novinarima uključivao je njihovo pretvaranje u digitalni format, kompjutore velikih mogućnosti i algoritme da bi se između tisuća detalja pronašla dobro poznata imena.

Koliko su veliki dokumenti '“Panama Papersa“? 

Dok stvarni dokumenti još nisu objavljeni – Međunarodni konzorcij istraživačkih novinara (ICIJ) kaže da će potpun popis kompanija koje su spomenute u dokumentima izaći u svibnju – zna se koliko podataka oni sadrže.

Izvještava se da je iz tvrtke Mossack Fonseca „procurilo“ više od 11,5 milijuna internih spisa. To nije ograničeno samo na e-poštu, ugovore, transkripte i skenirane dokumente. Baza tih podataka veća je od svake iz afera Wikileaks ili Edwarda Snowdena.

Među podacima kojih se prvi dokopao Süddeutsche Zeitung su oni od 1977. do 2015. „Podaci pokazuju da je ured Mossack Fonseca radio s više od 14.000 banaka, odvjetničkih ureda, povezničkih kompanija i drugih posrednika da bi se osnovala kompanija, zaklada ili fond za klijente" kažu u ICIJ-u. 

Kako analizirati 11,5 milijuna dokumenata? 

Da bi mogli izvijestiti o dobivenim dokumentima, oni koji su ih imali morali su ih učiniti čitljivim kompjutorima i omogućiti im pretraživanje. „Heterogene podatke je teško progutati i usporediti", smatra Gabriel Brostow, profesor kompjutorskih znanosti na Londonskom sveučilištu. „U tabele, brojeve i PDF je gotovo nemoguće ući.“

Süddeutsche Zeitung i ICIJ surađivali su sa softverskom tvrtkom Nuix na početnom sortiranju dokumenata. 

Najveći problem u procesuiranju podataka je bila količina teksta koji kompjutor nije prepoznavao. Kad je jednom tekst postao dostupan, moglo se prijeći na istraživanje baza podataka. 

"ICIJ i Süddeutsche Zeitung tražili su pomoću ključnih riječi. Novinari su, između ostalog, kompilirali popise značajnih političara, međunarodnih kriminalaca i poznatih profesionalnih sportaša“, objašnjeno je u uredničkom uvodu Süddeutsche Zeitunga.  

Autor: Matt Burgess

Prevela: Vesna Arsovski

Izvor: Wired.co.uk

Najveće curenje informacija u povijesti povezalo je više od 70 bivših i sadašnjih svjetskih lidera u istoj shemi izbjegavanja plaćanja poreza kojom su bilijuni funti kanalizirani na off-shore račune. Ovo je priča o tome kako su ti podaci analizirani.

„Panama Papers“ pokazuju kako je odvjetnička tvrtka Mossack Fonseca pomogla stotinama klijenata povezanim s nekim od najmoćnijih ljudi svijeta da peru novac, izbjegnu poreze, a po mogućnosti i sankcije.

Sami dokumenti su dostavljeni anonimno jednoj novinarskoj kući te poslani na još stotinjak adresa izdavača i 400 novinara – istraga o tome traje već gotovo godinu dana.

Proces kojim su sirovi podaci pretvoreni u nešto upotrebljivo novinarima uključivao je njihovo pretvaranje u digitalni format, kompjutore velikih mogućnosti i algoritme da bi se između tisuća detalja pronašla dobro poznata imena.

Koliko su veliki dokumenti '“Panama Papersa“? 

Dok stvarni dokumenti još nisu objavljeni – Međunarodni konzorcij istraživačkih novinara (ICIJ) kaže da će potpun popis kompanija koje su spomenute u dokumentima izaći u svibnju – zna se koliko podataka oni sadrže.

Izvještava se da je iz tvrtke Mossack Fonseca „procurilo“ više od 11,5 milijuna internih spisa. To nije ograničeno samo na e-poštu, ugovore, transkripte i skenirane dokumente. Baza tih podataka veća je od svake iz afera Wikileaks ili Edwarda Snowdena.

Među podacima kojih se prvi dokopao Süddeutsche Zeitung su oni od 1977. do 2015. „Podaci pokazuju da je ured Mossack Fonseca radio s više od 14.000 banaka, odvjetničkih ureda, povezničkih kompanija i drugih posrednika da bi se osnovala kompanija, zaklada ili fond za klijente" kažu u ICIJ-u. 

Kako analizirati 11,5 milijuna dokumenata? 

Da bi mogli izvijestiti o dobivenim dokumentima, oni koji su ih imali morali su ih učiniti čitljivim kompjutorima i omogućiti im pretraživanje. „Heterogene podatke je teško progutati i usporediti", smatra Gabriel Brostow, profesor kompjutorskih znanosti na Londonskom sveučilištu. „U tabele, brojeve i PDF je gotovo nemoguće ući.“

Süddeutsche Zeitung i ICIJ surađivali su sa softverskom tvrtkom Nuix na početnom sortiranju dokumenata. 

Najveći problem u procesuiranju podataka je bila količina teksta koji kompjutor nije prepoznavao. Kad je jednom tekst postao dostupan, moglo se prijeći na istraživanje baza podataka. 

"ICIJ i Süddeutsche Zeitung tražili su pomoću ključnih riječi. Novinari su, između ostalog, kompilirali popise značajnih političara, međunarodnih kriminalaca i poznatih profesionalnih sportaša“, objašnjeno je u uredničkom uvodu Süddeutsche Zeitunga.  

Autor: Matt Burgess

Prevela: Vesna Arsovski

Izvor: Wired.co.uk