Przewodnik po procesie e-Discovery – integracja nowoczesnych narzędzi w postępowaniach wyjaśniających

Autorzy

jakub kur module JPG
Jakub Kur

Head of Forensic Technology
Polska

Kieruję działem technologicznym w ramach zespołu usług śledczych. Zespół usług śledczych współpracuje ze wszystkimi praktykami międzynarodowej sieci Bird & Bird, zapewniając kompleksową obsługę w zakresie dochodzeń dotyczących nadużyć finansowych, przestępstw gospodarczych oraz postępowań sądowych.

marcin miazga module JPG
Marcin Miazga

Digital & eDiscovery Services Manager
Polska

Jestem menedżerem w zespole usług śledczych, w ramach którego odpowiadam za obszar informatyki śledczej oraz eDiscovery. Zespół usług śledczych współpracuje ze wszystkimi praktykami międzynarodowej sieci Bird & Bird, zapewniając kompleksową obsługę w zakresie dochodzeń dotyczących nadużyć finansowych, przestępstw gospodarczych oraz postępowań sądowych.

oktawian rosicki Module
Oktawian Rosicki

Assistant Manager
Polska

Jestem młodszym managerem w zespole usług śledczych, w ramach którego realizuję projekty w obszarze śledztw, informatyki śledczej oraz eDiscovery. Zespół usług śledczych współpracuje ze wszystkimi praktykami międzynarodowej sieci Bird & Bird, zapewniając kompleksową obsługę w zakresie dochodzeń dotyczących nadużyć finansowych, przestępstw gospodarczych oraz postępowań sądowych.

Specjaliści prowadzący wewnętrzne postępowania wyjaśniające, muszą mierzyć się z nowymi wyzwaniami, związanymi z gwałtownym wzrostem skomplikowania kwestii technicznych. Główny nacisk przenosi się z ilości danych na ich różnorodność. Problem ten dotyka wszystkich rodzajów postępowań, niezależnie czy zostały one wywołane zgłoszeniem sygnalisty, podejrzeniem dokonania oszustwa, czy toczącym się postępowaniem sądowym.

Dynamika zmian w integracji nowych kanałów z tradycyjnymi wymaga od ekspertów technologicznych, prawników i pracowników compliance ciągłego poszerzania wiedzy. Sytuacja ma się podobnie w przypadku procesu e-discovery, który jest stosowany w celu ustrukturyzowania identyfikacji, zabezpieczenia, pozyskania oraz analizy danych podczas postępowania wyjaśniającego.

Electronic Discovery Reference Model (EDRM) obrazuje, jak przebiega proces w kluczowych etapach:

  • identyfikacja,
  • zabezpieczenie i pozyskanie danych,
  • procesowanie i analiza,
  • przegląd danych,
  • produkcja i prezentacja.

Proces ten nie jest jednak liniowy, lecz iteracyjny.

Identyfikacja

Pomimo integracji systemów IT w ramach środowisk firmowych, głównym wyzwaniem jest rozpowszechnienie się nieformalnych kanałów komunikacji. Korzystanie z iMessage oraz komunikatorów takich jak: WhatsApp, Signal, Telegram lub innych platform służących wymianie komunikacji oraz danych wymaga nowego spojrzenia. Proces identyfikacji mogą ułatwić aktualne i dostosowane do potrzeb organizacji polityki z zakresu data governance, takie jak polityka retencji danych, czy aktualna lista urządzeń, które są w posiadaniu danego pracownika.

Istotne wskazówki z perspektywy IT na początkowym etapie postępowania:

  • nie kopiuj, nie modyfikuj ani nie niszcz żadnych danych ani urządzeń,
  • nie wzbudzaj wśród pracowników podejrzeń co do toczącego się postępowania wyjaśniającego, np. poprzez odłączenie dostępów do systemów wewnętrznych,
  • zastosuj funkcję „legal hold” do sieciowych źródeł danych, takich jak poczta e-mail czy dyski chmurowe,
  • nie wykonuj działań wymagających ingerencji w dane (np. odszyfrowanie dysku twardego),
  • zaangażuj i skonsultuj się ze specjalistami ds. informatyki śledczej.

Zabezpieczenie i pozyskanie danych

Etap ten wymaga skrupulatnego planowania w celu ograniczenia ryzyka utraty danych. Źródła danych obejmują zarówno urządzenia użytkowników końcowych, jak i wewnętrzne środowiska korporacyjne, z których każde wymaga dostosowanego podejścia do pozyskania danych. Typowe źródła danych to:

  • urządzenia użytkowników końcowych (laptopy, telefony komórkowe),
  • udostępnianie dysków i repozytoriów online (Dyski Google, OneDrive, Sharepoint),
  • skrzynki pocztowe i komunikatory firmowe (Exchange, Microsoft 365, Gmail, Teams, Google Chat),
  • alternatywne i nowe kanały komunikacji (Slack, WhatsApp, Telegram, Signal, Viber).

Nowoczesne środowiska IT nie tylko ułatwiają filtrowanie i eksportowanie danych, ale także oferują funkcję „legal hold” chroniącą dane przed trwałym usunięciem.

Pozyskanie danych z urządzeń użytkowników końcowych wymaga specjalistycznej wiedzy i narzędzi informatyki śledczej. Nadrzędnym celem ich użycia jest zachowanie integralności danych (zabezpieczenie metadanych), w celu zapewnienia niepodważalnych dowodów elektronicznych akceptowanych w postępowaniu sądowym lub przez organy regulacyjne.

Na etapie planowania, ważne jest określenie, które ze źródeł wymagają pełnego zabezpieczenia i pozyskania danych, a gdzie można wykonać zabezpieczenie selektywne.

Jeśli w ramach postępowania potrzebne są logi systemowe zawierające aktywność użytkownika, wskazujące na odzyskane lub potencjalnie usunięte dane, rekomenduje się przeprowadzenie pełnego procesu zabezpieczenia i pozyskania danych. Proces odzyskania usuniętych danych uzależniony jest od okoliczności i wymaga specjalistycznej wiedzy oraz narzędzi informatyki śledczej.

Zrozumienie sposobu działania systemów i aplikacji IT jest kluczowe. W przypadku danych z urządzeń użytkowników, coraz rzadziej można polegać wyłącznie na tym, co przechowywane jest w ich pamięci wewnętrznej. Synchronizacja urządzeń z OneDrive, tworzenie kopii zapasowych w iCloud lub coraz bardziej popularne korzystanie z załączników w formie linków do zewnętrznych źródeł w korespondencji e-mail – wszystko to wymaga bieżącego podążania za nowinkami. Zaniedbanie śledzenia najnowszych trendów i zmian, skutkować może niepełną integracją, a co za tym idzie, pozyskaniem niekompletnych danych.

Procesowanie i analiza

Siła oraz użyteczność narzędzi i platform e-discovery w porządkowaniu nieustrukturyzowanych danych jest najbardziej widoczna za sprawą:

  • indeksowania,
  • optycznego rozpoznawania znaków (OCR),
  • deduplikacji,
  • wyłączenia nieistotnych plików,
  • analityki strukturalnej (identyfikacji języka, normalizacji nazw, wątkowania wiadomości e-mail, analizy Near Duplicates),
  • analityki nieustrukturyzowanej (klastrowania, wyszukiwania pojęć).

Dzięki tym narzędziom, przy prawidłowych założeniach, zmniejszymy ilość potencjalnie istotnych dokumentów i czasu na ich analizę. Natomiast wskazana jest wysoka dbałość o szczegóły, ponieważ nawet takie domyślne ustawienia, jak źródłowa strefa czasowa, indeks wyszukiwania lub język OCR, mogą mieć wpływ i skutkować niekompletnymi wynikami słów kluczowych.

Nieprawidłowe ustawienie strefy czasowej może wprowadzić w błąd osobę przeglądającą dokumenty lub pominąć dokumenty z dat granicznych jeszcze przed rozpoczęciem przeglądu. Dlatego podczas gromadzenia danych ważne jest, aby działać z należytą starannością i dzielić źródła wedle ściśle ustalonego klucza.

Nieuwzględnienie dodatkowych języków istotnych dla OCR nie spowoduje utworzenia poprawnej warstwy tekstowej. Należy również uwzględnić poziom złożoności słów kluczowych. Pomocne może być stworzenie odpowiednich indeksów uwzględniających wielkość liter lub znaki specjalne i interpunkcyjne.

Zastosowane ustawienia można zmienić lub dostosować wraz z postępem przeglądu dokumentów (jeśli taka konieczność nie występuje od razu). Należy jedynie pamiętać, że ponowne przygotowanie danych do uzyskania poprawnych wyników zajmie czas i może znacznie opóźnić cały proces.

To samo dotyczy ustrukturyzowanych analiz, takich jak wątkowanie wiadomości e-mail, które mogą zmniejszyć liczbę dokumentów wymagających ręcznego przeglądu. W przypadku niewłaściwego użycia wyszukiwanych haseł, obejmujących kryteria nadawcy i odbiorcy wiadomości lub zawężony datami okres, otrzymane rezultaty mogą nie obejmować ważnych dokumentów znajdujących się w dłuższym łańcuchu wiadomości e-mail.

Przegląd danych

Dokumenty wybrane przy użyciu słów kluczowych lub innych kryteriów trafiają do przeglądu manualnego. Istnieje kilka ugruntowanych podejść do przeglądania dokumentów, a tym samym do oceny ich istotności.

Przegląd linearny, w którym wszystkie wybrane dokumenty są sprawdzane pod kątem istotności. Dokumenty mogą być posortowane chronologicznie. Przegląd można nakierunkować poprzez wyszczególnienie danych wybranych osób (custodianów) lub dzieląc je tematycznie opierając podział na klastrach tematycznych lub słowach kluczowych.

Continuous Active Learning (CAL), który wykorzystuje predykcyjny model statystyczny, zapewnia przegląd najbardziej istotnych dokumentów i wskazuje możliwość zatrzymania przeglądu przed przejrzeniem wszystkich, początkowo wybranych dokumentów.

Bez względu na to, które podejście do przeglądu wybierzemy, powinniśmy rozważyć:

  • czy w przeglądzie danych obejmujemy całe rodziny dokumentów, czy jedynie te zawierające słowa kluczowe (w połączeniu z dokumentem na najwyższym poziomie, np. mailem),
  • korzystanie z wątkowania wiadomości e-mail w celu zmniejszenia ilości dokumentów do przejrzenia lub w celu śledzenia całych wątków odpowiednich dokumentów,
  • powody, dla których można używać analizy Near Duplicates, służącej do wykluczania dokumentów o zasadniczo podobnej treści (np. 99% podobieństwa),
  • korzystanie z tłumaczeń maszynowych lub angażowanie native speakerów w przypadku dokumentów obcojęzycznych,
  • układ kodowania – pola, wybory, poziom złożoności (wyższa złożoność wpływa na szybkość przeglądu).

Proces przeglądu dokumentów jest wielopoziomowy. Celem przeglądu na pierwszym poziomie jest identyfikacja potencjalnie istotnych dokumentów dla określonych tematów lub osób i oznaczenie tych, które wymagają redakcji lub zastrzeżenia na mocy tajemnicy przedsiębiorstwa lub tajemnicy adwokackiej/radcowskiej.

Drugi poziom przeglądu, prowadzony przez bardziej doświadczonych członków zespołu, weryfikuje ocenę dokonaną podczas pierwszego poziomu.

Następnie, w celu sprawnego zakończenia projektu, dzieli się go na mniejsze części, powiązane bezpośrednio z poszczególnymi słowami kluczowymi, klastrami tematycznymi lub osobami.

Oprócz dotychczas stosowanych algorytmów, coraz większą uwagę w procesie e-discovery zwraca się na potencjał generatywnej sztucznej inteligencji. Pierwsze narzędzia będą wkrótce skutecznie identyfikować dokumenty o wysokim prawdopodobieństwie wykluczenia na mocy tajemnicy przedsiębiorstwa lub tajemnicy adwokackiej/radcowskiej, podczas gdy inne narzędzia, które są obecnie opracowywane, będą analizować dane przy użyciu dużego modelu językowego (LLM). Ułatwi to interpretację wybranych zestawów dokumentów lub wybór konkretnych dokumentów za pomocą podpowiedzi, a nie dostosowanych składniowo słów kluczowych i metadanych.

Produkcja i prezentacja

Eksport i dostarczenie informacji i dokumentów zidentyfikowanych jako istotne. Dominuje on w prawie brytyjskim lub w odpowiedzi na żądania regulatorów, jednak z uwagi na integralność procesu EDRM, nie sposób go pominąć.

Format danych, znany jako produkcja, jest ustalany przez protokół i może się różnić w zależności od projektu, wymagań interesariuszy, ustaleń z przeciwnymi stronami w sporach sądowych lub wymagań określonych przez sądy, trybunały lub organy regulacyjne.

Produkcja zazwyczaj obejmuje przesyłanie dokumentów w formacie umożliwiającym odbiorcy przesłanie ich na platformę e-discovery, w celu przeprowadzenia podobnych procesów wyszukiwania i przeglądu. Zbiór danych będzie zatem zawierał natywne dokumenty, warstwy tekstowe, obrazy zredagowanych dokumentów oraz ustrukturyzowany plik metadanych (loadfile).

Możliwy jest również eksport częściowej produkcji i dokumentacji w formacie PDF.

Podsumowanie

Zakres dochodzeniowych metod w procesie e-discovery może być różny i niekoniecznie musi obejmować wszystkie kroki opisane powyżej. Rosnąca złożoność projektów spowodowana tempem zmian w technologii i formach komunikacji, wymaga od specjalistów i kierowników projektów dogłębnej znajomości systemów informatycznych, struktur organizacyjnych i biznesu, jeśli mają skutecznie sprostać wyzwaniom technicznym i zapewnić proporcjonalność wysiłków.

Najnowsze

Więcej
Projekt bez nazwy

Jak ułatwić sobie prowadzenie wewnętrznych postępowań wyjaśniających? Praktyczne wskazówki

lut 05 2025

Więcej
Projekt bez nazwy

Przygotowanie do przeprowadzenia wewnętrznego postępowania wyjaśniającego w spółce

sty 08 2025

Więcej

Wewnętrzne postępowania wyjaśniające w praktyce - zapisz się do newslettera

2 min gru 11 2024

Więcej