Specjaliści prowadzący wewnętrzne postępowania wyjaśniające, muszą mierzyć się z nowymi wyzwaniami, związanymi z gwałtownym wzrostem skomplikowania kwestii technicznych. Główny nacisk przenosi się z ilości danych na ich różnorodność. Problem ten dotyka wszystkich rodzajów postępowań, niezależnie czy zostały one wywołane zgłoszeniem sygnalisty, podejrzeniem dokonania oszustwa, czy toczącym się postępowaniem sądowym.
Dynamika zmian w integracji nowych kanałów z tradycyjnymi wymaga od ekspertów technologicznych, prawników i pracowników compliance ciągłego poszerzania wiedzy. Sytuacja ma się podobnie w przypadku procesu e-discovery, który jest stosowany w celu ustrukturyzowania identyfikacji, zabezpieczenia, pozyskania oraz analizy danych podczas postępowania wyjaśniającego.
Electronic Discovery Reference Model (EDRM) obrazuje, jak przebiega proces w kluczowych etapach:
Proces ten nie jest jednak liniowy, lecz iteracyjny.
Pomimo integracji systemów IT w ramach środowisk firmowych, głównym wyzwaniem jest rozpowszechnienie się nieformalnych kanałów komunikacji. Korzystanie z iMessage oraz komunikatorów takich jak: WhatsApp, Signal, Telegram lub innych platform służących wymianie komunikacji oraz danych wymaga nowego spojrzenia. Proces identyfikacji mogą ułatwić aktualne i dostosowane do potrzeb organizacji polityki z zakresu data governance, takie jak polityka retencji danych, czy aktualna lista urządzeń, które są w posiadaniu danego pracownika.
Istotne wskazówki z perspektywy IT na początkowym etapie postępowania:
Etap ten wymaga skrupulatnego planowania w celu ograniczenia ryzyka utraty danych. Źródła danych obejmują zarówno urządzenia użytkowników końcowych, jak i wewnętrzne środowiska korporacyjne, z których każde wymaga dostosowanego podejścia do pozyskania danych. Typowe źródła danych to:
Nowoczesne środowiska IT nie tylko ułatwiają filtrowanie i eksportowanie danych, ale także oferują funkcję „legal hold” chroniącą dane przed trwałym usunięciem.
Pozyskanie danych z urządzeń użytkowników końcowych wymaga specjalistycznej wiedzy i narzędzi informatyki śledczej. Nadrzędnym celem ich użycia jest zachowanie integralności danych (zabezpieczenie metadanych), w celu zapewnienia niepodważalnych dowodów elektronicznych akceptowanych w postępowaniu sądowym lub przez organy regulacyjne.
Na etapie planowania, ważne jest określenie, które ze źródeł wymagają pełnego zabezpieczenia i pozyskania danych, a gdzie można wykonać zabezpieczenie selektywne.
Jeśli w ramach postępowania potrzebne są logi systemowe zawierające aktywność użytkownika, wskazujące na odzyskane lub potencjalnie usunięte dane, rekomenduje się przeprowadzenie pełnego procesu zabezpieczenia i pozyskania danych. Proces odzyskania usuniętych danych uzależniony jest od okoliczności i wymaga specjalistycznej wiedzy oraz narzędzi informatyki śledczej.
Zrozumienie sposobu działania systemów i aplikacji IT jest kluczowe. W przypadku danych z urządzeń użytkowników, coraz rzadziej można polegać wyłącznie na tym, co przechowywane jest w ich pamięci wewnętrznej. Synchronizacja urządzeń z OneDrive, tworzenie kopii zapasowych w iCloud lub coraz bardziej popularne korzystanie z załączników w formie linków do zewnętrznych źródeł w korespondencji e-mail – wszystko to wymaga bieżącego podążania za nowinkami. Zaniedbanie śledzenia najnowszych trendów i zmian, skutkować może niepełną integracją, a co za tym idzie, pozyskaniem niekompletnych danych.
Siła oraz użyteczność narzędzi i platform e-discovery w porządkowaniu nieustrukturyzowanych danych jest najbardziej widoczna za sprawą:
Dzięki tym narzędziom, przy prawidłowych założeniach, zmniejszymy ilość potencjalnie istotnych dokumentów i czasu na ich analizę. Natomiast wskazana jest wysoka dbałość o szczegóły, ponieważ nawet takie domyślne ustawienia, jak źródłowa strefa czasowa, indeks wyszukiwania lub język OCR, mogą mieć wpływ i skutkować niekompletnymi wynikami słów kluczowych.
Nieprawidłowe ustawienie strefy czasowej może wprowadzić w błąd osobę przeglądającą dokumenty lub pominąć dokumenty z dat granicznych jeszcze przed rozpoczęciem przeglądu. Dlatego podczas gromadzenia danych ważne jest, aby działać z należytą starannością i dzielić źródła wedle ściśle ustalonego klucza.
Nieuwzględnienie dodatkowych języków istotnych dla OCR nie spowoduje utworzenia poprawnej warstwy tekstowej. Należy również uwzględnić poziom złożoności słów kluczowych. Pomocne może być stworzenie odpowiednich indeksów uwzględniających wielkość liter lub znaki specjalne i interpunkcyjne.
Zastosowane ustawienia można zmienić lub dostosować wraz z postępem przeglądu dokumentów (jeśli taka konieczność nie występuje od razu). Należy jedynie pamiętać, że ponowne przygotowanie danych do uzyskania poprawnych wyników zajmie czas i może znacznie opóźnić cały proces.
To samo dotyczy ustrukturyzowanych analiz, takich jak wątkowanie wiadomości e-mail, które mogą zmniejszyć liczbę dokumentów wymagających ręcznego przeglądu. W przypadku niewłaściwego użycia wyszukiwanych haseł, obejmujących kryteria nadawcy i odbiorcy wiadomości lub zawężony datami okres, otrzymane rezultaty mogą nie obejmować ważnych dokumentów znajdujących się w dłuższym łańcuchu wiadomości e-mail.
Dokumenty wybrane przy użyciu słów kluczowych lub innych kryteriów trafiają do przeglądu manualnego. Istnieje kilka ugruntowanych podejść do przeglądania dokumentów, a tym samym do oceny ich istotności.
Przegląd linearny, w którym wszystkie wybrane dokumenty są sprawdzane pod kątem istotności. Dokumenty mogą być posortowane chronologicznie. Przegląd można nakierunkować poprzez wyszczególnienie danych wybranych osób (custodianów) lub dzieląc je tematycznie opierając podział na klastrach tematycznych lub słowach kluczowych.
Continuous Active Learning (CAL), który wykorzystuje predykcyjny model statystyczny, zapewnia przegląd najbardziej istotnych dokumentów i wskazuje możliwość zatrzymania przeglądu przed przejrzeniem wszystkich, początkowo wybranych dokumentów.
Bez względu na to, które podejście do przeglądu wybierzemy, powinniśmy rozważyć:
Proces przeglądu dokumentów jest wielopoziomowy. Celem przeglądu na pierwszym poziomie jest identyfikacja potencjalnie istotnych dokumentów dla określonych tematów lub osób i oznaczenie tych, które wymagają redakcji lub zastrzeżenia na mocy tajemnicy przedsiębiorstwa lub tajemnicy adwokackiej/radcowskiej.
Drugi poziom przeglądu, prowadzony przez bardziej doświadczonych członków zespołu, weryfikuje ocenę dokonaną podczas pierwszego poziomu.
Następnie, w celu sprawnego zakończenia projektu, dzieli się go na mniejsze części, powiązane bezpośrednio z poszczególnymi słowami kluczowymi, klastrami tematycznymi lub osobami.
Oprócz dotychczas stosowanych algorytmów, coraz większą uwagę w procesie e-discovery zwraca się na potencjał generatywnej sztucznej inteligencji. Pierwsze narzędzia będą wkrótce skutecznie identyfikować dokumenty o wysokim prawdopodobieństwie wykluczenia na mocy tajemnicy przedsiębiorstwa lub tajemnicy adwokackiej/radcowskiej, podczas gdy inne narzędzia, które są obecnie opracowywane, będą analizować dane przy użyciu dużego modelu językowego (LLM). Ułatwi to interpretację wybranych zestawów dokumentów lub wybór konkretnych dokumentów za pomocą podpowiedzi, a nie dostosowanych składniowo słów kluczowych i metadanych.
Eksport i dostarczenie informacji i dokumentów zidentyfikowanych jako istotne. Dominuje on w prawie brytyjskim lub w odpowiedzi na żądania regulatorów, jednak z uwagi na integralność procesu EDRM, nie sposób go pominąć.
Format danych, znany jako produkcja, jest ustalany przez protokół i może się różnić w zależności od projektu, wymagań interesariuszy, ustaleń z przeciwnymi stronami w sporach sądowych lub wymagań określonych przez sądy, trybunały lub organy regulacyjne.
Produkcja zazwyczaj obejmuje przesyłanie dokumentów w formacie umożliwiającym odbiorcy przesłanie ich na platformę e-discovery, w celu przeprowadzenia podobnych procesów wyszukiwania i przeglądu. Zbiór danych będzie zatem zawierał natywne dokumenty, warstwy tekstowe, obrazy zredagowanych dokumentów oraz ustrukturyzowany plik metadanych (loadfile).
Możliwy jest również eksport częściowej produkcji i dokumentacji w formacie PDF.
Zakres dochodzeniowych metod w procesie e-discovery może być różny i niekoniecznie musi obejmować wszystkie kroki opisane powyżej. Rosnąca złożoność projektów spowodowana tempem zmian w technologii i formach komunikacji, wymaga od specjalistów i kierowników projektów dogłębnej znajomości systemów informatycznych, struktur organizacyjnych i biznesu, jeśli mają skutecznie sprostać wyzwaniom technicznym i zapewnić proporcjonalność wysiłków.