Wymogi dotyczące danych w systemach AI
Choć prace nad przepisami dotyczącymi sztucznej inteligencji nadal trwają, już teraz bazując na obowiązujących przepisach, ale również dobrych praktykach należy podjąć wszelkie rozsądne działania, które zapewnią bezpieczeństwo danych przetwarzanych w takich systemach. Głównym aktem, który w tym momencie reguluje zasady przetwarzania danych w obrębie systemów AI, jest RODO. Jest to jednak akt, który reguluje wyłącznie zasady przetwarzania danych osobowych. W niniejszym artykule postaram się przed
Stan prac nad aktem w sprawie sztucznej inteligencji
Proces ustawodawczy dotyczący europejskiego rozporządzenia o sztucznej inteligencji (AI Act) trwa już od kwietnia 2021 r. 14 czerwca 2023. Parlament Europejski przyjął poprawki do projektu rozporządzenia Parlamentu Europejskiego i Rady ustanawiającego zharmonizowane przepisy dotyczące sztucznej inteligencji (akt w sprawie sztucznej inteligencji) i zmieniającego niektóre akty ustawodawcze Unii (tzw. AI Act).
Pod koniec 2023 r. proces ustawodawczy doszedł do trilogów, czyli niejawnych rozmów między przedstawicielami Komisji Europejskiej, Rady Unii Europejskiej i Parlamentu Europejskiego. Podczas rozmów odbytych się od 6 do 8 grudnia 2023 r. osiągnięto porozumienie w sprawie najistotniejszych kwestii, w tym w zakresie definicji systemów sztucznej inteligencji.
Definicja systemów sztucznej inteligencji wg OCED
Wg dostępnych informacji, w ramach trilogu, przyjęto definicję sformułowaną przez OCED, zgodnie z którą system sztucznej inteligencji to system oparty na maszynie (machine-based), który dla celów jawnych lub niejawnych wnioskuje na podstawie otrzymanych danych wejściowych, w jaki sposób generować dane wyjściowe, takie jak prognozy, treści, zalecenia lub decyzje, które mogą wpływać na środowisko fizyczne lub wirtualne.
Zasady ogólne dotyczące wszystkich systemów sztucznej inteligencji
Warto przypomnieć, że w ramach zaproponowanych przez Parlament Europejski poprawek do projektu AI Act wprowadzono zasady ogólne dotyczące wszystkich systemów AI. Zasady, które będą zobowiązani stosować operatorzy systemów AI, kształtują się w następujący sposób:
- przewodnia i nadzorcza rola człowieka;
- techniczna solidność i bezpieczeństwo;
- prywatność i zarządzanie danymi;
- przejrzystość;
- różnorodność, niedyskryminacja i sprawiedliwość;
- dobrostan społeczny i środowiskowy.
Dlaczego dane są kluczowe dla działania i rozwoju sztucznej inteligencji?
Dane to podstawowy element, który umożliwia działanie i rozwój AI. Dane, mówiąc ogólnie, to zbiory informacji, które mogą być przechowywane, przetwarzane i analizowane przez systemy AI. Dane mogą pochodzić z różnych źródeł, takich jak obrazy, teksty lub dźwięki.
W procesie tworzenia systemów AI dane mogą być wykorzystywane do różnych celów, takich jak trening, testowanie, walidacja systemów AI.
Dane są kluczowe dla działania i rozwoju AI z kilku powodów.
Po pierwsze, dane są niezbędne do uczenia się systemów AI, czyli procesu, w którym system AI poprawia swoją wydajność i dokładność w wykonywaniu zadań na podstawie doświadczenia. Uczenie się systemów AI może być nadzorowane, nienadzorowane lub wzmacniane, w zależności od tego, czy system AI otrzymuje informację zwrotną o poprawności swoich działań. W każdym przypadku dane są źródłem wiedzy i informacji dla systemów AI, które pozwalają im na dostosowywanie się do zmieniających się warunków i wymagań.
Po drugie, dane są niezbędne do oceny systemów AI, czyli procesu, w którym sprawdza się, czy system AI spełnia określone kryteria jakości, takie jak dokładność, niezawodność, bezpieczeństwo czy etyka. Ocena systemów AI może być wewnętrzna lub zewnętrzna, w zależności od tego, czy jest przeprowadzana przez twórców lub użytkowników systemów AI. W każdym przypadku dane są źródłem dowodów i argumentów dla systemów AI, które pozwalają im na udowadnianie swojej wartości i zaufania.
Po trzecie, dane są niezbędne do rozwoju systemów AI, czyli procesu, w którym dodaje się, modyfikuje lub usuwa się funkcje, lub właściwości systemów AI, aby poprawić ich jakość lub dostosować je do nowych potrzeb, lub celów. Rozwój systemów AI może być inkrementalny lub radykalny, w zależności od tego, czy wprowadza się drobne zmiany lub całkowicie nowe rozwiązania. W każdym przypadku dane są źródłem inspiracji i innowacji dla systemów AI, które pozwalają im na tworzenie nowych możliwości i rozwiązywania nowych problemów.
Prywatność i zarządzanie danymi
Na szczególną uwagę spośród wszystkich zasad przewidzianych w projekcie AI Act zasługuje zasada prywatności i zarządzania danymi, która wg projektu oznacza, że systemy sztucznej inteligencji należy opracowywać i wykorzystywać zgodnie z obowiązującymi przepisami dotyczącymi prywatności i ochrony danych, a jednocześnie należy przetwarzać dane spełniające wysokie standardy pod względem jakości i integralności.
Powyższa zasada w praktyce oznacza, że każdy system sztucznej inteligencji będzie musiał spełniać zasady przetwarzania danych osobowych, które są zawarte w RODO. AI Act nie będzie bowiem lex specialis do przepisów RODO. Twórcy oraz użytkownicy systemów sztucznej inteligencji będą zatem musieli spełniać wymogi określone w obu aktach prawnych.
Rzecz jasna, nie każdy system sztucznej inteligencji będzie tworzony lub trenowany przy użyciu danych osobowych, bowiem przy zastosowaniu odpowiednich technik systemy AI mogą być tworzone przy wykorzystaniu danych anonimowych. Tym niemniej proces tworzenie systemu AI powinien każdorazowo uwzględniać test zgodności ogólnymi zasadami przetwarzania danych.
Skoro zatem systemy AI będą musiały być zgodne z ogólnymi zasadami przetwarzania danych, należy przeanalizować 6 zasad przetwarzania danych osobowych wynikających z art. 5 ust 1 RODO.
Zasady przetwarzania danych osobowych
Zgodnie z art. 5 ust 1 RODO, dane osobowe muszą być:
a) przetwarzane zgodnie z prawem, rzetelnie i w sposób przejrzysty dla osoby, której dane dotyczą („zgodność z prawem, rzetelność i przejrzystość");
b) zbierane w konkretnych, wyraźnych i prawnie uzasadnionych celach i nieprzetwarzane dalej w sposób niezgodny z tymi celami; dalsze przetwarzanie do celów archiwalnych w interesie publicznym, do celów badań naukowych lub historycznych, lub do celów statystycznych nie jest uznawane w myśl art. 89 ust. 1 za niezgodne z pierwotnymi celami („zasada ograniczenia celu");
c) adekwatne, stosowne oraz ograniczone do tego, co niezbędne do celów, w których są przetwarzane („zasada minimalizacji danych");
d) prawidłowe i w razie potrzeby uaktualniane; należy podjąć wszelkie rozsądne działania, aby dane osobowe, które są nieprawidłowe w świetle celów ich przetwarzania, zostały niezwłocznie usunięte lub sprostowane („zasada prawidłowości danych");
e) przechowywane w formie umożliwiającej identyfikację osoby, której dane dotyczą, przez okres nie dłuższy, niż jest to niezbędne do celów, w których dane te są przetwarzane; dane osobowe można przechowywać przez okres dłuższy, o ile będą one przetwarzane wyłącznie do celów archiwalnych w interesie publicznym, do celów badań naukowych lub historycznych, lub do celów statystycznych na mocy art. 89 ust. 1, z zastrzeżeniem, że wdrożone zostaną odpowiednie środki techniczne i organizacyjne wymagane na mocy niniejszego rozporządzenia w celu ochrony praw i wolności osób, których dane dotyczą („zasada ograniczenia przechowywania danych");
f) przetwarzane w sposób zapewniający odpowiednie bezpieczeństwo danych osobowych, w tym ochronę przed niedozwolonym lub niezgodnym z prawem przetwarzaniem oraz przypadkową utratą, zniszczeniem lub uszkodzeniem, za pomocą odpowiednich środków technicznych lub organizacyjnych („zasada integralności i poufności").
Zasadą, która spina powyższe zasady przetwarzania danych osobowych, to zasada rozliczalności, która zobowiązuje administratora nie tylko do ich przestrzegania, ale również do udowodnienia ich przestrzegania. Innymi słowy, administrator musi być w stanie wykazać zgodność z RODO.
Zgodność z prawem i przejrzystość przetwarzania
Z punktu widzenia zgodności systemów z RODO, wdrażanie sztucznej inteligencji powinno być odpowiednio zaplanowane. Przede wszystkim należy ustalić, czy proces trenowania (szkolenia modeli) jest prowadzony przy wykorzystaniu danych osobowych. Jeżeli tak, konieczne jest ustalenie zakresu i rodzaju przetwarzanych danych osobowych oraz celu przetwarzania, a następnie zidentyfikowanie odpowiednich podstaw prawnych dla przetwarzanych danych osobowych.
Oczywiście w ślad za ustaleniem podstaw prawnych przetwarzania danych, należy zadbać o przekazanie osobom, których dane dotyczą informacji mających zapewnić rzetelność. Innymi słowy, powinien być spełniony obowiązek informacyjny, o którym mowa w art. 13 i art. 14 RODO.
Przetwarzane zgodnie z prawem, to również realizacja praw osób, których dane dotyczą. Administrator operujący systemem AI powinien m.in. zapewnić skuteczne usunięcie danych osobowych w przypadku żądania. Powinien również rzetelnie informować, jakie są sposoby wykonywania praw przysługujących osobom, których dane dotyczą.
Warto zauważyć, że nie jest wykluczone, aby w ramach trenowania systemów AI były wykorzystywane dane szczególnej kategorii. Jeżeli tylko administratorzy będą legitymowali się stosowaną podstawą prawną z art. 9 ust. 2, zapewnią bezpieczeństwo danych oraz zostanie przestrzegana prawidłowa realizacja obowiązków informacyjnych, przetwarzanie danych szczególnej kategorii w ramach systemów AI będzie możliwe.
Zasada zgodności z prawem, rzetelności i przejrzystości oczywiście powinna być stosowana w każdym stadium wykorzystywania systemów AI.
Zasada ograniczenia celu przetwarzania
Zasada ograniczenia celu z RODO ma istotne implikacje dla systemów sztucznej inteligencji, które wykorzystują dane osobowe. Systemy te muszą bowiem przestrzegać tej zasady zarówno na etapie tworzenia i trenowania modeli AI, jak i na etapie wdrażania i wykorzystywania systemów AI.
Na etapie tworzenia i trenowania modeli AI, podmioty przetwarzające muszą określić cel lub cele, dla których zbierają i wykorzystują dane osobowe, oraz upewnić się, że są one określone, wyraźne i prawnie uzasadnione. Podmioty te muszą również poinformować podmioty danych o tym celu lub celach i uzyskać ich zgodę lub opierać się na innej podstawie prawnej. Podmioty te muszą również ograniczyć zakres i czas przetwarzania danych osobowych do tego, co jest niezbędne do osiągnięcia celu lub celów przetwarzania.
Na etapie wdrażania i wykorzystywania systemów AI, podmioty przetwarzające muszą upewnić się, że cel lub cele, dla których wykorzystują systemy AI, są zgodne z celem lub celami, dla których zostały zebrane dane osobowe. Jeśli cel lub cele są niezgodne, to podmioty te muszą uzyskać ponowną zgodę podmiotów danych, lub opierać się na innej podstawie prawnej. Podmioty te muszą również ograniczyć zakres i czas wykorzystywania systemów AI do tego, co jest niezbędne do osiągnięcia celu lub celów wykorzystywania.
Zasada minimalizacji danych
Zasada ta ma na celu zapobiegać nadmiernemu lub nieuzasadnionemu wykorzystywaniu danych osobowych przez podmioty przetwarzające, które mogłyby naruszać prawa i wolności podmiotów danych. Zasada ta wymaga, aby podmioty przetwarzające określały cel lub cele przetwarzania danych osobowych przed ich zbieraniem i informowały o nich podmioty danych. Zasada ta wymaga również, aby podmioty przetwarzające ograniczały zakres i czas przetwarzania danych osobowych do tego, co jest niezbędne do osiągnięcia celu lub celów przetwarzania.
Minimalizacja danych w systemach AI jest istotnym czynnikiem z obszaru zakresu ochrony danych osobowych, który wpływa na zgodność z RODO. Dzięki ograniczeniu przetwarzania danych osobowych zapewnia się prywatność i ochronę danych, a zarazem osiąga się cele przetwarzania. Ponieważ system sztucznej inteligencji będzie operował na tylko niezbędnych danych, zmniejsza się zagrożenie naruszeniem prywatności i ochrony danych.
Zasada prawidłowości danych
Prawidłowość danych w systemach sztucznej inteligencji jest jednym z kluczowych elementów. W szczególności prawidłowość danych wejściowych przekłada się na jakość i właściwe wyniki.
Na kluczowe aspekty zasady prawidłowości danych w kontekście systemów AI zwróciła uwagę Agencia Española de Protección de Datos (odpowiednik polskiego UODO), która zauważyła m.in., że: -
- Brak definicji danych wejściowych może prowadzić do błędów lub błędów, które nie są częścią samego algorytmu.
- Zasada prawidłowości powinna być zaimplementowana w danych wejściowych, danych wyjściowych, a nawet w danych pośrednich w toku całego procesu przetwarzania.
- Wpływ wszystkich danych wejściowych w wyniku końcowym powinien być oceniany z w ramach projektowania, dla każdego konkretnego celu, poprzez przeprowadzenie analizy zaimplementowanego algorytmu, poprzez testy weryfikacyjne wymagań oraz przez testy walidacyjne w kontekście działania.
- Dane wejściowe mogą być zbierane ręcznie od osób, których dane dotyczą. W takim przypadku osoby, których dane dotyczą (i osoby, które zbierają dane) powinny znać i rozumieć semantykę danych oraz wpływ ich odpowiedzi.
Zasada ograniczenia przechowywania danych
Zasada ta ma na celu zapobiegać nadmiernemu lub nieuzasadnionemu wykorzystywaniu danych osobowych przez podmioty przetwarzające, które mogłyby naruszać prawa i wolności podmiotów danych. Operator sztucznej inteligencji w każdym powinien podejmować wszelkie racjonalne działania, aby zapobiec przechowywaniu danych osobowych, dłużej niż wymaga tego cel, w jakim dane zostały zebrane.
Dane osobowe muszą być przetwarzane wyłącznie przez czas niezbędny do osiągnięcia celu.
Praktyczne zastosowanie tej zasady przetwarzania danych osobowych może stwarzać problemy. Z jednej strony dane osobowe muszą, o ile są wykorzystywane w system AI, powinny być przetwarzane wyłącznie przez okres niezbędny do osiągnięcia celu. Z drugiej strony systemy AI co do zasady lepiej funkcjonują, jeżeli mają więcej danych i są one dłużej przechowywane.
Zasada integralności i poufności danych
Chyba najważniejsza zasada, bowiem wprost skupiająca się na ochronie danych osobowych, a przede wszystkim poufności danych. Jest to zasada, która wymaga wdrożenia odpowiednich środków technicznych, które będą miały na celu odpowiednie bezpieczeństwo danych osobowych.
Realizacja tej zasady przetwarzania danych osobowych w przypadku systemów AI wymaga podjęcia wielu działań tak organizacyjnych, jak i technicznych. W przypadku system wykorzystujących sztuczną inteligencję na szczególną uwagę zasługują technologie pozwalające zwiększyć prywatność. Do takich technologii i technik, oprócz pseudonimizacji, można zaliczyć np. prywatność różnicową czy szyfrowanie homomorficzne.
Dane anonimowe
Warto pamiętać, że RODO reguluje przetwarzanie danych osobowych, czyli, mówiąc w uproszczeniu, danych w formie umożliwiającej identyfikację osoby. RODO nie dotyczy natomiast danych anonimowych. To zaś oznacza, że dane osobowe, które zostaną w sposób nieodwracalny pozbawiony cech lub atrybutów, które pozwalają zidentyfikować konkretną osobę prawną, mogą być swobodnie stosowane w obrębie systemów AI.
Zasada rozliczalności
Opisane powyżej zasady przetwarzania danych osobowych byłyby pozbawione swej mocy i znaczenia, gdyby nie zasada rozliczalności. Ta zasada obliguje administratorów i podmioty przetwarzające, aby wszelkie przetwarzanie danych osobowych nie tylko było zgodne z wymienionymi zasadami, ale aby było rozliczane. Przykładowo, wykazanie stosowania środków organizacyjnych nie może sprowadzać, się wyłącznie do suchych twierdzeń, lecz musi być poparte konkretnymi dowodami.
Operator systemu sztucznej inteligencji, jak każdy administrator i podmiot przetwarzający dane, również musi być w stanie wykazać, że zasady dotyczące przetwarzania danych są przez niego stosowane.