Biuro Porad Prawnych
Oskar Zacharski

ul. Żwirki i Wigury 33/43
26-600 Radom

NIP: 7962987711

600 784 526

o.zacharski@bppz.pl

Na czym trenowano modele AI i co trzeba ujawnić po AI Act?

na czym trenowano modele AI

Pytanie, na czym trenowano modele AI, przestało być dziś ciekawostką dla programistów i badaczy. Stało się realnym pytaniem biznesowym, prawnym i reputacyjnym. Gdy firma rozwija model sztucznej inteligencji, coraz częściej musi liczyć się z tym, że rynek, klienci, partnerzy i podmioty uprawnione będą oczekiwać bardziej konkretnej odpowiedzi niż ogólne stwierdzenie o wykorzystaniu dużych zbiorów danych. AI Act wyraźnie zmienia ten kierunek, bo nakłada na dostawców modeli AI ogólnego przeznaczenia obowiązek sporządzania dokumentacji technicznej, wdrożenia polityki zgodności z prawem autorskim oraz publicznego streszczenia treści wykorzystanych do trenowania modelu.

To jedna z ważniejszych zmian w całym rozporządzeniu. Unijny ustawodawca nie wymaga pełnego odsłonięcia całej technologicznej receptury, ale kończy z podejściem, w którym dostawca może praktycznie nic nie powiedzieć o źródłach danych treningowych. Motyw 107 AI Act wskazuje wprost, że chodzi o zwiększenie przejrzystości w zakresie danych wykorzystywanych do pretrenowania i trenowania modeli AI ogólnego przeznaczenia, także wtedy, gdy obejmują one teksty i dane chronione prawem autorskim.

Zapraszamy do współpracy

Szczegółowe informacje o ofercie i warunkach współpracy można uzyskać telefonicznie lub wysyłając zapytanie za pomocą formularza kontaktowego.

Co AI Act zmienia w kwestii danych treningowych modeli

AI Act patrzy na temat szerzej niż tylko przez pryzmat samego zbioru danych. Artykuł 53 i załącznik XI pokazują, że dla regulatora istotne jest nie tylko to, jakie dane zostały użyte, ale również to, jak były pozyskiwane, selekcjonowane i porządkowane. Dokumentacja techniczna ma obejmować m.in. informacje o rodzaju i pochodzeniu danych wykorzystywanych do trenowania, testowania i walidacji, metodach ich porządkowania, liczbie punktów danych, ich zakresie i głównych właściwościach, a także środkach służących wykrywaniu nieodpowiednich źródeł danych oraz możliwej do zidentyfikowania stronniczości. Rozporządzenie wymaga też opisania zasobów obliczeniowych użytych do trenowania, czasu trenowania oraz znanego lub szacowanego zużycia energii.

To oznacza, że pytanie o dane treningowe nie dotyczy już wyłącznie samej zawartości zbiorów. W praktyce dotyczy całego procesu tworzenia modelu. Jeżeli ktoś pyta, na czym trenowano modele AI, to po wejściu AI Act sensowna odpowiedź powinna obejmować nie tylko same źródła treści, ale także sposób pracy na tych danych i jakość całego procesu rozwoju modelu.

Czy trzeba ujawniać, na czym trenowano modele AI

Tak, ale nie w takim stopniu, który prowadziłby do publikacji pełnej listy wszystkich rekordów, plików i baz danych. Artykuł 53 ust. 1 lit. d wyraźnie przewiduje obowiązek sporządzenia i podania do wiadomości publicznej wystarczająco szczegółowego streszczenia treści wykorzystanych do trenowania modelu AI ogólnego przeznaczenia. To bardzo ważne rozróżnienie. Rozporządzenie nie mówi o pełnym ujawnieniu każdego elementu datasetu, ale też nie pozwala zbyć tematu jednym marketingowym zdaniem o trenowaniu na dużych ilościach danych.

Z punktu widzenia praktyki oznacza to, że pytanie, na czym trenowano modele AI, staje się pytaniem całkowicie uzasadnionym. Co więcej, nie jest to już tylko pytanie dziennikarskie czy akademickie. To pytanie, na które dostawca modelu powinien być przygotowany także od strony formalnej, bo sam AI Act nakazuje publiczne przedstawienie odpowiednio szczegółowego streszczenia treści użytych do trenowania.

na czym trenowano modele AI

Jakie informacje muszą przygotować dostawcy

Warto tu odróżnić dwa poziomy obowiązków. Pierwszy dotyczy dokumentacji technicznej przygotowywanej na potrzeby nadzoru. Drugi dotyczy informacji przekazywanych podmiotom, które integrują model z własnymi systemami AI. W pierwszym przypadku zakres jest bardzo szeroki i obejmuje m.in. projekt modelu, proces treningowy, dane wykorzystywane do trenowania, testowania i walidacji, ich pochodzenie, metody porządkowania, sposób selekcji, zasoby obliczeniowe oraz zużycie energii.

W drugim przypadku, czyli na gruncie załącznika XII, dostawca musi przekazać integratorom informacje pozwalające zrozumieć możliwości i ograniczenia modelu. Obejmuje to m.in. architekturę i liczbę parametrów, formę i format danych wejściowych oraz wyjściowych, licencję, środki techniczne potrzebne do integracji, a także informacje o danych używanych do trenowania, testowania i walidacji, w tym o ich rodzaju, pochodzeniu i metodach porządkowania. Innymi słowy, AI Act zakłada, że przejrzystość nie kończy się na relacji z organem, ale ma także umożliwić bezpieczne wykorzystywanie modelu przez innych uczestników rynku.

Dane treningowe a prawa autorskie

To właśnie tutaj temat staje się naprawdę gorący. AI Act nie rozstrzyga wszystkich sporów dotyczących legalności trenowania modeli na cudzych treściach, ale wyraźnie wzmacnia obowiązki związane z prawem autorskim. Artykuł 53 ust. 1 lit. c nakazuje dostawcom wprowadzenie polityki służącej zapewnieniu zgodności z prawem Unii dotyczącym prawa autorskiego i praw pokrewnych, w szczególności w zakresie identyfikacji i respektowania zastrzeżeń praw wyrażonych zgodnie z dyrektywą DSM.

Motywy AI Act wyjaśniają tę logikę jeszcze wyraźniej. Jeżeli podmiot uprawniony skutecznie zastrzegł swoje prawa wobec eksploracji tekstów i danych, dostawca modelu musi uzyskać zezwolenie, jeżeli chce korzystać z takich utworów. Właśnie dlatego obowiązek publicznego streszczenia treści wykorzystanych do trenowania nie jest tylko dodatkiem formalnym. Ma on zwiększyć przejrzystość także wobec tych podmiotów, których utwory lub inne chronione treści mogły zostać wykorzystane przy trenowaniu modeli.

Z perspektywy czytelnika najważniejszy wniosek jest prosty. Pytanie o to, na czym trenowano modele AI, jest dziś jednocześnie pytaniem o zgodność z prawem autorskim, o ryzyko sporów i o wiarygodność całego produktu.

Czy tajemnica przedsiębiorstwa zwalnia z przejrzystości

Nie. Tajemnica przedsiębiorstwa nadal podlega ochronie, ale nie może stać się wygodnym pretekstem do całkowitej odmowy ujawnienia informacji, których wymaga AI Act. Sam art. 53 wskazuje, że przekazywanie informacji i dokumentacji powinno odbywać się bez uszczerbku dla potrzeby ochrony praw własności intelektualnej, poufnych informacji handlowych i tajemnic przedsiębiorstwa. Jednocześnie ten sam przepis nadal nakłada obowiązek publicznego streszczenia treści wykorzystanych do trenowania modelu.

W praktyce oznacza to dość jasny kompromis. Firma nie musi publikować całej technologicznej receptury modelu, ale nie może już całkowicie milczeć w sprawie danych treningowych. Po AI Act rynek ma dostać przynajmniej taki poziom przejrzystości, który pozwoli zrozumieć charakter użytych treści i podstawowe źródła ich pochodzenia.

na czym trenowano modele AI

Open source też nie usuwa problemu danych treningowych

To jeden z ciekawszych elementów rozporządzenia. AI Act przewiduje wyjątek dla części obowiązków z art. 53 ust. 1 lit. a i b w odniesieniu do modeli udostępnianych na podstawie bezpłatnej licencji otwartego oprogramowania, jeżeli publicznie dostępne są ich parametry, wagi, informacje o architekturze i o wykorzystaniu modelu. Wyjątek ten nie dotyczy jednak modeli AI ogólnego przeznaczenia z ryzykiem systemowym.

To jednak nie oznacza pełnej swobody. Już z samej konstrukcji art. 53 wynika, że wyjątek nie obejmuje automatycznie wszystkich obowiązków, a zwłaszcza nie znosi znaczenia zgodności z prawem autorskim i przejrzystości wobec treści użytych do trenowania. W praktyce również w świecie open source pytanie o to, na czym trenowano modele AI, pozostaje aktualne i może być jednym z głównych testów wiarygodności danego projektu.

Od kiedy te obowiązki naprawdę mają znaczenie

Nawet jeśli część rynku nadal traktuje ten temat jako przyszłościowy, sam AI Act pokazuje, że nie jest to już odległa teoria. Regulacja tworzy konkretny reżim obowiązków dla dostawców modeli AI ogólnego przeznaczenia, a art. 53 stanowi centralny punkt tego mechanizmu. Dodatkowo art. 56 zakłada tworzenie kodeksów praktyk, które mają wspierać wykonywanie obowiązków z art. 53 i 55, co pokazuje, że ustawodawca nie traktuje przejrzystości danych treningowych jako marginalnego dodatku, lecz jako stały element compliance w obszarze AI.

Dla firm korzystających z gotowych modeli oznacza to konieczność znacznie uważniejszego zadawania pytań dostawcom. Dla samych dostawców oznacza to z kolei, że temat danych treningowych trzeba uporządkować nie tylko komunikacyjnie, ale też dokumentacyjnie i procesowo.

Dlaczego ten temat będzie coraz ważniejszy

W najbliższych latach przewagę będą miały nie tylko te firmy, które mają skuteczne modele, ale także te, które potrafią wiarygodnie wyjaśnić ich pochodzenie, ograniczenia i podstawy prawne trenowania. AI Act bardzo wyraźnie przesuwa rynek w stronę większej odpowiedzialności. Skuteczność modelu nadal będzie ważna, ale coraz większe znaczenie zyskają przejrzystość, możliwość audytu, zgodność z prawem autorskim i gotowość do obrony modelu przed klientem, partnerem albo regulatorem.

na czym trenowano modele AI
Uproszczony proces trenowania modelu AI

Dlatego pytanie, na czym trenowano modele AI, nie jest już pobocznym wątkiem z debat o nowych technologiach. To jedno z podstawowych pytań o legalność, reputację i dojrzałość produktu. Po wejściu AI Act odpowiedź na nie nie może już być mglista. Musi być przynajmniej na tyle konkretna, na ile wymaga tego rozporządzenie.

| Redakcja BPPZ.pl