Generatywna analiza danych

W epoce ChatGPT modele sztucznej inteligencji są niezwykle popularne… i łatwo je naruszyć – Rada Przywódców Mass Tech

Data:

Na długo przed końcem roku 2023 został on już ogłoszony rokiem generatywnej sztucznej inteligencji. Zachęceni pojawieniem się modeli takich jak ChatGPT, które generowały szczegółowe, irytująco ludzkie odpowiedzi na podpowiedzi użytkowników, zarówno eksperci, jak i nowicjusze zaczęli zastanawiać się nad potencjalnym wpływem tej technologii na pracę, edukację i kreatywność.

Jednak choć dzisiejsze modele dużych języków (LLM) mają zadziwiające możliwości, są też szokująco podatne na ataki, mówi profesor Khoury Alina Oprea. Od ponad dziesięciu lat bada sztuczną inteligencję w kontekście cyberbezpieczeństwa, a niedawno jest współautorką raportu, w którym szczegółowo omawia ataki na sztuczną inteligencję – jak one działają, jak są klasyfikowane oraz jak można je (i nie można) złagodzony.

„Naprawdę trudno jest zapewnić bezpieczeństwo generatywnej sztucznej inteligencji” – mówi Oprea. „Skala tych modeli i ich danych szkoleniowych będzie z czasem rosnąć, co tylko ułatwia te ataki. A kiedy zaczniesz mówić o generatywnej sztucznej inteligencji, która wykracza poza tekst, obrazy i mowę, bezpieczeństwo staje się bardzo otwartą kwestią”.

Raport opublikowany przez Narodowy Instytut Standardów i Technologii (NIST) Departamentu Handlu jest aktualizacją raportu Oprea, którego współautorem w zeszłym roku był Apostol Vassilev z NIST. Ten początkowy raport dotyczył bardziej tradycyjnej predykcyjnej sztucznej inteligencji, ale w związku z gwałtownym wzrostem popularności generatywnej sztucznej inteligencji od tego czasu Opera i Vassilev powitali ekspertów w dziedzinie generatywnej sztucznej inteligencji Alie Fordyce i Hyruma Andersona z Robust Intelligence, aby poszerzyć zakres projektu.

„Teraz współpracują ze sobą naukowcy, rząd i przemysł” – zauważyła Oprea, „co jest docelowym odbiorcą raportu”.

Według raportu generatywne modele sztucznej inteligencji swoją podatność zawdzięczają różnym czynnikom. Po pierwsze, jak zauważa Oprea, większość ataków jest „dość łatwa do przeprowadzenia i wymaga minimalnej wiedzy o systemie sztucznej inteligencji”. Po drugie, ogromne zbiory danych szkoleniowych modeli są zbyt duże, aby ludzie mogli je monitorować i weryfikować. A kod leżący u podstaw modeli nie jest zautomatyzowany; opiera się na ludzkim umiarze i jest narażona na złośliwą ingerencję człowieka.

W efekcie, twierdzi kwartet badaczy, powstają cztery główne typy ataków, które dezorientują systemy sztucznej inteligencji i powodują ich nieprawidłowe działanie: ataki polegające na unikaniu, które zmieniają dane wejściowe modelu w celu zmiany jego reakcji, ataki zatruwające, które uszkadzają podstawowe algorytmy modelu lub dane szkoleniowe, ataki mające na celu naruszenie prywatności ataki, które namawiają model do ujawnienia wrażliwych danych szkoleniowych, takich jak informacje medyczne, oraz ataki nadużyć, które przekazują nieprawidłowe informacje do legalnych źródeł, z których model się uczy. Manipulując danymi wejściowymi modelu, atakujący mogą z wyprzedzeniem wybrać jego dane wyjściowe.

„Można to wykorzystać do celów komercyjnych, reklamowych, do generowania spamu zawierającego złośliwe oprogramowanie lub mowy nienawiści – czyli rzeczy, których model zwykle by nie wygenerował” – wyjaśnia Oprea.

Nie przeciążając się, złośliwi aktorzy mogą kontrolować dane internetowe, na których trenuje model sztucznej inteligencji, wprowadzić backdoora, a następnie potajemnie sterować stamtąd zachowaniem modelu. Biorąc pod uwagę rosnącą popularność tych modeli, takie backdoory same w sobie byłyby wystarczająco niepokojące. Ale na tym szkody się nie kończą.

„Mamy teraz zintegrowane aplikacje korzystające z LLM. Na przykład firma tworzy agenta poczty e-mail, który integruje się z LLM w tle i może teraz czytać Twoje e-maile i wysyłać je w Twoim imieniu” – mówi Oprea. „Ale atakujący mogą użyć tego samego narzędzia do rozsyłania złośliwego oprogramowania i spamu do tysięcy ludzi. Powierzchnia ataku wzrosła, ponieważ integrujemy LLM z tymi aplikacjami”.

Choć mowa nienawiści i masowy spam są destrukcyjne i niebezpieczne, na horyzoncie pojawiają się jeszcze większe obawy dotyczące bezpieczeństwa.

„Niektóre aplikacje mają kluczowe znaczenie dla bezpieczeństwa, jak na przykład samochody autonomiczne” – mówi Oprea. „Jeśli te modele dokonują błędnych przewidywań, nie można ich zastosować”.

Co więc można zrobić? Zespół przygotował raport, który planuje corocznie aktualizować, dla kilku odbiorców — decydentów, twórców sztucznej inteligencji i naukowców, którzy mogą wykorzystać taksonomię zawartą w raporcie jako podstawę lub kontekst własnej pracy. Oprea twierdzi, że wszystkie te grupy muszą pracować, aby zapewnić zgodność modeli sztucznej inteligencji z wartościami ludzkimi, chronić prywatność i działać w najlepszym interesie użytkowników. Przyznaje jednak, że zajęcie się każdą kwestią poruszoną w raporcie stanowi wyzwanie i że każdy, kto namawia do rozwiązań, a nie łagodzeń, jest w poważnym błędzie.

„Istnieje znacznie więcej ataków niż środków łagodzących, a każde łagodzenie, o którym wspominamy, wiąże się z kompromisem lub narzutem na wydajność, w tym pogorszeniem dokładności modelu” – ostrzega Oprea. „Środki łagodzące nie są bezpłatne, a zabezpieczenie sztucznej inteligencji to naprawdę wymagające przedsięwzięcie, mamy jednak nadzieję, że raport stanowi przydatny punkt wyjścia do zrozumienia ataków”.

spot_img

Najnowsza inteligencja

spot_img

Czat z nami

Cześć! Jak mogę ci pomóc?