Jak DeepFake Audio oszukują pracowników!
W 1989 roku Mel Blanc, oryginalny głos Buggsa Bunny’ego, zmarł, co spowodowało problem castingowy dla Warner Brothers. Jeff Bergman, imitator głosowy, zdołał otrzymać pracę po udanym przesłuchaniu, podczas którego zagrał nagrania zarówno Mela Blanca, jak i swoją interpretację Buggsa. Trzydzieści lat później, CEO brytyjskiej firmy energetycznej został oszukany przez algorytm imitujący głos jego szefa, co zakończyło się wysokim kosztem finansowym. Organizacje, w tym FBI i NSA, ostrzegają przed rosnącym zagrożeniem deepfake AI, które mogą być wykorzystywane przez złych aktorów w atakach na firmy.
Anatomia ataku głosowego deepfake’a
27 sierpnia 2023 roku Retool padło ofiarą ataku phishingu, który skutkował naruszeniem 27 kont klientów.
Atak rozpoczął się od wiadomości tekstowych informujących pracowników o problemach z zapisem na ubezpieczenie, zawierających fałszywy link do wewnętrznego portalu identyfikacyjnego.
Jeden pracownik zalogował się na fałszywy portal, a następnie udostępnił dodatkowy kod MFA napastnikowi, który zadzwonił po zalogowaniu, twierdząc, że jest członkiem zespołu IT wykorzystując głosowy deepfake.
Napastnik dodał swoje urządzenie do konta pracownika, umożliwiając sobie generowanie własnych kodów MFA.
Deepfake nie był głównym narzędziem ataku, lecz jednym z elementów złożonego planu, który obejmował również smishing (wiadomość tekstowa) i phishing (link).
Mimo, że deepfake przyciągnął uwagę, prawdziwy problem tkwił w polityce MFA Google’a.
Narracja podnosi pytania o łatwość klonowania głosu, skuteczność oszukiwania użytkowników oraz poziom zaniepokojenia zespołów ds. bezpieczeństwa.
Jak sklonować/głosowo oszukać?
Audio deepfake’i są tworzone poprzez przesłanie nagranego dźwięku głosu do programu, który generuje „klon” głosu za pomocą analizy AI, wypełniając luki jak nowe słowa, emocjonalny wydźwięk i akcent.
Sklonowany głos może być używany do przekształcania tekstu na mowę (np. czytanie tekstu w sklonowanym głosie) lub przekształcania mowy na mowę (np. konwersja wypowiedzi na sklonowany głos).
Rosnąca dostępność przekształcania mowy na mowę budzi obawy, ponieważ ułatwia fałszowanie rozmów w czasie rzeczywistym.
Ile audio potrzebne do stworzenia głosowego deepfake’a?
Tworzenie głosowych deepfake’ów wymaga znacznej ilości danych audio, mimo że reklamy twierdzą, że potrzebne jest zaledwie kilka sekund.
Resemble AI twierdzi, że może stworzyć klon głosu już na podstawie 3 minut danych, ale zaleca przesłanie co najmniej 20 minut audio.
ElevenLabs oferuje „Natychmiastowe klonowanie głosu” z jedną minutą audio, ale dla „Profesjonalnego klonowania głosu” zalecają przynajmniej 30 minut, a optymalnie 3 godziny.
Jakość audio jest ważniejsza niż ilość, więc lepiej dostarczyć czyste, wysokiej jakości nagrania.
Wiele osób dzieli się swoim głosem online, co stwarza potencjalne źródło danych dla atakujących.
Firmy klonujące głosy zazwyczaj zgłaszają potrzebę zgody, ale proces ten może być niejasny i niektóre firmy mogą działać bez zezwolenia.
Jak podatni jesteśmy na audio deepfake’i?
Pomijając jakość klonu, nie jest potrzebna duża ilość, aby zmylić ludzkie ucho. Termin „deepfake” może stworzyć fałszywe poczucie pewności, ponieważ kojarzymy go z wideo online, które zazwyczaj jesteśmy w stanie rozpoznać jako fałszywe. Jednak w przypadku wyłącznie audio deepfake’ów, dowody wskazują, że ludzie po prostu nie są zbyt dobrzy w odróżnianiu prawdziwej osoby od klonu.
Przykładowo, The Economist relacjonował, jak Taylor Jones, lingwista, znalazł różne błędy statystyczne w swoim klonie głosu, ale żaden z nich nie uniemożliwił klonowi oszukania jego własnej matki podczas rozmowy.
Timothy B. Lee przeprowadził podobny eksperyment dla Slate i odkrył, że „osoby, które mnie nie znały dobrze, poradziły sobie nie lepiej niż w przypadku rzutu monetą, zgadując poprawnie tylko 54 procent czasu” (Matka Lee również została oszukana).
Należy pamiętać, że osoby w eksperymencie Lee były zupełnie swobodne, czuły się komfortowo w domu i miały świadomość, że szukają klonu.
Jak audio deepfake’i mogą kompromitować bezpieczeństwo firm?
W atakach inżynierii społecznej, jak w przypadku Retool, przestępcy starają się spowodować, że ludzie poczują się pod presją czasu i zestresowani. Celem są nowi pracownicy, którzy nie znają dobrze innych i jest mało prawdopodobne, że zauważą coś „dziwnego” w głosie współpracownika, którego dopiero co poznali. W zdalnym miejscu pracy nie ma możliwości zapytania sąsiada o to, co się dzieje, jak podejrzane powinno być połączenie od IT, czy czyjś telefon działa.
Według raportu IBM z 2022 roku, ukierunkowane ataki, które wykorzystują vishing (phishing głosowy), są trzy razy bardziej skuteczne niż te, które tego nie robią. To wynika z faktu, że inżynieria społeczna wykorzystuje ludzki lęk i skłonność do działania pod wpływem presji czasu.
Wiele osób już czuje się niespokojnie podczas rozmów telefonicznych: 76% milenialsów i 40% baby boomersów, według badania z 2019 roku przeprowadzonego wśród pracowników biurowych w Anglii. Kiedy połączenie jest od szefa, stres jest jeszcze większy.
Kiedy rozmowa telefoniczna jest używana w połączeniu z innymi atakami phishingowymi, potwierdza to wiarygodność. Nawet jeśli telefony są niezabezpieczone, a haker może ukryć swój prawdziwy numer telefonu.
Dostajesz dziwny tekst samodzielnie i prawdopodobnie zignorujesz go. Dostajesz dziwny telefon samodzielnie i prawdopodobnie nie odbierzesz. Ale gdy tekst poprzedzi telefon, sytuacja staje się bardziej „realna”. Dotyczy to szczególnie, gdy atakujący mają wystarczającą wiedzę na temat firmy, aby wydawać się wiarygodni.
Przykład z 2020 roku pokazuje, jak atakujący użyli telefonu od (podrobionego) dyrektora, aby przeprowadzić fałszywą transakcję. Menedżer otrzymuje również e-maile podszywające się pod prawnika, co sprawia, że wszystko wydaje się legalne, a manager autoryzuje transfery.
Co z systemami uwierzytelniania głosowego?
Badania sugerują, że systemy uwierzytelniania głosowego używane przez niektóre banki mogą być potencjalnie podatne na deepfake’i.
Jednak prawdziwe ataki na tego typu systemy są rzadkie, co potwierdzają słowa Brett Beraneka, dyrektora generalnego ds. bezpieczeństwa i biometrii w firmie Nuance, dostawcy technologii głosowej.
Choć istnieje ryzyko, warto ponownie rozważyć korzystanie z innych metod uwierzytelniania biometrycznego lub opartego na sprzęcie. Ochrona przed innymi zagrożeniami związanymi z audio deepfake’ami jest jednak bardziej skomplikowana.
Jak chronić się przed atakami klonowania głosu?
Włącz vishing do szkoleń z zakresu bezpieczeństwa w firmie, aby pracownicy mogli rozpoznawać sygnały ostrzegawcze i unikać presji czasu.
Ustalaj hasła werbalne lub frazy kodowe do wrażliwych rozmów przez telefon.
W razie podejrzeń o atak, rozłącz się i zadzwoń z powrotem do osoby, aby potwierdzić prośbę.
Śledź rozwój narzędzi do wykrywania audio deepfake’ów, ale nie polegaj wyłącznie na nich jako rozwiązaniu, skupiając się także na szerszych problemach, które umożliwiają ataki vishingowe
Jak zabezpieczyć się przed deepfake’ami przy użyciu Zero Trust?
Ochrona przed deepfake’ami audio może nie wystarczyć do zapobieżenia zaawansowanym atakom. W przypadku takich incydentów, jak np. atak na MGM Casino, atakujący wykorzystali proste metody, takie jak podszywanie się pod pracownika w rozmowie z działem pomocy technicznej.
W takich sytuacjach celem ataków nie jest jednorazowy transfer pieniędzy, ale uzyskanie dostępu do systemów firmy, co może prowadzić do większych strat.
Aby zapobiec takim atakom, niezbędne jest zastosowanie podejścia Zero Trust, które nie opiera się wyłącznie na uwierzytelnieniu na podstawie uwierzytelnienia hasłem, ale wymaga dodatkowych kroków weryfikacji, takich jak sprawdzenie położenia i stanu bezpieczeństwa urządzenia.
Przykładowo, firma korzystająca z rozwiązania do weryfikacji zaufania urządzenia, takiego jak Kolide, mogłaby zminimalizować ryzyko ataku, wymagając potwierdzenia dodania nowego urządzenia oraz spełnienia określonych wymagań, takich jak sprawdzenie stanu urządzenia.
Ważne jest jednak, że żadne pojedyncze rozwiązanie nie jest w stanie zatrzymać wszystkich ataków inżynierii społecznej, a skuteczne szkolenie pracowników nadal pozostaje kluczowe.
Klonowanie głosu przy użyciu sztucznej inteligencji to nowa odsłona starej sztuki
Audio deepfake’i stanowią poważne zagrożenie, ale nie są nowym ryzykiem. Największą siłą klonowania głosu jest sposób, w jaki może zwiększyć wiarygodność ataków vishingowych. Jednak ta przewaga znika, jeśli pracownicy są świadomi tego, na co powinni uważać podczas rozmowy telefonicznej.
Edukowanie zespołów i dodawanie kontroli to proces czasochłonny, co może być trudne do zaakceptowania, zwłaszcza gdy dostawcy AI obiecują, że ich algorytm może zrobić całą pracę za nich. Ale aby chronić się przed atakami inżynierii społecznej, zespoły ds. bezpieczeństwa muszą skupić się na elemencie ludzkim tak samo, jak to robią inżynierowie społeczni. Dodanie trochę czasu i oporu może stanowić różnicę między „błyskawicznym błędem” a „przemyślaną reakcją”. Zawsze udzielaj ludziom informacji, których potrzebują, aby podjąć właściwą decyzję.
Jeśli chcesz więcej na temat bezpieczeństwa zapraszamy na naszą stronę z wiadomościami do kategorii cyberbezpieczeństwo.
żródło: kolide.com https://shorturl.at/ijsuH