본문 바로가기

카테고리 없음

AI 딥페이크 기술이 진짜인지 가짜인지 구분이 안되는 세상, 선거는 당면한 리스크

728x90
반응형

전문가들은 2024년 역사적인 선거가 AI 기반 딥페이크의 해가 될 것이며 위험에 처한 민주주의 국가에 잠재적으로 재앙적인 결과를 가져올 것이라는 데 동의합니다.

최근 연구에 따르면 일반적으로 대중의 약 절반이 실제 이미지와 AI 생성 이미지의 차이를 구분할 수 없으며 유권자는 음성 딥페이크를 안정적으로 감지할 수 없으며 그 이후로 기술이 향상되었습니다.

딥페이크는 합성 미디어를 사용한 미묘한 이미지 변화와 디지털 녹음의 음성 복제부터 고용된 디지털 아바타와 맞춤형 도구를 사용하는 정교한 "얼굴 교환"까지 다양합니다. (인터넷상의 딥페이크 트래픽의 압도적인 대다수는 여성혐오와 개인적 보복심, 즉 가짜 성적인 이미지로 개별 여성을 모욕하려는 의도에서 비롯됩니다 . 그러나 이 전술은 여성 언론인을 공격하는 데에도 점점 더 많이 사용되고 있습니다.)

AI 오디오 가짜가 이번 선거 주기에 가장 큰 위협이 될 수 있는 이유

미디어 조작 수사관들은 GIJN에 가짜 메시지를 진술하기 위해 기계 학습 도구로 실제 음성을 복제하는 가짜 AI 생성 오디오 시뮬레이션이 조작된 비디오보다 2024년과 2025년 선거에 더 큰 위협으로 나타날 수 있다고 말했습니다. 한 가지 이유는 소위 저렴한 페이크처럼 오디오 딥페이크도 제작하기가 더 쉽고 저렴하기 때문입니다. (저렴한 가짜는 이미 선거 허위 정보에 널리 사용되었으며, 한 장소에서 실제로 다른 곳에서 온 것으로 알려진 비디오와 짧은 오디오 클립을 대충 비디오에 엮거나 폐쇄 캡션을 노골적으로 편집했습니다.) 이들이 악당에게 제공하는 또 다른 이점은 다음과 같습니다.

이는 잘못된 정보를 가지고 (특히) 나이가 많고 매우 활동적인 유권자를 표적으로 삼기 위해 자동화된 자동녹음전화에 사용될 수 있습니다. 그리고 자동녹음전화의 기원을 추적하는 것은 조사 기자들에게 전 세계적으로 사각지대로 남아 있습니다.

 

우크라이나의 독립 사실 확인 조직인 StopFake.org의 공동 창립자이자 저널리즘 트레이너인 Olga Yurkova는 “AI 오디오 가짜는 심각한 위협이 될 수 있습니다.”라고 강조합니다. “딥페이크 동영상보다 제작이 더 쉽고 저렴하며, 육안으로 감지할 수 있는 상황별 단서가 적습니다. 또한 예를 들어 WhatsApp 채팅을 통해 확산될 가능성이 더 큽니다.”

 

그녀는 “분석은 더 복잡하고 음성 생성 도구는 비디오 생성 도구보다 더 발전했습니다. 음성 샘플과 스펙트럼 분석 기술을 사용해도 시간이 걸리고 결과가 정확하다는 보장도 없습니다. 또한 딥페이크 기술을 사용하지 않고도 오디오를 가짜로 만들 수 있는 기회가 많습니다.”

데이터 저널리즘 트레이너인 사만다 순(Samantha Sunne) 은 상대적으로 연구가 덜 된 AI 오디오 가짜의 갑작스러운 위협과 "딥페이크 기술이 빠르게 변화하고 있으며 탐지 및 모니터링 도구도 마찬가지"이기 때문에 뉴스룸은 선거에서 지속적인 경계가 필요하다고 말합니다.

 

사실 확인 조직과 일부 민주화 NGO는 시민 단체와 뉴스룸이 의심스러운 바이러스성 선거 콘텐츠를 분석하도록 돕기 위해 동원되었습니다 . 예를 들어, WITNESS 라는 인권 강화 비영리 단체는 작년에 약 40명의 연구 및 상업 전문가 네트워크를 사용하여 수십 개의 의심스러운 클립을 분석하는 파일럿 Deepfakes Rapid Response 프로젝트를 수행했습니다. Rapid Response 프로젝트의 관리자인 Shirin Anlen은 GIJN과의 인터뷰에서 AI 오디오 가짜는 가장 만들기 쉽고 감지하기 가장 어려운 것으로 보이며 선거 장난을 위해 맞춤 제작된 것 같다고 말했습니다.

 

Anlen은 “커뮤니티로서 우리는 비디오만큼 오디오에 대한 준비가 되어 있지 않다는 사실을 발견했습니다. 이것이 바로 지금 우리가 보고 있는 격차입니다.”라고 덧붙였습니다. Anlen은 영향력 있는 AI 오디오 가짜 비율이 높다는 사실에 연구원들이 “놀랐습니다”라고 덧붙였습니다. 대응팀이 심층 조사하기로 선택한 선거 또는 인권과 관련된 6건의 영향력 있는 사건 중 4건은 가짜 오디오였습니다.

 

"오디오는 선거와 위기 지역에서 더 많이 사용되는 것 같습니다. 다양한 플랫폼이나 자동녹음전화를 통해 생성하고 배포하기가 더 쉽습니다."라고 Anlen은 설명합니다. “또한 매우 개인화되어 있습니다. 조작을 감지하려면 그 사람과 말하는 방식을 알아야 하는 경우가 많습니다. 그런 다음 이중 오디오 및 배경 소음, 음악 또는 누화 등이 모두 감지를 더 복잡하게 만듭니다. 비디오와는 달리 조작을 볼 수 있으며 얼굴에 결함이 있을 수도 있습니다.”

그러나 Anlen은 "비디오 감지도 생성 기술에 비해 뒤떨어져 있다"고 경고하며 새로운 텍스트-비디오 OpenAI 도구인 Sora 의 출시는 거의 원활한 시뮬레이션을 향한 추세를 보여줍니다. 그녀는 노년층 유권자의 미디어 활용 능력 부족으로 가짜 오디오와 AI 기반 자동녹음전화의 위협이 더욱 증폭된다고 덧붙였습니다. “예를 들어 X(Twitter)나 TikTok에 익숙하지 않은 사람들은 가짜 오디오를 걸러내는 능력이 부족할 수 있기 때문입니다. ”

버클리 캘리포니아 대학의 컴퓨터 과학 교수이자 미디어 법의학 전문가인 Hany Farid 는 Scientific American 잡지와의 인터뷰 에서 이제 누군가의 목소리를 1분만 녹음해도 생성 AI 도구를 사용하여 새롭고 설득력 있는 오디오 딥페이크를 제작하는 데 충분할 수 있다고 말했습니다. 비용은 한 달에 미화 5달러에 불과합니다. 이는 중간급 선거 관련 공무원, 즉 일반적으로 공개 발언이 짧은 발표로 제한되는 관료에게 새로운 사칭 위협을 제기합니다. Farid는 오디오 가짜가 만들어지는 두 가지 주요 방법, 즉 사기꾼이 실제 오디오를 업로드한 다음 음성으로 "말"하려는 내용을 입력하는 텍스트 음성 변환과 사기꾼이 음성으로 변환하는 두 가지 방법을 설명했습니다. 자신의 목소리로 진술을 녹음한 다음 도구를 통해 변환합니다. 그는 비공개 인물이라도 설득력 있는 가짜를 만드는 데 수반되는 노력을 "사소한 일"이라고 설명했습니다.

 

새로운 하이브리드 가짜 모델은 디지털 아바타 산업에서 제공됩니다. 일부 AI 스타트업은 비디오 클립의 실제 사람에게 겹쳐진 가짜 메시지보다 입술에 더 잘 동기화되는 긴 메시지를 "말"하도록 만들 수 있는 디지털로 제작된 배우를 선택하여 제공합니다. . The New York Times에 따르면, 소셜 미디어 분석 회사인 Graphika의 연구원들은 아바타 기반 뉴스 방송을 "런던 옥스퍼드 서커스의 의류 매장 위에 위치한 AI 회사"에서 제공하는 서비스로 추적했습니다. 이 회사는 선택할 수 있는 다양한 디지털 문자와 언어를 제공합니다. .

<참고 : How to Identify and Investigate AI Audio Deepfakes, a Major 2024 Election Threat>

728x90