본문 바로가기
테크 아이디어

뮤직에서 보이스 피싱까지 오디오 딥페이크 AI 기술 위협

by 스프라우트 2023. 4. 24.

생성 AI 기술 발달과 함께 다른 사람의 목소리를 복제하는 음성 딥페이크 서비스들이 대중화되며 사기 사례도 늘어나고 있습니다. 피해 사례와 함께 어떤 서비스들이 있는지 알아보았습니다.

pexels-pixabay
(출처 : pexels-pixabay)

오디오 딥페이크(Audio Deepfake)란?

딥페이크 보이스(Deepfake Voice), 줄여서 딥보이스(DeepVoice)라고도 하는데, 다른 사람의 음성을 거의 유사하게 모방하는 기술을 말합니다. 합성된 목소리이지만 음조나 엑센트, 그 외 고유한 특성까지 정확히 재현해 내 실제 목소리와 거의 구분이 불가능할 정도입니다.

TTS(Text to Speech)와의 차이점

TTS는 텍스트(Text)를 학습된 음성(Speech)으로 생성해내는 기술로 음성 합성 기술의 명칭입니다. 즉, 딥페이크 음성 합성 기술의 일종입니다. 딥페이크 음성 합성 기술은 크게 두 종류가 있는데, TTS와 STS(Speech to Speech)로 나누어집니다. STS는 입력 보이스를 내용 변화없이 타깃 음성으로 변환해주는 음성 합성 기술로, TTS 대비해서 음성의 품질은 다소 떨어질 수 있다고 합니다.

오디오 딥페이크 최근 사례

유명인 음성 변조

해리포터의 여주인공 엠마 왓슨은 인기만큼이나 가장 피해를 많이 본 배우 중 한 명이 아닐까 합니다. 미국 NBC 뉴스 보도에 의하면 지난달 엠마 왓슨과 유명 액션 배우인 스칼렛 요한슨의 얼굴이 합성된 음란 동영상이 SNS를 통해 퍼져나가고 있다고 합니다. 심지어는 이 영상의 용도가 광고라는 건데요, 페이스북과 애플의 음란물 규정에 걸리지 않게 아슬아슬하게 선정적으로 만들어서 유포가 가능했다고 합니다. NBC의 취재 이후에 이 광고물들은 모두 삭제되었습니다.

emma-watson-photoadolf-hitler
(출처 : By Bundesarchiv, wikimedia)

또, 온라인 포럼인 4chan의 한 사용자가 엠마 왓슨이 아돌프 히틀러의 나의 투쟁을 읽는 오디오 파일을 올려 파장을 일으켰습니다. 스타트업인 ElevenLabs의 Prime Voice라는 음성합성 툴을 사용했는데, 이 회사는 사건 이후에 서비스 가격을 인상하고 새 계정을 수동으로 확인하기 시작했다고 발표했습니다.

이 회사의 기술이 얼마나 섬뜩한지는 아래 동영상을 한번 보시기 바랍니다. US에서 연설하는 레오나르도 디카프리오의 목소리가 다른 유명 배우의 목소리로 변조되어 나오는데 정말 할 말을 잃게 만듭니다.

가짜 음악에도 사용

drake-and-future-2016

기사에 의하면 며칠 전 드레이크(Drake)와 위캔드(The Weeknd)의 목소리가 포함된 “Heart on My Sleeve”라는 노래가 스포티파이와 틱톡에서 천만회 이상의 조회수를 기록했습니다. 하지만 이 노래는 두 뮤지션과는 아무런 관련이 없으며 고스트라이터라는 이름의 아티스트가 AI를 이용해 만든 노래입니다.

eminem-cat-prompt

또, 지난주에는 에미넴(Eminem)이 고양이에 대한 랩을 하는 딥페이크 영상이 유튜브에 올라와 UMG(유니버설 뮤직)사에서 이 영상에 대해 저작권 침해를 주장하며 게시 중단을 통지했다고 합니다. (하지만 유튜브에서 Eminem cat이라고 검색하면 다른 사람들이 다운로드하여 올린 영상들이 여러 개 보입니다.) 이 영상을 만든 grandaddy는 ChatGPT에게 에미넴이 고양이에 대해 랩 하는 노래를 써달라고 부탁했다고 합니다.

보이스피싱 사례

오디오 딥페이크를 이용한 보이스피싱 사례도 늘고 있습니다. 기사에 따르면 미국과 캐나다에서 AI 음성 복제 보이스피싱이 확산되고 있다고 합니다. 경찰이나 검사 등을 사칭해 돈을 요구하는 수법과 달리 피해자가 잘 아는 당사자의 목소리를 복제하기 때문에 속기가 쉽다고 합니다. 미국 워싱턴포스트(WP)에 따르면 문제는 이런 AI 음성 서비스를 제공하는 회사가 법적 책임을 진 사례가 아직 없다는 점입니다.

전문가의 말에 따르면 과거와 달리 이제는 유튜브나 틱톡 같은 소셜미디어에서 30초 음성 샘플만 있어도 복제가 가능하다고 합니다. 실제로 아마존이 Re:MARS 2022 컨퍼런스에서 할머니 목소리로 책을 읽어주는 알렉사 서비스를 선 보였는데, 이 때 목소리 학습에 쓰인 데이터가 1분 이내라고 발표했습니다.

사기 사례

포브스의 1년 전 기사에 의하면, 영국의 한 에너지 회사가 딥페이크 목소리에 속아 사기를 당한 사건이 발생했다고 합니다. 또, 2020년에는 아랍에미레이트(UAE)의 한 은행 관리자가 회사 이사로 추정되는 사람의 전화를 받고 3,500만 달러의 이체를 승인했다는 사건도 있었습니다. 그 관리자는 회사 이사의 목소리가 변조된 목소리라는 사실을 전혀 눈치채지 못했다고 합니다.

가짜 뉴스

정치적인 의도로 가짜 뉴스를 배포하는 경우도 발생하고 있습니다. 작년 러시아와 우크라이나 전쟁 중에도 평화 선언을 하는 푸틴이나 항복 선언을 하는 젤렌스키 영상 등 딥페이크를 이용한 가짜 뉴스가 배포되어 혼란과 불신을 불러 일으켰습니다. 가짜 뉴스 뿐 아니라 가짜 음성 녹취록 등에도 이용될 위험이 있습니다.

오디오 딥페이크의 위험성

자신의 목소리를 복제해 사용하는 것은 불법이 아닙니다. 하지만, 재미로 다른 사람의 동의 없이 그의 목소리를 만들어 사용하는 것은 심각한 문제가 있습니다. 특히 최근에는 몇 달러만 내면 유명인이나 다른 사람의 목소리를 흉내 내는 고품질의 음성 데이터를 만들 수 있습니다. 다른 사람의 목소리를 만들어냈다는 사실만으로는 범죄가 되기 어렵지만 사기의 의도가 없더라도 SNS에 퍼트리거나하면 생각지 못한 처벌을 받을 수 있습니다.

더욱 큰 문제는, 돈을 벌기 위해 이 기술을 악용하는 사람들이 늘어간다는 점입니다. 현대에 와서 다른 사람의 녹음된 오디오를 구하는 것은 어렵지 않습니다. 각종 SNS의 영상이나 인터뷰 영상, 혹은 당사자와 직접 전화통화등을 통해 고품질의 음성 데이터를 얻을 수 있습니다. 또 기술의 발전으로 많은 컴퓨팅 파워를 동원하지 않고도 단기간에 구별하기 힘든 딥페이크 목소리를 만들어낼 수 있습니다.

오디오 딥페이크 탐지 기술

문제는 아직 오디오 딥페이크를 완벽히 탐지할 수 있는 기술이 없다는 점입니다. 미 국방부는 DARPA를 통해 딥페이크 탐지를 위한 미디어 포렌직 연구를 진행 중이며, 그 외에도 딥페이크를 연구하는 많은 연구 그룹이 있습니다. 이들은 GitHub 같은 곳에 소스를 공개해 기술 발전을 공유하고 있습니다.

음성의 경우 기술을 겨루는 대회도 있는데, ASVSpoof는 Audio Deepfake Detection 챌린지로 2년마다 개최되며 올해 열릴 예정입니다. 중국에서 개최하는 ADD라는 챌린지도 있는데 현재 대회가 진행되고 있습니다.

영상에 비해 음성은 위조 여부를 밝혀내기가 더 힘든 모양입니다. 언어별로도 달라 위조가 맞는지 악센트나 발음 방식 등도 언어별로 학습해야 하는데, 대부분이 영어에 초점이 맞추어져 있어 한국어는 국내 연구 기관의 별도 노력이 필요합니다. 대검 과학수사부 뿐 아니라 카이스트, 숭실대 등 민간 연구소에서 연구개발을 진행하고 있습니다.

음성 합성 딥페이크 서비스

앞서 소개한 ElevenLabs의 Prime Voice 이외에도 비슷한 서비스들이 온라인에 쏟아지고 있습니다. Stable Diffusion과 같은 기술이 오픈소스로 공개되어 있어 약간의 프로그래밍 능력과 딥러닝 지식만 있으면 손쉽게 서비스를 만들 수 있습니다. (심지어는 이런 서비스를 이용하지 않고 자신의 PC에 구축하는 경우도 많다고 합니다.)

Voice.ai

voice-ai-live
(출처 : Voice.ai)

Voice.ai의 가장 큰 특징은 전화 통화, 스트리밍 애플리케이션 등과 함께 사용할 수 있도록 라이브로 음성을 변조해서 내보낼 수 있다는 것입니다. 게임 캐스팅이나 줌 미팅을 하면서 유명인의 목소리를 낼 수 있습니다.

또 유료 버전으로 업그레이드하면, 변조하고 싶은 특정인의 목소리를 업로드해 그 목소리로 바꿀 수 있는 Custom Voice 기능을 제공합니다. 즉, 일반인의 목소리도 변조 가능하다는 겁니다. 물론 Custom Voice의 경우 아직까지는 짧은 음성 데이터만으로는 완벽히 동일하게 복제는 못해 샘플 학습에 돈이 들기는 하지만 많이 입력할수록 원본에 거의 가깝게 변조할 수 있습니다. 홈페이지에서는 자신의 목소리를 합성하는 용도처럼 포장했지만 자신의 목소리를 변조할 사람이 얼마나 될지 의문입니다.

Altered.ai

altered-ai
(출처 : altered.ai)

Altered.ai 역시 유명인의 음성과 함께 Custom voice를 만들 수 있는 소프트웨어를 제공합니다. 홈페이지는 혼자서 멀티 캐릭터 프로덕션을 주도할 수 있다고 선전하고 있습니다. 게임 개발자나 크리에이터에게는 정말 매력적인 기능이라고 볼 수 있습니다. 이 회사는 크리에이터들에게는 월 49달러의 요금만 내면 한 달에 1시간 분량의 음성 데이터를 만들 수 있도록 제공하고 있습니다.

Resemble

resemble-ai-logo
(출처 : Resemble.Ai)

Resemble.AI 많은 양의 데이터 없이도 고품질의 오디오를 생성해 주는 또 다른 서비스입니다. 이 회사는 SPS(Speech To Speech) 뿐 아니라 TTS(Text To Speech)로도 음성을 변환할 수 있습니다. 상업적인 용도로 이미 많이 사용되고 있어 20만 개 이상의 AI 보이스로 매월 2백만 분 이상의 오디오를 생성해내고 있습니다. 또, 30개 이상의 언어로 변환이 가능합니다. 다행스러운 점은 Resemble AI는 AI로 생성된 음성을 식별할 수 있는 음성 워터미킹 생성 기술을 제안하고 있습니다. Resemble AI는 곧 자사의 기술을 사용해 생성된 음성 데이터에 이 기술을 적용할 예정이라고 합니다. 아직은 완벽하지 않은 모양이지만 언젠가는 제거되지 않는 음성 워터마크를 개발해 내리라 기대해 봅니다.

ReSpeecher

Respeecher-ai
(출처 : Respeecher)

ReSpeecher는 또 다른 고품질 음성 합성 소프트웨어입니다. 놀랍게도 디즈니의 만달로리안(Mandalorian)에서 젊은 루크 스카이워커의 목소리를 재현하는 데 사용되었습니다. 루카스필름에서 사용할 정도로 품질이 뛰어나다는 말인데요, 매우 사실적이며 감정적인 음성을 생성해 낼 수 있다고 합니다. 최근 수요가 너무 많아 액세스 권한을 얻기까지 시간이 걸린다고 하네요.

그 외에도 정말 많은 서비스들이 있습니다. MetaVoice Studio, Voicemod, FineVoice, Celebrity Voice Changer 등 다 찾을 수도 없네요. 그중에서 iSpeech라는 툴은 완전 무료로 사용할 수 있습니다. 무료다 보니 품질은 약간 떨어집니다.

마무리

오디오 딥페이크 기술이 전부 부정적인 측면만 있는 것은 아닙니다. 많은 게임 제작자나 크리에이터, 기업의 홍보 담당자들에게 저렴한 비용으로도 매력적인 목소리를 사용할 수 있는 수단을 제공하는 효용도 있습니다. 다만, 기술의 발전 속도에 비해 법적인 규칙이나 윤리적인 기준이 아직 미흡한 측면이 있습니다. 재미로 유명인의 목소리를 변조해서 SNS에 퍼트리는 행위에 대해 일반인의 인식이 너무 관대하다는 점도 문제입니다.

또 다른 문제는 보이스피싱과 같은 범죄에 악용되는 경우입니다. 아직 탐지 기술도 부족하지만 사기가 벌어지고 난 후에 밝혀내는 것은 사후 약방문일 따름입니다. 현재로서는 각자 개인이 경각심을 가지고 대비하는 수밖에는 없어 보입니다. 금전을 요구하는 급박한 전화의 경우 당황하지 말고 몇 가지 개인적인 질문을 통해 신원을 확인하는 자세가 필요합니다. 정말, 점점 살기 복잡해지는군요.

댓글