[AI]KAIST, 무제한 음성 생성 AI 모델 '스피치SSM' 개발 성공

차현경 에디터
2025-07-04
조회수 587

6분간 일관된 음성 생성 가능한 혁신적 기술로 차세대 음성 AI 시대 열어

KAIST(한국과학기술원) 연구진이 시간 제약 없이 자연스럽고 일관된 음성을 생성할 수 있는 혁신적인 AI 모델 '스피치SSM(SpeechSSM)'을 개발했다고 4일 발표했다.

KAIST 전기및전자공학부 노용만 교수 연구팀의 박세진 연구원(박사과정)이 주도한 이번 연구는 기존 음성 AI 모델의 한계를 뛰어넘는 획기적인 성과로 평가받고 있다.


 KAIST 전기및전자공학부 (왼쪽부터) 노용만 교수, 박세진 연구원 (출처: KAIST)


음성 언어 모델의 새로운 패러다임

음성 언어 모델(Spoken Language Model, SLM)은 텍스트 변환 과정 없이 인간의 음성을 직접 학습하여 언어적·비언어적 정보를 모두 이해하고 생성하는 차세대 AI 기술이다. 이 기술은 텍스트 기반 언어 모델의 한계를 극복하며, 인간 화자 고유의 음향적 특성을 그대로 활용할 수 있어 대규모 모델에서도 고품질 음성을 빠르게 생성할 수 있다는 강점을 가지고 있다.

하지만 기존 모델들은 음성을 세밀하게 분할하여 처리할 때 '음성 토큰 해상도'가 높아지고 메모리 소비가 급격히 증가하는 문제에 직면했다. 이로 인해 장시간 음성 생성 시 의미적, 화자적 일관성을 유지하기 어려웠던 것이 현실이었다.


혁신적 윈도우 기반 처리 방식

연구팀이 개발한 스피치SSM은 이러한 기술적 한계를 창의적으로 해결했다. 핵심 기술은 음성 데이터를 짧은 고정 단위(윈도우)로 분할하여 각 단위를 독립적으로 처리한 후, 전체 긴 음성을 생성할 때 다시 결합하는 방식이다.

이 혁신적 접근법을 통해 스피치SSM은 무한한 길이의 음성 시퀀스를 효과적으로 처리할 수 있게 되었다. 또한 음성 생성 단계에서는 기존의 순차적 생성 방식을 탈피하여 여러 부분을 동시에 빠르게 생성하는 '비자기회귀(Non-Autoregressive)' 방식의 오디오 합성 모델 SoundStorm을 적용했다.


SpeechSSM 개요 (출처: KAIST)


16분 연속 생성 실증으로 기술력 입증

연구팀은 기존 모델들이 주로 10초 내외의 짧은 음성 생성에 머물렀던 것과 달리, 16분까지 연속 생성이 가능한 새로운 벤치마크 데이터셋 'LibriSpeech-Long'을 자체 구축했다. 이를 통해 장시간 음성 생성 성능을 객관적으로 평가할 수 있는 기준을 마련한 것이다.

실제 평가 결과, 스피치SSM으로 생성된 음성은 16분이라는 긴 시간 동안에도 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 맥락적으로 일관된 새로운 인물과 사건들이 자연스럽게 전개되는 모습을 보였다. 이는 기존 모델들이 장시간 생성 시 쉽게 주제를 잃고 동일한 내용을 반복하는 현상을 보였던 것과 극명한 대조를 이룬다.


다양한 음성 언어 모델(Spoken LM)에서 고려된 최대 시퀀스 길이 (출처: KAIST)


글로벌 AI 연구 커뮤니티 주목

이번 연구는 제1저자인 KAIST 박세진 박사과정 학생이 구글 딥마인드(Google DeepMind)와의 협력을 통해 진행되었다. 연구 성과는 머신러닝 분야 최고 권위의 학회인 ICML(국제 머신러닝 학회) 2025에서 7월 16일 구두 발표로 소개될 예정이다.

구두 발표는 ICML에서 제출된 논문 중 상위 5% 내에 해당하는 우수한 연구에만 주어지는 기회로, 이번 연구의 학술적 가치와 혁신성을 국제적으로 인정받았음을 의미한다.


음성 AI 생태계 변화의 신호탄

스피치SSM의 개발은 단순한 기술적 진보를 넘어 음성 AI 산업 전반에 미칠 파급효과가 클 것으로 전망된다. 24시간 연속 대화가 가능한 AI 비서, 장시간 일관된 음성으로 진행되는 AI 강의, 실시간 음성 번역 서비스 등 다양한 응용 분야에서 혁신을 이끌 것으로 기대된다.

특히 메타버스, 디지털 휴먼, 실시간 음성 콘텐츠 생성 등 차세대 디지털 경험 분야에서 핵심 기술로 자리잡을 가능성이 높다. 국내 연구진이 개발한 이번 기술이 글로벌 음성 AI 시장에서 한국의 기술적 우위를 확보하는 계기가 될 것으로 업계는 주목하고 있다.

테크브루 뉴스

등록번호 : 서울, 아55456등록일자 : 2024-05-29상호 : 글로벌소프트웨어캠퍼스 주식회사사업자등록번호 : 220-88-63489

주소 : 서울특별시 강남구 도곡로 111, 10층(역삼동, 미진빌딩)대표전화 : 070-4231-0811ㅣ팩스 : 02-546-6789

통신판매업신고 : 제 2023-서울강남-06459호ㅣ기사제보 및 광고문의 : media@techbrew.co.kr 

발행 • 편집인 : 김성우청소년보호책임자 : 이재준


이용약관개인정보처리방침청소년보호정책

Copyrightⓒ2025 테크브루뉴스ㅣTechbrew News All right reserved

제호 : 테크브루뉴스

등록번호 : 서울,아55456

상호: 글로벌소프트웨어캠퍼스 주식회사

사업자등록번호 : 220-88-63489

서울특별시 강남구 도곡로 111, 10층(역삼동, 미진빌딩)

대표전화 : 070-4231-0811

팩스 : 02-546-6789

등록일 : 2024-05-29

기사제보 및 광고문의 : media@techbrew.co.kr

통신판매업신고 : 제 2023-서울강남-06459 호

발행인 : 김성우 / 편집인 : 김성우

청소년보호책임자 : 이재준

이용약관 ㅣ 개인정보처리방침 ㅣ 청소년보호정책

Copyright ⓒ 2025 테크브루뉴스

Techbrew News All right reserved