본문 바로가기
ETC

Voice Cloning

by 개발자 구리 2025. 2. 20.

보이스 클로닝이란, 최소 샘플 데이터 기반의 음성복제 알고리즘이다.

 

1. 준비 단계

대상 목소리의 음성 데이터를 수집한 녹음 파일 + 음성 데이터와 일치하는 텍스트 대사

 

2. AI 모델 학습

1) 데이터 전처리 (노이즈 제거, 음성 분할 등)

2) 음성 모델 학습 (Tacotron, WaveNet, VITS 등) - 음성의 특성을 파악하고, 입력된 텍스트를 해당 목소리로 변환할 수 있도록 목소리를 훈련시킨다.

 

3. 음성 생성

1) 텍스트 입력 - 생성하고자 하는 텍스트를 입력한다.

2) 음성 합성 - 학습된 모델을 이용해 입력된 텍스트를 대상 목소리로 합성한다.

 


 

2023년 12월에 발표된 논문 OpenVoice

by MIT, 칭화대, 마이쉘(캐나다 AI 스타트업) 연구진

 

- 짧은 오디오 클립만으로도 보이스 클로닝이 가능

- 음성 스타일 컨트롤 가능 (감정, 악센트, 리듬, pauses, 억양 등)

- 다른 언어로도의 합성이 가능한 Zero-Shot Cross-Lingual 보이스 클로닝

- 더 꾸진 성능의 기존의 상업적 API보다 10배는 효율적이고 성능이 좋다

- To foster further research in the field, we have made the source code and trained model publicly accessible. 대박. 복받으세요.

 

https://arxiv.org/abs/2312.01479

 

OpenVoice: Versatile Instant Voice Cloning

We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the

arxiv.org

 

https://github.com/myshell-ai/OpenVoice

 

GitHub - myshell-ai/OpenVoice: Instant voice cloning by MIT and MyShell. Audio foundation model.

Instant voice cloning by MIT and MyShell. Audio foundation model. - myshell-ai/OpenVoice

github.com

 

 

Korean이 이렇게나 반갑네

 

 

논분 리뷰해주신 좋은 분

 

https://beomsun0829.tistory.com/42

 

논문 리뷰 - OpenVoice: Versatile Instant Voice Cloning

논문 링크 https://github.com/myshell-ai/OpenVoice 요약 OpenVoice는 단기간 오디오 클립만을 사용하여 참조 발화자의 목소리를 복제하고 다양한 언어로 음성을 생성하는 새로운 즉각적인 음성 복제 모델이

beomsun0829.tistory.com

 


 

 

그 외 보이스 클로닝 기술을 컨텐츠 제작에 적용한 예시들

초딩때 친구한테 장난전화 할 때 썼던 TTS 기술에서 강산이 바뀌었구나...

'ETC' 카테고리의 다른 글

이것저것 개념 정리  (0) 2025.03.11
프론트엔드 프레임워크  (0) 2023.03.19
10개의 언어로 웹앱 만들기  (0) 2023.03.09
OSI 7 Layer | TCP/IP Updated Layer  (0) 2022.03.14
C++ 메모리 접근 형변환  (0) 2022.01.17