보이스 클로닝이란, 최소 샘플 데이터 기반의 음성복제 알고리즘이다.
1. 준비 단계
대상 목소리의 음성 데이터를 수집한 녹음 파일 + 음성 데이터와 일치하는 텍스트 대사
2. AI 모델 학습
1) 데이터 전처리 (노이즈 제거, 음성 분할 등)
2) 음성 모델 학습 (Tacotron, WaveNet, VITS 등) - 음성의 특성을 파악하고, 입력된 텍스트를 해당 목소리로 변환할 수 있도록 목소리를 훈련시킨다.
3. 음성 생성
1) 텍스트 입력 - 생성하고자 하는 텍스트를 입력한다.
2) 음성 합성 - 학습된 모델을 이용해 입력된 텍스트를 대상 목소리로 합성한다.
2023년 12월에 발표된 논문 OpenVoice
by MIT, 칭화대, 마이쉘(캐나다 AI 스타트업) 연구진
- 짧은 오디오 클립만으로도 보이스 클로닝이 가능
- 음성 스타일 컨트롤 가능 (감정, 악센트, 리듬, pauses, 억양 등)
- 다른 언어로도의 합성이 가능한 Zero-Shot Cross-Lingual 보이스 클로닝
- 더 꾸진 성능의 기존의 상업적 API보다 10배는 효율적이고 성능이 좋다
- To foster further research in the field, we have made the source code and trained model publicly accessible. 대박. 복받으세요.
https://arxiv.org/abs/2312.01479
OpenVoice: Versatile Instant Voice Cloning
We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the
arxiv.org
https://github.com/myshell-ai/OpenVoice
GitHub - myshell-ai/OpenVoice: Instant voice cloning by MIT and MyShell. Audio foundation model.
Instant voice cloning by MIT and MyShell. Audio foundation model. - myshell-ai/OpenVoice
github.com
Korean이 이렇게나 반갑네
논분 리뷰해주신 좋은 분
https://beomsun0829.tistory.com/42
논문 리뷰 - OpenVoice: Versatile Instant Voice Cloning
논문 링크 https://github.com/myshell-ai/OpenVoice 요약 OpenVoice는 단기간 오디오 클립만을 사용하여 참조 발화자의 목소리를 복제하고 다양한 언어로 음성을 생성하는 새로운 즉각적인 음성 복제 모델이
beomsun0829.tistory.com
그 외 보이스 클로닝 기술을 컨텐츠 제작에 적용한 예시들
초딩때 친구한테 장난전화 할 때 썼던 TTS 기술에서 강산이 바뀌었구나...
'ETC' 카테고리의 다른 글
이것저것 개념 정리 (0) | 2025.03.11 |
---|---|
프론트엔드 프레임워크 (0) | 2023.03.19 |
10개의 언어로 웹앱 만들기 (0) | 2023.03.09 |
OSI 7 Layer | TCP/IP Updated Layer (0) | 2022.03.14 |
C++ 메모리 접근 형변환 (0) | 2022.01.17 |