당신은 그들에게 관심이 있습니까? OFFERS? 쿠폰을 사용하여 저장하세요 WHATSAPP o 전보!

Microsoft VALL-E는 3초만 말하면 우리 목소리를 흉내냅니다.

단 3초 만에 당신의 말을 들어본 적이 없는 AI가 당신의 목소리를 완벽하게 흉내낼 수 있습니다. 이것은 마이크로소프트 인공 지능의 최신 성과인 VALL-E 텍스트 음성 변환 모델로, 단 3초의 음성으로 모든 사람의 음성을 마음대로 복사할 수 있습니다.

Microsoft VALL-E는 3초만 말하면 우리 목소리를 흉내냅니다.

DALL E에서 유래했지만 오디오 분야에 특화되어 있으며, 온라인에 공개된 후 텍스트 음성 변환 효과가 인기를 끌었습니다.

일부 사용자는 VALL·E와 ChatGPT를 결합하면 놀라운 결과가 나올 것이라고 말했습니다. 다른 이들에게는 AI로 영상통화를 할 수 있는 날이 멀지 않은 것 같다. AI가 작가와 화가를 챙겼다면 다음은 성우라고 농담하는 이들도 있다.

그러나 VALL·E는 어떻게 3초 안에 "전혀 들어보지 못한" 소리를 흉내낼까요?

VALL-E는 언어 모델로 오디오를 분석합니다. AI "들리지 않는" 소리, 즉 제로 샘플 학습을 기반으로 음성을 합성합니다.

기존의 텍스트 음성 변환 솔루션은 기본적으로 미세 조정과 함께 사전 운동 모드입니다. 샘플이 없는 시나리오에서 사용하면 생성된 음성의 유사성과 자연스러움이 떨어집니다.

이를 바탕으로 VALL-E는 느닷없이 등장해 기존의 보컬 모델과는 다른 아이디어를 제안했다.

Mel 스펙트럼을 사용하여 특징을 추출하는 기존 모델과 비교하여 VALL-E는 음성 합성을 언어 모델의 작업으로 직접 수행하며 전자는 연속적이며 후자는 이산적입니다.

특히 기존의 음성 합성 과정은 “음소 → 멜-스펙트로그램(mel-spectrogram) → 파형”의 경로인 경우가 많다.

그러나 VALL -E는 이 프로세스를 "음소→이산 오디오 코딩→파형"으로 변환했습니다.

모델 설계 측면에서 VALL-E는 VQVAE와 유사합니다. 오디오를 일련의 개별 토큰으로 양자화합니다. 첫 번째 양자화기는 화자의 오디오 콘텐츠 및 식별 특성을 캡처하는 역할을 하고 두 번째 양자화기는 신호 정제를 담당합니다. 더 자연스럽게 들립니다.

그런 다음 텍스트와 3초 오디오 프롬프트에 따라 개별 오디오 인코딩을 자동 회귀적으로 출력합니다.

뿐만 아니라 VALL-E는 제로 샘플 음성 합성 외에도 GPT-3와 결합된 음성 편집 및 음성 콘텐츠 생성을 지원합니다.

주변 배경 소리도 복원할 수 있습니다.

합성된 보컬 효과로 판단하면 VALL-E는 스피커의 음색 이상을 복원할 수 있습니다.

즉석에서 피치를 모방할 뿐만 아니라 다양한 말하기 속도도 지원합니다. 예를 들어, 동일한 문장을 두 번 말할 때 VALL-E가 제공하는 두 가지 음성 속도가 있지만 성조 유사성은 여전히 ​​높습니다.

동시에 상대방의 배경 주변 소리도 정확하게 복원할 수 있습니다.

또한 VALL-E는 분노, 졸음, 중립, 기쁨 및 메스꺼움과 같은 여러 유형을 포함하여 화자의 다양한 감정을 모방할 수 있습니다.

VALL·E 교육에 사용된 데이터 세트가 특별히 크지 않다는 점은 언급할 가치가 있습니다.

680.000 오디오 교육 시간이 필요하고 7.000개 이상의 스피커와 60.000 교육 시간만 사용한 OpenAI의 Whisper와 비교할 때 VALL-E는 Model YourTTS 텍스트 음성 변환과의 유사성 측면에서 사전 훈련된 텍스트 음성 변환을 능가했습니다.

또한 YourTTS는 97명의 화자 중 108명의 목소리를 트래닝 중에 미리 들었지만 실제 테스트에서는 여전히 VALL-E에 미치지 못합니다.

적용할 수 있는 분야는 다음과 같습니다.

장애인이 다른 사람과 대화를 완성하도록 돕는 등 자신의 목소리를 흉내내는 데 사용할 수 있을 뿐만 아니라 원하지 않을 때 자신을 대신해 말하는 데 사용할 수도 있습니다. 물론 오디오 북 녹음에도 사용할 수 있습니다.

그러나 VALL-E는 아직 오픈 소스가 아니며 사용해 보려면 조금 더 기다려야 할 수도 있습니다.

Amazon에서 제공 중

260,84만 XNUMX천원
379,99만 XNUMX천원
유효한
3 사용 260,84 €부터
28년 2024월 5일 05:XNUMX 기준
28년 2024월 5일 05:XNUMX에 최종 업데이트됨
피에르 파올로 피구 시아
피에르 파올로 피구 시아

기술, 사진 및 비디오 제작자에 대한 열정을 가진 Nerd. 그리고 물론 저는 Xiaomi 제품을 좋아합니다!

구독 신청
통지
손님

0 댓글
인라인 피드백
모든 댓글보기
XiaomiToday.it
심벌 마크