🎤 F5-TTS: Tổng hợp giọng nói Tiếng Việt.
Mô hình được huấn luyện 350.000 steps với bộ dữ liệu khoảng 100h trên 1 GPU RTX 3090.
Nhập văn bản và tải lên một mẫu giọng để tạo âm thanh tự nhiên.
🔊 Mẫu giọng
Drop Audio Here
- or -
Click to Upload
📝 Văn bản
⚡ Tốc độ
↺
0.3
2
🔥 Sinh giọng
🎧 Âm thanh tạo ra
📊 Spectrogram
❗ Hạn chế của mô hình
1. Mô hình có thể hoạt động không tốt với các ký tự số, ngày tháng, ký tự đặc biệt, ... => cần bổ sung thêm một module text normalization (chuẩn hoá text). 2. Nhịp điệu của một số audio có thể chưa được mạch lạc, giật cục. 3. Audio reference text sử dụng model whisper-large-v3-turbo nên sẽ có một vài trường hợp không nhận diện chính xác Tiếng Việt, dẫn đến kết quả tổng hợp giọng nói rất tệ. 4. Checkpoint của mô hình hiện tại dừng lại ở khoảng step thứ 350.000, được huấn luyện với 100 giờ dữ liệu public.