🎤 F5-TTS: Tổng hợp giọng nói Tiếng Việt.

Mô hình được huấn luyện 350.000 steps với bộ dữ liệu khoảng 100h trên 1 GPU RTX 3090.

Nhập văn bản và tải lên một mẫu giọng để tạo âm thanh tự nhiên.

🔊 Mẫu giọng

📝 Văn bản

⚡ Tốc độ

0.3 2

🎧 Âm thanh tạo ra

📊 Spectrogram

❗ Hạn chế của mô hình