🎤 F5-TTS: Tổng hợp giọng nói Tiếng Việt.

Mô hình được huấn luyện 350.000 steps với bộ dữ liệu khoảng 100h trên 1 GPU RTX 3090.

Nhập văn bản và tải lên một mẫu giọng để tạo âm thanh tự nhiên.

0.3 2