Spaces:
Runtime error
Runtime error
A newer version of the Gradio SDK is available:
6.1.0
metadata
title: StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường
emoji: 🎙️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
pinned: false
license: mit
language:
- vi
- en
pipeline_tag: text-to-speech
tags:
- StyleTTS2
- Text-to-Speech
- Vietnamese
- Audio
- Speech
- TTS
- Environment
- Effects
- Gradio
- AI
- Voice
🎙️ StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường
Ứng dụng Text-to-Speech sử dụng StyleTTS2 với khả năng thêm hiệu ứng môi trường âm thanh và điều chỉnh tốc độ nói.
✨ Tính năng
- 🎤 Text-to-Speech sử dụng StyleTTS2
- 🌍 Hiệu ứng môi trường: Church, Hall, Cafe, Street, Office, Supermarket, Phone
- ⚡ Điều chỉnh tốc độ nói từ 0.5x đến 2.0x
- 🔊 Kiểm soát mức độ nhiễu (SNR)
- 📊 So sánh waveform trực quan
- 🎭 Tags cảm xúc với emoji
- 🌐 Giao diện web thân thiện
🚀 Cách sử dụng
1. Nhập văn bản
Nhập văn bản tiếng Việt vào ô text. Bạn có thể sử dụng các tags để tạo cảm xúc:
<happy>vui vẻ</happy><sad>buồn bã</sad><angry>giận dữ</angry><whisper>thì thầm</whisper>
2. Chọn môi trường
- Neutral: Không có hiệu ứng
- Church/Hall: Thêm reverb (tiếng vang)
- Cafe/Street/Office/Supermarket: Thêm tiếng ồn nền
- Phone: Giới hạn tần số như điện thoại
3. Điều chỉnh tham số
- Tốc độ nói: 0.5x (chậm) đến 2.0x (nhanh)
- Mức độ nhiễu: Chỉ áp dụng cho môi trường có tiếng ồn
4. Tạo giọng nói
Nhấn nút "🎵 Tạo giọng nói" để tạo audio với hiệu ứng.
🎭 Tags cảm xúc
| Tag | Ý nghĩa | Emoji |
|---|---|---|
<laugh>...</laugh> |
Cười thoải mái | 😆 |
<whisper>...</whisper> |
Thì thầm | 🤫 |
<naughty>...</naughty> |
Tinh nghịch | 😏 |
<giggle>...</giggle> |
Cười rúc rích | 😂 |
<tease>...</tease> |
Trêu chọc | 😉 |
<smirk>...</smirk> |
Đắc ý | 😼 |
<surprise>...</surprise> |
Ngạc nhiên | 😲 |
<shock>...</shock> |
Hoảng hốt | 😱 |
<romantic>...</romantic> |
Lãng mạn | ❤️ |
<shy>...</shy> |
Bẽn lẽn | 🫣 |
<excited>...</excited> |
Phấn khích | 🤩 |
<curious>...</curious> |
Tò mò | 🧐 |
<discover>...</discover> |
Phát hiện | ✨ |
<blush>...</blush> |
Ngượng ngùng | 🌸 |
<angry>...</angry> |
Giận dữ | 😡 |
<sad>...</sad> |
Buồn | 😢 |
<happy>...</happy> |
Vui vẻ | 😊 |
<fear>...</fear> |
Sợ hãi | 😨 |
<confident>...</confident> |
Tự tin | 😎 |
<serious>...</serious> |
Nghiêm túc | 😐 |
<tired>...</tired> |
Mệt mỏi | 🥱 |
<cry>...</cry> |
Khóc | 😭 |
<love>...</love> |
Yêu thương | 😍 |
<disgust>...</disgust> |
Ghê tởm | 🤢 |
🌍 Môi trường âm thanh
Reverb Effects
- Church: Tiếng vang trong nhà thờ
- Hall: Tiếng vang trong hội trường
Noise Effects
- Cafe: Tiếng ồn quán cà phê
- Street: Tiếng ồn đường phố
- Office: Tiếng ồn văn phòng
- Supermarket: Tiếng ồn siêu thị
Filter Effects
- Phone: Giới hạn tần số như điện thoại
📊 SNR (Signal-to-Noise Ratio)
- Giá trị cao (20-30 dB): Ít nhiễu, âm thanh rõ ràng
- Giá trị trung bình (10-20 dB): Nhiễu vừa phải
- Giá trị thấp (0-10 dB): Nhiều nhiễu, âm thanh khó nghe
⚡ Tốc độ nói
- 0.5x: Nói chậm một nửa
- 0.8x: Nói chậm một chút
- 1.0x: Tốc độ bình thường
- 1.2x: Nói nhanh một chút
- 1.5x: Nói nhanh
- 2.0x: Nói nhanh gấp đôi
🛠️ Cài đặt local
Yêu cầu hệ thống
- Python >= 3.8
- espeak-ng (cho phonemizer)
Cài đặt dependencies
pip install -r requirements.txt
Cài đặt espeak-ng
# macOS
brew install espeak-ng
# Ubuntu/Debian
sudo apt-get install espeak-ng
# Windows: Tải từ GitHub releases
Chạy ứng dụng
python app.py
🔧 Xử lý sự cố
Model không tải được
- Kiểm tra kết nối internet
- Đảm bảo có đủ RAM (tối thiểu 4GB)
- Model sẽ được tải tự động từ Hugging Face
Lỗi phonemizer
- Cài đặt espeak-ng theo hướng dẫn
- Khởi động lại ứng dụng
Âm thanh không phát được
- Kiểm tra volume hệ thống
- Thử refresh trang web
- Kiểm tra trình duyệt có hỗ trợ audio không
📝 Ghi chú
- Model được tải lần đầu có thể mất vài phút
- Hỗ trợ cả GPU và CPU (tự động chuyển đổi)
- File giọng nói tham chiếu cần có trong thư mục
speakers/ - Ứng dụng tối ưu cho tiếng Việt
🤝 Đóng góp
Mọi đóng góp đều được chào đón! Vui lòng tạo issue hoặc pull request.
📄 License
Dự án này sử dụng MIT License. StyleTTS2 model tuân thủ license của tác giả gốc.
🙏 Acknowledgments
- StyleTTS2 - Model gốc
- Gradio - Web interface
- Librosa - Audio processing
- Phonemizer - Text processing