---
title: StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường
emoji: 🎙️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: "4.0.0"
app_file: app.py
pinned: false
license: mit
language:
- vi
- en
pipeline_tag: text-to-speech
tags:
- 'StyleTTS2'
- 'Text-to-Speech'
- 'Vietnamese'
- 'Audio'
- 'Speech'
- 'TTS'
- 'Environment'
- 'Effects'
- 'Gradio'
- 'AI'
- 'Voice'
---
🎙️ StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường
Ứng dụng Text-to-Speech sử dụng StyleTTS2 với khả năng thêm hiệu ứng môi trường âm thanh và điều chỉnh tốc độ nói.
## ✨ Tính năng
- 🎤 **Text-to-Speech** sử dụng StyleTTS2
- 🌍 **Hiệu ứng môi trường**: Church, Hall, Cafe, Street, Office, Supermarket, Phone
- ⚡ **Điều chỉnh tốc độ nói** từ 0.5x đến 2.0x
- 🔊 **Kiểm soát mức độ nhiễu** (SNR)
- 📊 **So sánh waveform** trực quan
- 🎭 **Tags cảm xúc** với emoji
- 🌐 **Giao diện web** thân thiện
## 🚀 Cách sử dụng
### 1. Nhập văn bản
Nhập văn bản tiếng Việt vào ô text. Bạn có thể sử dụng các tags để tạo cảm xúc:
- `vui vẻ`
- `buồn bã`
- `giận dữ`
- `thì thầm`
### 2. Chọn môi trường
- **Neutral**: Không có hiệu ứng
- **Church/Hall**: Thêm reverb (tiếng vang)
- **Cafe/Street/Office/Supermarket**: Thêm tiếng ồn nền
- **Phone**: Giới hạn tần số như điện thoại
### 3. Điều chỉnh tham số
- **Tốc độ nói**: 0.5x (chậm) đến 2.0x (nhanh)
- **Mức độ nhiễu**: Chỉ áp dụng cho môi trường có tiếng ồn
### 4. Tạo giọng nói
Nhấn nút "🎵 Tạo giọng nói" để tạo audio với hiệu ứng.
## 🎭 Tags cảm xúc
| Tag | Ý nghĩa | Emoji |
|-----|---------|-------|
| `...` | Cười thoải mái | 😆 |
| `...` | Thì thầm | 🤫 |
| `...` | Tinh nghịch | 😏 |
| `...` | Cười rúc rích | 😂 |
| `...` | Trêu chọc | 😉 |
| `...` | Đắc ý | 😼 |
| `...` | Ngạc nhiên | 😲 |
| `...` | Hoảng hốt | 😱 |
| `...` | Lãng mạn | ❤️ |
| `...` | Bẽn lẽn | 🫣 |
| `...` | Phấn khích | 🤩 |
| `...` | Tò mò | 🧐 |
| `...` | Phát hiện | ✨ |
| `...` | Ngượng ngùng | 🌸 |
| `...` | Giận dữ | 😡 |
| `...` | Buồn | 😢 |
| `...` | Vui vẻ | 😊 |
| `...` | Sợ hãi | 😨 |
| `...` | Tự tin | 😎 |
| `...` | Nghiêm túc | 😐 |
| `...` | Mệt mỏi | 🥱 |
| `...` | Khóc | 😭 |
| `...` | Yêu thương | 😍 |
| `...` | Ghê tởm | 🤢 |
## 🌍 Môi trường âm thanh
### Reverb Effects
- **Church**: Tiếng vang trong nhà thờ
- **Hall**: Tiếng vang trong hội trường
### Noise Effects
- **Cafe**: Tiếng ồn quán cà phê
- **Street**: Tiếng ồn đường phố
- **Office**: Tiếng ồn văn phòng
- **Supermarket**: Tiếng ồn siêu thị
### Filter Effects
- **Phone**: Giới hạn tần số như điện thoại
## 📊 SNR (Signal-to-Noise Ratio)
- **Giá trị cao (20-30 dB)**: Ít nhiễu, âm thanh rõ ràng
- **Giá trị trung bình (10-20 dB)**: Nhiễu vừa phải
- **Giá trị thấp (0-10 dB)**: Nhiều nhiễu, âm thanh khó nghe
## ⚡ Tốc độ nói
- **0.5x**: Nói chậm một nửa
- **0.8x**: Nói chậm một chút
- **1.0x**: Tốc độ bình thường
- **1.2x**: Nói nhanh một chút
- **1.5x**: Nói nhanh
- **2.0x**: Nói nhanh gấp đôi
## 🛠️ Cài đặt local
### Yêu cầu hệ thống
- Python >= 3.8
- espeak-ng (cho phonemizer)
### Cài đặt dependencies
```bash
pip install -r requirements.txt
```
### Cài đặt espeak-ng
```bash
# macOS
brew install espeak-ng
# Ubuntu/Debian
sudo apt-get install espeak-ng
# Windows: Tải từ GitHub releases
```
### Chạy ứng dụng
```bash
python app.py
```
## 🔧 Xử lý sự cố
### Model không tải được
- Kiểm tra kết nối internet
- Đảm bảo có đủ RAM (tối thiểu 4GB)
- Model sẽ được tải tự động từ Hugging Face
### Lỗi phonemizer
- Cài đặt espeak-ng theo hướng dẫn
- Khởi động lại ứng dụng
### Âm thanh không phát được
- Kiểm tra volume hệ thống
- Thử refresh trang web
- Kiểm tra trình duyệt có hỗ trợ audio không
## 📝 Ghi chú
- Model được tải lần đầu có thể mất vài phút
- Hỗ trợ cả GPU và CPU (tự động chuyển đổi)
- File giọng nói tham chiếu cần có trong thư mục `speakers/`
- Ứng dụng tối ưu cho tiếng Việt
## 🤝 Đóng góp
Mọi đóng góp đều được chào đón! Vui lòng tạo issue hoặc pull request.
## 📄 License
Dự án này sử dụng MIT License. StyleTTS2 model tuân thủ license của tác giả gốc.
## 🙏 Acknowledgments
- [StyleTTS2](https://github.com/yl4579/StyleTTS2) - Model gốc
- [Gradio](https://gradio.app/) - Web interface
- [Librosa](https://librosa.org/) - Audio processing
- [Phonemizer](https://github.com/bootphon/phonemizer) - Text processing