--- title: StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường emoji: 🎙️ colorFrom: blue colorTo: purple sdk: gradio sdk_version: "4.0.0" app_file: app.py pinned: false license: mit language: - vi - en pipeline_tag: text-to-speech tags: - 'StyleTTS2' - 'Text-to-Speech' - 'Vietnamese' - 'Audio' - 'Speech' - 'TTS' - 'Environment' - 'Effects' - 'Gradio' - 'AI' - 'Voice' ---

🎙️ StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường

Ứng dụng Text-to-Speech sử dụng StyleTTS2 với khả năng thêm hiệu ứng môi trường âm thanh và điều chỉnh tốc độ nói.

## ✨ Tính năng - 🎤 **Text-to-Speech** sử dụng StyleTTS2 - 🌍 **Hiệu ứng môi trường**: Church, Hall, Cafe, Street, Office, Supermarket, Phone - ⚡ **Điều chỉnh tốc độ nói** từ 0.5x đến 2.0x - 🔊 **Kiểm soát mức độ nhiễu** (SNR) - 📊 **So sánh waveform** trực quan - 🎭 **Tags cảm xúc** với emoji - 🌐 **Giao diện web** thân thiện ## 🚀 Cách sử dụng ### 1. Nhập văn bản Nhập văn bản tiếng Việt vào ô text. Bạn có thể sử dụng các tags để tạo cảm xúc: - `vui vẻ` - `buồn bã` - `giận dữ` - `thì thầm` ### 2. Chọn môi trường - **Neutral**: Không có hiệu ứng - **Church/Hall**: Thêm reverb (tiếng vang) - **Cafe/Street/Office/Supermarket**: Thêm tiếng ồn nền - **Phone**: Giới hạn tần số như điện thoại ### 3. Điều chỉnh tham số - **Tốc độ nói**: 0.5x (chậm) đến 2.0x (nhanh) - **Mức độ nhiễu**: Chỉ áp dụng cho môi trường có tiếng ồn ### 4. Tạo giọng nói Nhấn nút "🎵 Tạo giọng nói" để tạo audio với hiệu ứng. ## 🎭 Tags cảm xúc | Tag | Ý nghĩa | Emoji | |-----|---------|-------| | `...` | Cười thoải mái | 😆 | | `...` | Thì thầm | 🤫 | | `...` | Tinh nghịch | 😏 | | `...` | Cười rúc rích | 😂 | | `...` | Trêu chọc | 😉 | | `...` | Đắc ý | 😼 | | `...` | Ngạc nhiên | 😲 | | `...` | Hoảng hốt | 😱 | | `...` | Lãng mạn | ❤️ | | `...` | Bẽn lẽn | 🫣 | | `...` | Phấn khích | 🤩 | | `...` | Tò mò | 🧐 | | `...` | Phát hiện | ✨ | | `...` | Ngượng ngùng | 🌸 | | `...` | Giận dữ | 😡 | | `...` | Buồn | 😢 | | `...` | Vui vẻ | 😊 | | `...` | Sợ hãi | 😨 | | `...` | Tự tin | 😎 | | `...` | Nghiêm túc | 😐 | | `...` | Mệt mỏi | 🥱 | | `...` | Khóc | 😭 | | `...` | Yêu thương | 😍 | | `...` | Ghê tởm | 🤢 | ## 🌍 Môi trường âm thanh ### Reverb Effects - **Church**: Tiếng vang trong nhà thờ - **Hall**: Tiếng vang trong hội trường ### Noise Effects - **Cafe**: Tiếng ồn quán cà phê - **Street**: Tiếng ồn đường phố - **Office**: Tiếng ồn văn phòng - **Supermarket**: Tiếng ồn siêu thị ### Filter Effects - **Phone**: Giới hạn tần số như điện thoại ## 📊 SNR (Signal-to-Noise Ratio) - **Giá trị cao (20-30 dB)**: Ít nhiễu, âm thanh rõ ràng - **Giá trị trung bình (10-20 dB)**: Nhiễu vừa phải - **Giá trị thấp (0-10 dB)**: Nhiều nhiễu, âm thanh khó nghe ## ⚡ Tốc độ nói - **0.5x**: Nói chậm một nửa - **0.8x**: Nói chậm một chút - **1.0x**: Tốc độ bình thường - **1.2x**: Nói nhanh một chút - **1.5x**: Nói nhanh - **2.0x**: Nói nhanh gấp đôi ## 🛠️ Cài đặt local ### Yêu cầu hệ thống - Python >= 3.8 - espeak-ng (cho phonemizer) ### Cài đặt dependencies ```bash pip install -r requirements.txt ``` ### Cài đặt espeak-ng ```bash # macOS brew install espeak-ng # Ubuntu/Debian sudo apt-get install espeak-ng # Windows: Tải từ GitHub releases ``` ### Chạy ứng dụng ```bash python app.py ``` ## 🔧 Xử lý sự cố ### Model không tải được - Kiểm tra kết nối internet - Đảm bảo có đủ RAM (tối thiểu 4GB) - Model sẽ được tải tự động từ Hugging Face ### Lỗi phonemizer - Cài đặt espeak-ng theo hướng dẫn - Khởi động lại ứng dụng ### Âm thanh không phát được - Kiểm tra volume hệ thống - Thử refresh trang web - Kiểm tra trình duyệt có hỗ trợ audio không ## 📝 Ghi chú - Model được tải lần đầu có thể mất vài phút - Hỗ trợ cả GPU và CPU (tự động chuyển đổi) - File giọng nói tham chiếu cần có trong thư mục `speakers/` - Ứng dụng tối ưu cho tiếng Việt ## 🤝 Đóng góp Mọi đóng góp đều được chào đón! Vui lòng tạo issue hoặc pull request. ## 📄 License Dự án này sử dụng MIT License. StyleTTS2 model tuân thủ license của tác giả gốc. ## 🙏 Acknowledgments - [StyleTTS2](https://github.com/yl4579/StyleTTS2) - Model gốc - [Gradio](https://gradio.app/) - Web interface - [Librosa](https://librosa.org/) - Audio processing - [Phonemizer](https://github.com/bootphon/phonemizer) - Text processing