Spaces:

tonyshark
/

styletts21

Runtime error

App Files Files Community

styletts21 / README.md

tonyshark

Upload README.md

7ae4bbf verified 3 months ago

preview code

raw

history blame contribute delete

5.56 kB

A newer version of the Gradio SDK is available: 6.1.0

Upgrade

metadata

title: StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường
emoji: 🎙️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
pinned: false
license: mit
language:
  - vi
  - en
pipeline_tag: text-to-speech
tags:
  - StyleTTS2
  - Text-to-Speech
  - Vietnamese
  - Audio
  - Speech
  - TTS
  - Environment
  - Effects
  - Gradio
  - AI
  - Voice

🎙️ StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường

Ứng dụng Text-to-Speech sử dụng StyleTTS2 với khả năng thêm hiệu ứng môi trường âm thanh và điều chỉnh tốc độ nói.

✨ Tính năng

🎤 Text-to-Speech sử dụng StyleTTS2
🌍 Hiệu ứng môi trường: Church, Hall, Cafe, Street, Office, Supermarket, Phone
⚡ Điều chỉnh tốc độ nói từ 0.5x đến 2.0x
🔊 Kiểm soát mức độ nhiễu (SNR)
📊 So sánh waveform trực quan
🎭 Tags cảm xúc với emoji
🌐 Giao diện web thân thiện

🚀 Cách sử dụng

1. Nhập văn bản

Nhập văn bản tiếng Việt vào ô text. Bạn có thể sử dụng các tags để tạo cảm xúc:

<happy>vui vẻ</happy>
<sad>buồn bã</sad>
<angry>giận dữ</angry>
<whisper>thì thầm</whisper>

2. Chọn môi trường

Neutral: Không có hiệu ứng
Church/Hall: Thêm reverb (tiếng vang)
Cafe/Street/Office/Supermarket: Thêm tiếng ồn nền
Phone: Giới hạn tần số như điện thoại

3. Điều chỉnh tham số

Tốc độ nói: 0.5x (chậm) đến 2.0x (nhanh)
Mức độ nhiễu: Chỉ áp dụng cho môi trường có tiếng ồn

4. Tạo giọng nói

Nhấn nút "🎵 Tạo giọng nói" để tạo audio với hiệu ứng.

🎭 Tags cảm xúc

Tag	Ý nghĩa	Emoji
`<laugh>...</laugh>`	Cười thoải mái	😆
`<whisper>...</whisper>`	Thì thầm	🤫
`<naughty>...</naughty>`	Tinh nghịch	😏
`<giggle>...</giggle>`	Cười rúc rích	😂
`<tease>...</tease>`	Trêu chọc	😉
`<smirk>...</smirk>`	Đắc ý	😼
`<surprise>...</surprise>`	Ngạc nhiên	😲
`<shock>...</shock>`	Hoảng hốt	😱
`<romantic>...</romantic>`	Lãng mạn	❤️
`<shy>...</shy>`	Bẽn lẽn	🫣
`<excited>...</excited>`	Phấn khích	🤩
`<curious>...</curious>`	Tò mò	🧐
`<discover>...</discover>`	Phát hiện	✨
`<blush>...</blush>`	Ngượng ngùng	🌸
`<angry>...</angry>`	Giận dữ	😡
`<sad>...</sad>`	Buồn	😢
`<happy>...</happy>`	Vui vẻ	😊
`<fear>...</fear>`	Sợ hãi	😨
`<confident>...</confident>`	Tự tin	😎
`<serious>...</serious>`	Nghiêm túc	😐
`<tired>...</tired>`	Mệt mỏi	🥱
`<cry>...</cry>`	Khóc	😭
`<love>...</love>`	Yêu thương	😍
`<disgust>...</disgust>`	Ghê tởm	🤢

🌍 Môi trường âm thanh

Reverb Effects

Church: Tiếng vang trong nhà thờ
Hall: Tiếng vang trong hội trường

Noise Effects

Cafe: Tiếng ồn quán cà phê
Street: Tiếng ồn đường phố
Office: Tiếng ồn văn phòng
Supermarket: Tiếng ồn siêu thị

Filter Effects

Phone: Giới hạn tần số như điện thoại

📊 SNR (Signal-to-Noise Ratio)

Giá trị cao (20-30 dB): Ít nhiễu, âm thanh rõ ràng
Giá trị trung bình (10-20 dB): Nhiễu vừa phải
Giá trị thấp (0-10 dB): Nhiều nhiễu, âm thanh khó nghe

⚡ Tốc độ nói

0.5x: Nói chậm một nửa
0.8x: Nói chậm một chút
1.0x: Tốc độ bình thường
1.2x: Nói nhanh một chút
1.5x: Nói nhanh
2.0x: Nói nhanh gấp đôi

🛠️ Cài đặt local

Yêu cầu hệ thống

Python >= 3.8
espeak-ng (cho phonemizer)

Cài đặt dependencies

pip install -r requirements.txt

Cài đặt espeak-ng

# macOS
brew install espeak-ng

# Ubuntu/Debian
sudo apt-get install espeak-ng

# Windows: Tải từ GitHub releases

Chạy ứng dụng

python app.py

🔧 Xử lý sự cố

Model không tải được

Kiểm tra kết nối internet
Đảm bảo có đủ RAM (tối thiểu 4GB)
Model sẽ được tải tự động từ Hugging Face

Lỗi phonemizer

Cài đặt espeak-ng theo hướng dẫn
Khởi động lại ứng dụng

Âm thanh không phát được

Kiểm tra volume hệ thống
Thử refresh trang web
Kiểm tra trình duyệt có hỗ trợ audio không

📝 Ghi chú

Model được tải lần đầu có thể mất vài phút
Hỗ trợ cả GPU và CPU (tự động chuyển đổi)
File giọng nói tham chiếu cần có trong thư mục speakers/
Ứng dụng tối ưu cho tiếng Việt

🤝 Đóng góp

Mọi đóng góp đều được chào đón! Vui lòng tạo issue hoặc pull request.

📄 License

Dự án này sử dụng MIT License. StyleTTS2 model tuân thủ license của tác giả gốc.

🙏 Acknowledgments

StyleTTS2 - Model gốc
Gradio - Web interface
Librosa - Audio processing
Phonemizer - Text processing