🇺🇿 bge-m3 Узбекча (Кирилл) Финетюн — v1
Ушбу модель BAAI/bge-m3 асосида тайёрланган бўлиб, юқори сифатли ўзбекча (кирилл) юридик ва расмий матнлар учун семантик тенгликни аниқлаш вазифаларида оптималлаштирилган.
Модель қуйидаги вазифаларда юқори самара беради:
- Семантик қидирув (Dense Retrieval)
- Savol–Javob RAG тизимлари
- Ҳужжатлар ўртасидаги ўхшашликни топиш
- Парафраз ниҳоятда яқин жумла жуфтларини баҳолаш
- Duplicate Detection ва кластерлаш
🔥 Тез фойдаланиш
Python орқали
from transformers import AutoTokenizer, AutoModel
import torch
model = AutoModel.from_pretrained("Just-Bax/bge-m3-uzbek-finetuned-v1")
tokenizer = AutoTokenizer.from_pretrained("Just-Bax/bge-m3-uzbek-finetuned-v1")
text = "Ўзбекистон Республикаси қонунларига мувофиқ..."
inputs = tokenizer(text, return_tensors='pt')
emb = model(**inputs).last_hidden_state[:, 0, :] # CLS pooling
emb = emb / emb.norm(dim=-1, keepdim=True)
print(emb)
- Downloads last month
- 26