🇺🇿 bge-m3 Узбекча (Кирилл) Финетюн — v1

Ушбу модель BAAI/bge-m3 асосида тайёрланган бўлиб, юқори сифатли ўзбекча (кирилл) юридик ва расмий матнлар учун семантик тенгликни аниқлаш вазифаларида оптималлаштирилган.

Модель қуйидаги вазифаларда юқори самара беради:

  • Семантик қидирув (Dense Retrieval)
  • Savol–Javob RAG тизимлари
  • Ҳужжатлар ўртасидаги ўхшашликни топиш
  • Парафраз ниҳоятда яқин жумла жуфтларини баҳолаш
  • Duplicate Detection ва кластерлаш

🔥 Тез фойдаланиш

Python орқали

from transformers import AutoTokenizer, AutoModel
import torch

model = AutoModel.from_pretrained("Just-Bax/bge-m3-uzbek-finetuned-v1")
tokenizer = AutoTokenizer.from_pretrained("Just-Bax/bge-m3-uzbek-finetuned-v1")

text = "Ўзбекистон Республикаси қонунларига мувофиқ..."
inputs = tokenizer(text, return_tensors='pt')
emb = model(**inputs).last_hidden_state[:, 0, :]  # CLS pooling
emb = emb / emb.norm(dim=-1, keepdim=True)
print(emb)
Downloads last month
26
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support