🇺🇿 bge-m3 Узбекча (Кирилл) Финетюн — v1

Ушбу модель BAAI/bge-m3 асосида тайёрланган бўлиб, юқори сифатли ўзбекча (кирилл) юридик ва расмий матнлар учун семантик тенгликни аниқлаш вазифаларида оптималлаштирилган.

Модель қуйидаги вазифаларда юқори самара беради:

Семантик қидирув (Dense Retrieval)
Savol–Javob RAG тизимлари
Ҳужжатлар ўртасидаги ўхшашликни топиш
Парафраз ниҳоятда яқин жумла жуфтларини баҳолаш
Duplicate Detection ва кластерлаш

🔥 Тез фойдаланиш

Python орқали

from transformers import AutoTokenizer, AutoModel
import torch

model = AutoModel.from_pretrained("Just-Bax/bge-m3-uzbek-finetuned-v1")
tokenizer = AutoTokenizer.from_pretrained("Just-Bax/bge-m3-uzbek-finetuned-v1")

text = "Ўзбекистон Республикаси қонунларига мувофиқ..."
inputs = tokenizer(text, return_tensors='pt')
emb = model(**inputs).last_hidden_state[:, 0, :]  # CLS pooling
emb = emb / emb.norm(dim=-1, keepdim=True)
print(emb)

Downloads last month: 26

Safetensors

Model size

0.6B params

Tensor type

F32