Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
How to use cuadron11/mrbert-berria-ft with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("cuadron11/mrbert-berria-ft")
sentences = [
"Zein da paleoartisten eginkizuna kaskezurren berreraikuntzan?",
"Behargin bat hil da Urizaharrean\n\nBehargin bat hil da gaur arratsaldean Urizaharreko (Araba) harrobian izan den lan istripuan. Ertzaintzak 14:26an izan du gertakariaren berri, eta larrialdi zerbitzuak istripua gertatu den lekura bertaratu dira, baina ez dute langilea erreskatatzea lortu. Oraindik ez dute argitu istripua zerk eragin duen, baina, lehen informazioen arabera, langilea makina batean harrapatuta geratu da. Larrialdi zerbitzuak istripua jazo den lekuan dira oraindik. Ertzainak eta Arabako suhiltzaileak bertaratu dira.\n\nAurten Euskal Herrian beharrean ari zela hil den zortzigarren langilea da, eta aste honetako laugarrena. Atzo bertan gizon bat hil zen Errenteriako (Gipuzkoa) Altzate auzoan, aldamio batetik erorita. Eta herenegun garraiolari bat hil zen Cadreitako (Nafarroa) istripu batean. Astelehenean, berriz, beste langile bat hil zen istripuz, Nafarroa iparraldean, Arriben (Araitz). Eskailera bat egiten ari zela, zortzi metrotik erori zen.",
"Gimenezek oharatarazi du: «Orain badugu modua herri proiektua berriz lantzeko, eta proiekturik gabe ez dago herritarrak motibatzerik». Izan ere, aldi berean arazoaren fruitua eta arazoaren parte dira independentismoari iragarritako emaitzak eta hautagaitzen atomizazioa. Peña-Lopezek hauxe azpimarratu du: «Ez dago inolako adostasunik urriaren 1ekoaren analisia egiteko orduan, eta, beraz, ezinezkoa da batasuna izatea eta herri proiektu batua osatzea baita gutxienekoetan edo ekintzetan, helburuetan edo mugetan ere. Kontua ez baita proiektua bizkorrago edo mantsoago egitea, ezkerreko aldera jotzea edo eskuineko aldera jotzea, baizik eta zehaztu gabe daudela denontzako moduko gutxieneko batzuk».\n\n«2015eko irailaren 29an, parlamentuko deklarazioa bozkatu zen egunean, argi geratu zen independentismoak gaizki kalkulatu zuela zer-nolako hegemonia zuen benetan, eta hori ordaindu egiten da», nabarmendu du Pachecok. «Orain ikusten ari gara zein diren ondorioak: gehiengoa gal daiteke parlamentuan, eragin sozialak larriak dira, alde batera geratzen ari da oinarria zabaltzeko ideia, eta indarra galdu da gizartean». Eta irmo azpimarratu du: «Nolabaiteko arinkeriaz jokatu zuten gobernua egituratzeko orduan. Erbesteko gobernu bat osatzea erabakitzen bada, modu serioan egin behar da, ondorio guztietarako».\n\nMotibatzailea eta gizarte talde askoren batzailea izandako prozesu hura presaka abiatu izanaren ondorio da, hiru politologoen ustez, independentismoaren zatiketa. Hirurak bat datoz desilusioa ekarri duela edo, behintzat, egoera batekin gehiegi lotutako motibazioa bultzatu zuela deklarazioak epe bat jarri izanak (18 hilabete), pentsatu gabe atzeraldiak eta gatazka instituzional eta sozialak izan zitezkeela. Pachecok gogorarazi duenez, «garai batean jende guztiak bere kabuz pentsatzen zuen nolakoa izan behar zuen herrialdeak, besteekin kontrastatu gabe, bakoitzak bere eredua amestuta».\n\n«Erbesteko gobernu bat osatzea erabakitzen bada, modu serioan egin behar da, ondorio guztietarako».",
"Kas-kas kaskezurrari\n\nMundu honetan Beltzaren eskuek egin zidaten batzarri, ene kaskezurra fermuki hartu zuelarik. Hola abiatu nuen pasaia gizatiarra.\n\nAdrie Kennisek hala dio: «Burezurretik hasten da dena». Alfons anaia biritxiarekin batera, kaskezurra eskuetan hartu eta biziarazten dute. Alta, ez dira emaginak, ezta ere doulak: Herbehereetako paleoartistak baizik. Konparazione, Lucy australopitekusaren burezurra eskuetan tinkatu eta gorpuztu dute, DNA izpi batek lagundurik.\n\nNeolitoko Ötzi momifikaturik atzeman zutelarik Alpeetan, haren eskultura obratu zuen bikoteak 2011n. Gerora, ordea, zientziaren aitzinamenduek azaleratu dute larrua aisa ilunagoa zuela, eta burusoila omen zela. Horregatik ere, Britainia Handiko Cheedar ehiztari-biltzailearen berreraikitze berria eskatu diete artistei, paleogenetikaren aurkikuntzek erakutsi baitute, larruaren iluntasunez gain, begi urdinak ere bazituela.\n\nEne buruari galdetu diot ea ene kaskezurrak nehoiz salatuko ote duen nolakoak ziren ene gorputz-adierazpenak eta morfologia."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from BSC-LT/MrBERT. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("cuadron11/mrbert-berria-ft")
# Run inference
sentences = [
'Nor dira Hiria lokatzetan podcasteko zuzeneko saioan parte hartuko duten Lokatza podcast feministaren sorkuntza taldeko kideak?',
'Duela hogei urte pasa New Yorken jaiotako diziplinarteko Zaharregia, txikiegia agian proiektuaren berrinterpretazio bat ere eskainiko dute Loraldian Kirmen Uribe idazleak, Mikel Urdangarin, Rafa Rueda eta Bingen Mendizabal musikariek eta Mikel Valverde artistak. Martxoaren 13an izango da saio hori, Arriaga antzokian, emanaldiaren jatorrizko titulua moldatuta: Munduari begiratzeko.\n\nHiria lokatzetan podcasta zuzenean egingo dute martxoaren 10ean. Lokatza podcast feministaren sorkuntza taldeak hartuko du parte. Bertan izango dira Ainara Lasa, Amagoia Gurrutxaga, Idurre Eskisabel, Lorea Agirre, Miren Narbaiza, Miren Amuriza eta Lizar Begoña. Guggenheim museoaren entzungelan egingo dute zuzeneko saioa.\n\nHorrez gainera, Basabi taldeak emanaldia izango du martxoaren 9an, Neomak taldea ere izango da oholtzan, martxoaren 14an. Jean Mixel Bedaxagarrek martxoaren 16an joko du Itsasmuseumen. Eta Jon Maia bertsolariak martxoaren 23an eskainiko du Kantu berri bat gara emanaldia Euskaldunan. Bilaka kolektiboak Mitologia txikiak dantza emanaldia eskainiko du 19an. Amaraun taularatuko dute Oihana Iguaran eta Amaiur Luluagak 20an, eta dantza bertikaleko ikuskizun hibrido bat aurkeztuko du Harrobia dantza taldeak 23an. Dantzariak ez ezik, bertan izango dira Itziar Ituño aktorea eta Toti Martinez de Lezea idazlea ere.\n\nEuskararen geroa\n\nHiru hitzaldiko ziklo bat ere antolatu dute: Euskara bihar. Hurrengo hamarkadetan jarraitu beharreko norabideaz gogoeta egitea da jaialdiaren asmoa, eta Jon Sarasua, Xan Aire eta Gartzen Garaio Atxurrak ordubeteko hitzaldi bana emango dute. Biran izango dira saio guztiak. Martxoaren 6an ariko da Sarasua, 11n Aire, eta 18an Garaio.',
'Era berean, saiorako propio sortutakoak izango dira Lasaren bideoak ere.\n\nEta biharkoaren ondoren izango al dira Lokatza gehiago? Ezetz, Agirrek berehala. «Itzulera puntual bat da hau».',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[0.9961, 0.7539, 0.6914],
# [0.7539, 1.0000, 0.7148],
# [0.6914, 0.7148, 1.0000]], dtype=torch.bfloat16)
mrbert-berria-ftTripletEvaluator| Metric | Value |
|---|---|
| cosine_accuracy | 0.7138 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Zein da Ondarroako aire zabaleko museo proiektuaren ezaugarri nagusia? |
Aire zabaleko museo bilakatzen ari da Ondarroa? |
Zer ekitaldi antolatu dituzte ikastolan martxorako? |
Martxoaren 2an Zurak eta ezpalak deitu duten proposamena izango da. Ikastolaren lehen urratsetan jardun zuten haiei ikastetxeko ateak zabalduko dizkiete, eta ikasleei emango diete hitza, aitzindari haiei azal diezaieten zer-nola ikasten duten egun ikastolan. Jai giroan egingo da, «belaunaldien arteko» harremana sustatzeko. |
Zein da hizkuntza berean ari diren sortzaileak batuko lituzkeen elkarte baten garrantzia? |
Multzo bateko kide sentitu, jardun berean ari direnei begira ikasi, elkarrekin aurrera egin, mugimendua sortu, jardunaren ikusgarritasuna bilatu, prestigiatu, duindu, presiobidea sortu... Elkarteei dagokien babes hori, gaur, egoera anormal, prekario, injustu eta betikotu honetan, hizkuntza berean ari garen irudigile, musikari, idazle, bertsolari, kazetari eta gainontzekoak batuko lituzkeen elkarteak emango liguke, ofizioz ofizioko zatiketak baino gehiago. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
Noiz iritsi ziren Erromako lehen tropak Ebroko ibarrera? |
Duela bi mende, Viana eta Logroño arteko errepidea zabaldu zutenean, beroien herria erditik ebaki zuten; ez ziren jabetu zer kalte eragin zuten. 1971n Juan Cruz Labeaga ikerlariak aurkitu zituen material dezente toki horretan, eta orduan jabetu ziren Burdin Aroko herri baten aztarnategi bat zegoela errepideak moztutako eremuan. |
Handik kilometro gutxira, Shengjineko portuan altxatutako lehen identifikazio zentrora, 16 asilo eskatzaile iritsi ziren iragan urriaren 16an. |
Zenbat muga biofisiko gainditu ditugu jada, adituen arabera? |
Otxandianok balizko trantsizio klimatiko gisa izendatzen duenaz ere badago zer esanik. Energia iturri fosilak ordezkatzeari buruz ari da behin eta berriz, eta jakina, denok ados gaude horretan, baina egiten duen proposamenarekin ez. Egungo larritasun ekologikoa neurtzeko erabiltzen den metodologia ezagunenak bederatzi muga biofisiko hartzen ditu kontuan, eta horietako bakar bat gainditzeak egun ezagutzen dugun oreka ekologikoa apurtzeko arrisku erreala dakarrela diote adituek. Iturri beren arabera, sei gainditu omen ditugu jada. Hori jakinda, Otxandiano eta konpainiaren proposamenak klima larrialdiari erantzuteko pretentsioa du soilik, hau da, sei puntutik bakar bati erantzuteko ahalegina da, berau aurrera eraman ahal izateko egin behar den mineral eta material ezberdinen erauzketak, ekoizpenak eta abarrek beste puntu guztietan arazoa handitzea dakarten bitartean. |
Horren adierazle, parke eolikoen egoera beste inork baino hobeto ezagutzen duten enpresa bazkideek bultzatu dute Renercycle. «Badakite zer behar dagoen. Horregatik inbertitu dute. Badakite badagoela merkatua eta behar horri erantzun beharko zaiola». |
Zein da Ekuadorreko Penitenciaría del Litoral kartzelako presoen bizi-baldintza? |
Kazetaria. Kazetaritzako irakaslea Euskal Herriko Unibertsitatean |
Salhaketak lan baldintza onak opa dizkie Zaballako langileei, baina eskatu du ez dezatela presoen bizkar presio egin. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
num_train_epochs: 5learning_rate: 2e-05warmup_steps: 0.1eval_strategy: epochbatch_sampler: no_duplicatesper_device_train_batch_size: 8num_train_epochs: 5max_steps: -1learning_rate: 2e-05lr_scheduler_type: linearlr_scheduler_kwargs: Nonewarmup_steps: 0.1optim: adamw_torch_fusedoptim_args: Noneweight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08optim_target_modules: Nonegradient_accumulation_steps: 1average_tokens_across_devices: Truemax_grad_norm: 1.0label_smoothing_factor: 0.0bf16: Falsefp16: Falsebf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Nonetorch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneuse_liger_kernel: Falseliger_kernel_config: Noneuse_cache: Falseneftune_noise_alpha: Nonetorch_empty_cache_steps: Noneauto_find_batch_size: Falselog_on_each_node: Truelogging_nan_inf_filter: Trueinclude_num_input_tokens_seen: nolog_level: passivelog_level_replica: warningdisable_tqdm: Falseproject: huggingfacetrackio_space_id: trackioeval_strategy: epochper_device_eval_batch_size: 8prediction_loss_only: Trueeval_on_start: Falseeval_do_concat_batches: Trueeval_use_gather_object: Falseeval_accumulation_steps: Noneinclude_for_metrics: []batch_eval_metrics: Falsesave_only_model: Falsesave_on_each_node: Falseenable_jit_checkpoint: Falsepush_to_hub: Falsehub_private_repo: Nonehub_model_id: Nonehub_strategy: every_savehub_always_push: Falsehub_revision: Noneload_best_model_at_end: Falseignore_data_skip: Falserestore_callback_states_from_checkpoint: Falsefull_determinism: Falseseed: 42data_seed: Noneuse_cpu: Falseaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedataloader_drop_last: Falsedataloader_num_workers: 0dataloader_pin_memory: Truedataloader_persistent_workers: Falsedataloader_prefetch_factor: Noneremove_unused_columns: Truelabel_names: Nonetrain_sampling_strategy: randomlength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falseddp_backend: Noneddp_timeout: 1800fsdp: []fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}deepspeed: Nonedebug: []skip_memory_metrics: Truedo_predict: Falseresume_from_checkpoint: Nonewarmup_ratio: Nonelocal_rank: -1prompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss | mrbert-berria-ft_cosine_accuracy |
|---|---|---|---|---|
| 0.1333 | 100 | 2.5208 | - | - |
| 0.2667 | 200 | 2.4457 | - | - |
| 0.4 | 300 | 2.2119 | - | - |
| 0.5333 | 400 | 1.9412 | - | - |
| 0.6667 | 500 | 1.7835 | - | - |
| 0.8 | 600 | 1.3288 | - | - |
| 0.9333 | 700 | 1.0287 | - | - |
| 1.0 | 750 | - | 1.5947 | 0.6512 |
| 1.0667 | 800 | 0.8463 | - | - |
| 1.2 | 900 | 0.7701 | - | - |
| 1.3333 | 1000 | 0.7358 | - | - |
| 1.4667 | 1100 | 0.7337 | - | - |
| 1.6 | 1200 | 0.7084 | - | - |
| 1.7333 | 1300 | 0.6809 | - | - |
| 1.8667 | 1400 | 0.6754 | - | - |
| 2.0 | 1500 | 0.6097 | 1.2796 | 0.7058 |
| 2.1333 | 1600 | 0.6751 | - | - |
| 2.2667 | 1700 | 0.6316 | - | - |
| 2.4 | 1800 | 0.6202 | - | - |
| 2.5333 | 1900 | 0.5868 | - | - |
| 2.6667 | 2000 | 0.5961 | - | - |
| 2.8 | 2100 | 0.5668 | - | - |
| 2.9333 | 2200 | 0.6133 | - | - |
| 3.0 | 2250 | - | 1.2323 | 0.7135 |
| 3.0667 | 2300 | 0.5765 | - | - |
| 3.2 | 2400 | 0.6054 | - | - |
| 3.3333 | 2500 | 0.5936 | - | - |
| 3.4667 | 2600 | 0.5441 | - | - |
| 3.6 | 2700 | 0.6072 | - | - |
| 3.7333 | 2800 | 0.6002 | - | - |
| 3.8667 | 2900 | 0.6176 | - | - |
| 4.0 | 3000 | 0.5847 | 1.2215 | 0.7158 |
| 4.1333 | 3100 | 0.6243 | - | - |
| 4.2667 | 3200 | 0.5766 | - | - |
| 4.4 | 3300 | 0.5673 | - | - |
| 4.5333 | 3400 | 0.5807 | - | - |
| 4.6667 | 3500 | 0.5895 | - | - |
| 4.8 | 3600 | 0.5937 | - | - |
| 4.9333 | 3700 | 0.6274 | - | - |
| 5.0 | 3750 | - | 1.2197 | 0.7138 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}
Base model
BSC-LT/MrBERT