Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation
Paper • 2004.09813 • Published • 1
How to use aleynahukmet/bge-m3-8-layers with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("aleynahukmet/bge-m3-8-layers")
sentences = [
"Sorunuzdaki gibi gübre üretiminde kullanılan hammaddelerin KDV oranlarının tamamının kükürt ile aynı olduğunu söylemek doğru olmaz. Kükürt, Gıda, Tarım ve Hayvancılık Bakanlığı tarafından tescil edilen gübrelerin üretiminde kullanılması durumunda, belirli bir tarih aralığında %1 KDV oranına tabi tutulmuş, daha sonra ise KDV'den istisna edilmiştir. Ancak diğer hammaddeler için bu durum geçerli olmayabilir. Her bir hammaddenin KDV oranı, maddenin kendisine ve Gıda, Tarım ve Hayvancılık Bakanlığı tarafından yayınlanan ilgili mevzuata bağlı olarak değişir. Dolayısıyla, her bir hammaddenin KDV oranını belirlemek için ilgili mevzuat ve Bakanlığın güncel tescil listelerine bakılması gerekmektedir.",
"**3. Diğer Destekler:**\n\n* **Olay Yeri İncelemesi:** Sigorta şirketi, olay yerini inceleyerek olayla ilgili bilgi ve delil toplayabilir.\n* **Şahitlerle Görüşmeler:** Olayı gören kişilerle görüşülerek bilgi toplanabilir.\n* **Uzman Danışmanları:** Gerektiğinde, olayı değerlendirmek için uzmanların görüşüne başvurulabilir.\n\n\n**Önemli Notlar:**",
"#### Özelge: İşletmeye dahil edilmeyen otomobile ait giderler ticari kazancın tespitinde indirim konusu olamaz.\n\nSayı: B.07.0.GEL.0.44/4405-1380/6984Tarih: 20/02/2004\n\n**T.C.**\n\n**MALİYE BAKANLIĞI**\n\n**Gelirler Genel Müdürlüğü**\n\n**SAYI :** B.07.0.GEL.0.44/4405-1380/6984 \\* 20.02.2004\n\nKONU :\n\n.................... BAKANLIĞINA\n\nEmniyet Genel Müdürlüğü\n\n**İLGİ:** .................... tarih ve .................... sayılı yazınız.\n\nYazınızda bir şirketin elektronik yetkili servisi faaliyetinden dolayı İstanbul ........ Vergi Dairesinin ...........sicil numarasında kayıtlı mükellefi ............ tarafından Bakanlığınıza verilen bir örneği yazınıza ekli dilekçesinde, müşteri evinde arızalı cihaz onarmak, gerektiğinde cihazı işyerine getirmek ve onarımını yapıp eve teslim etmek için hususi aracını kullanmak istediğini belirterek bu konuda Bakanlığınızdan izin talep ettiği belirtilerek konu hakkında görüşümüzün bildirilmesi istenilmektedir.",
"Söz konusu Kanunun **\"Muafiyetler\"** başlıklı 65 inci maddesinde ise \" Esnaf ve sanatkârlar meslek kuruluşlarının, kuruluş amaçlarını gerçekleştirmek ve bu amaçlarına uygun olarak kullanılmak üzere iktisap ettikleri ve edecekleri gayrimenkuller ile bu kuruluşların görevleri dolayısıyla elde ettikleri gelirler, katma değer vergisi ve emlak vergisi hariç her türlü vergi, resim ve harçtan müstesnadır.\"hükmü yer almaktadır.\n\n**BELEDİYE GELİRLERİ KANUNU YÖNÜNDEN**\n\n2464 sayılı Belediye Gelirleri Kanununun 52 nci maddesinde, belediye sınırları içinde bulunan; pazar veya panayır kurulan yerlerin, meydanların, mezat yerlerinin her türlü mal ve hayvan satıcıları tarafından satış yapmak, yol, meydan, pazar, iskele, köprü gibi umuma ait yerlerden bir kısmının herhangi bir maksat için yetkili mercilerden usulüne uygun izin alınarak geçici olarak işgal edilmesinin, işgal harcına tabi olacağı hükme bağlanmıştır."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("aleynahukmet/bge-m3-8-layers")
# Run inference
sentences = [
'Buna göre, yeniden düzenlenen kesin izin taahhüt senetleri ve ek taahhütnamenin, söz konusu kağıtlarda yer alan arazi izin bedeli ile atıf yapılan ilk kesin izin taahhüt senetlerinde yer alan arazi izin bedeli arasındaki farkın kalan izin süresiyle çarpımı sonucu bulunacak tutar ile artan teminat bedeli mukayese edilerek en yüksek vergi alınmasını gerektiren tutar üzerinden, 488 sayılı Kanuna ekli (1) sayılı tablonun I/A-1 fıkrasına göre damga vergisine, 492 sayılı Kanuna bağlı (2) sayılı tarifenin I/1 fıkrası gereğince harca tabi tutulması gerekmektedir.\n\nBilgi edinilmesini rica ederim.',
'Velayetin kaldırılması, çocuğun hayatını derinden etkileyen bir karardır ve yalnızca çocuğun güvenliği ve iyiliği için gerekli olduğunda alınır. Bu süreçte çocuğun hakları korunur ve mahkeme, çocuğun en iyi çıkarlarını gözeterek karar verir. Her vaka kendine özgüdür ve kararlar, vakanın özel koşullarına göre verilir. Dolayısıyla, bu bilgiler genel bir rehber niteliğindedir ve özel bir hukuki danışma yerine geçmez.',
'(**\\*\\***)\xa0\xa0 İnceleme, yargı ya da uzlaşmada olduğu halde bu konuya ilişkin olarak yanlış bilgi verilmiş ise bu özelge geçersizdir.\n\n(\\*\\*\\*) Talebiniz üzerine tayin edilmiş olan bu özelgeye uygun işlem yapmanız hâlinde, bu fiilleriniz dolayısıyla vergi tarh edilmesi icap ederse, tarafınıza vergi cezası kesilmeyecek ve tarh edilen vergi için gecikme faizi hesaplanmayacaktır.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
mse-dev and mse-testMSEEvaluator| Metric | mse-dev | mse-test |
|---|---|---|
| negative_mse | -0.1757 | -0.1758 |
sentence and label| sentence | label | |
|---|---|---|
| type | string | list |
| details |
|
|
| sentence | label |
|---|---|
-"İstisnanın Uygulanması" başlıklı (II/E-4.2.) ayrımında, |
[-0.009974503889679909, 0.036509882658720016, 0.03562415763735771, -0.00381448189727962, 0.01367136649787426, ...] |
Anılan Kanunun 231 inci maddesinin 5 numaralı bendinde, faturanın malın teslimi veya hizmetin yapıldığı tarihten itibaren azami yedi gün içinde düzenleneceği, bu süre içerisinde düzenlenmeyen faturaların hiç düzenlenmemiş sayılacağı; 232 nci maddesinde ise, birinci ve ikinci sınıf tüccarlarla, kazancı basit usulde tespit edilenler ve defter tutmak mecburiyetinde olan çiftçilerin sattıkları emtia veya yaptıkları iş için fatura vermek, satın aldıkları emtia ve hizmetler için de fatura istemek ve almak zorunda oldukları hükmü yer almaktadır. |
[-0.004749941639602184, 0.029555343091487885, 0.033180367201566696, 0.0038023695815354586, 0.007536270655691624, ...] |
kabulünü gerektirmez. Vade farkı faturasının davalıya tebliğ edilip itiraza |
[-0.007021570112556219, 0.03200509026646614, 0.02259155362844467, -0.003074771026149392, 0.006905834656208754, ...] |
MSELosssentence and label| sentence | label | |
|---|---|---|
| type | string | list |
| details |
|
|
| sentence | label |
|---|---|
karar verilmesine, 4 aylık ücret ve 8 aylık ücreti tutarında tazminat ödenmesine karar verilmesini istemiştir. Davalı, davacının toplu iş sözleşmesinin 69/2 maddesine aykırı davranışı nedeni ile iş akdinin bildirimsiz olarak feshedildiğini, feshin haklı olduğunu savunarak davanın reddini dilemiştir. Mahkemece, iş mahkemesi tarafından verilen ve temyiz edilmeksizin kesinleşen görevsizlik kararı gereğince yapılan yargılama sonunda, feshin geçersizliği ile, davacının. işe iadesine, ve iş kanununun 21. maddesine göre diğer haklarının davalıdan tahsiline karar verilmiş; hüküm, davalı tarafından temyiz edilmiştir. 1 -Davacının hava taşıma işinde çalıştığından iş kanununun 4/a maddesi gereğince iş kanunu hükümlerine tabi olmadığı ancak Hava İş Sendikas ı üyesi olduğundan işyerinde uygulanan 19. dönem toplu iş sözleşmesi hükümlerinden yararlandığı ve Teftiş kurulu Başkanlığının 8.2/2005 tarihli soruşturma raporu doğrultusunda, davacının ortaklık ve ortaklık personeli hakkında şeref ve. |
[-0.00802378449589014, 0.03146154806017876, 0.039876192808151245, -0.002182986354455352, 0.009204964153468609, ...] |
#### Belediye ve mücavir alan dışındaki köylerde bulunan taşınmalara ilişkin zamanında emlak vergisi bildirimi verilmemesi halinde ceza uygulaması hk. |
T.C. GELİR İDARESİ BAŞKANLIĞI MANİSA VERGİ DAİRESİ BAŞKANLIĞI Mükellef Hizmetleri Grup Müdürlüğü |
Öte yandan, Gelir Vergisi Kanununun 65 inci maddesinde, "Her türlü serbest meslek faaliyetinden doğan kazançlar serbest meslek kazancıdır. |
[-0.005017167888581753, 0.02980973944067955, 0.0245507825165987, 0.002575532766059041, 0.01661611907184124, ...] |
MSELosseval_strategy: stepsper_device_train_batch_size: 64per_device_eval_batch_size: 64learning_rate: 0.0001num_train_epochs: 1warmup_ratio: 0.1bf16: Trueload_best_model_at_end: Trueoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 0.0001weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | mse-dev_negative_mse | mse-test_negative_mse |
|---|---|---|---|---|
| 0 | 0 | - | -0.1757 | - |
| 0.2228 | 1000 | 0.0001 | - | - |
| 0.4456 | 2000 | 0.0001 | - | - |
| 0.6684 | 3000 | 0.0 | - | - |
| 0.8913 | 4000 | 0.0 | - | - |
| 1.0 | 4488 | - | - | -0.1758 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@inproceedings{reimers-2020-multilingual-sentence-bert,
title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2020",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2004.09813",
}
Base model
BAAI/bge-m3