Gemma 4 with Vietnam Legal Documents
Collection
4 items • Updated • 1
This is a sentence-transformers model finetuned from AITeamVN/Vietnamese_Embedding. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for retrieval.
SentenceTransformer(
(0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'XLMRobertaModel'})
(1): Pooling({'embedding_dimension': 1024, 'pooling_mode': 'cls', 'include_prompt': True})
(2): Normalize({})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Khi mở sổ, ghi sổ, khóa sổ và lưu trữ sổ kế toán thì doanh nghiệp siêu nhỏ phải thực hiện theo những quy định nào?',
'Sổ kế toán\n1. Nội dung sổ kế toán, hệ thống sổ kế toán, việc mở sổ, ghi sổ, khóa sổ, lưu trữ sổ kế toán và sửa chữa sổ kế toán tại doanh nghiệp siêu nhỏ được thực hiện theo quy định tại Điều 24, Điều 25, Điều 26, 27 Luật kế toán và hướng dẫn cụ thể tại Thông tư này.',
'"Điều 147. Thế chấp dự án đầu tư xây dựng nhà ở và thế chấp nhà ở hình thành trong tương lai\n1. Chủ đầu tư dự án xây dựng nhà ở được thế chấp dự án hoặc nhà ở xây dựng trong dự án tại tổ chức tín dụng đang hoạt động tại Việt Nam để vay vốn cho việc đầu tư dự án hoặc xây dựng nhà ở đó; trường hợp chủ đầu tư đã thế chấp nhà ở mà có nhu cầu huy động vốn góp để phân chia nhà ở theo quy định của pháp luật về nhà ở hoặc có nhu cầu bán, cho thuê mua nhà ở đó thì phải giải chấp nhà ở này trước khi ký hợp đồng huy động vốn góp, hợp đồng mua bán, thuê mua nhà ở với khách hàng, trừ trường hợp được bên góp vốn, bên mua, thuê mua nhà ở và bên nhận thế chấp đồng ý.\nViệc xác định nhà ở đã được giải chấp trước khi ký hợp đồng huy động vốn góp, hợp đồng mua bán, thuê mua nhà ở với khách hàng theo quy định tại khoản này được nêu rõ trong văn bản thông báo nhà ở đủ điều kiện được bán của cơ quan quản lý nhà ở cấp tỉnh nơi có nhà ở.\n2. Tổ chức, cá nhân xây dựng nhà ở hình thành trong tương lai trên thửa đất ở hợp pháp của mình; tổ chức, cá nhân mua nhà ở hình thành trong tương lai trong dự án đầu tư xây dựng nhà ở của chủ đầu tư được thế chấp nhà ở này tại tổ chức tín dụng đang hoạt động tại Việt Nam để vay vốn phục vụ cho xây dựng nhà ở hoặc để mua chính nhà ở đó."',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.8255, -0.0291],
# [ 0.8255, 1.0000, -0.0851],
# [-0.0291, -0.0851, 1.0000]])
val_irInformationRetrievalEvaluator| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.906 |
| cosine_accuracy@3 | 0.976 |
| cosine_accuracy@5 | 0.99 |
| cosine_accuracy@10 | 0.996 |
| cosine_precision@1 | 0.906 |
| cosine_precision@3 | 0.3493 |
| cosine_precision@5 | 0.214 |
| cosine_precision@10 | 0.1082 |
| cosine_recall@1 | 0.8642 |
| cosine_recall@3 | 0.9677 |
| cosine_recall@5 | 0.9845 |
| cosine_recall@10 | 0.9932 |
| cosine_ndcg@1 | 0.906 |
| cosine_ndcg@3 | 0.9414 |
| cosine_ndcg@5 | 0.9489 |
| cosine_ndcg@10 | 0.952 |
| cosine_mrr@1 | 0.906 |
| cosine_mrr@3 | 0.9385 |
| cosine_mrr@5 | 0.9417 |
| cosine_mrr@10 | 0.9426 |
| cosine_map@100 | 0.9362 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Văn phòng Chính phủ là cơ quan thực hiện nhiệm vụ phát ngôn của Chính phủ có đúng không? |
Nhiệm vụ và quyền hạn |
| ... | |
| 5. Về cung cấp thông tin cho công chúng | |
| a) Cung cấp thông tin cho công chúng về các hoạt động chủ yếu, những quyết định quan trọng trong lãnh đạo, chỉ đạo, điều hành của Chính phủ, Thủ tướng Chính phủ, những sự kiện chính trị, kinh tế, xã hội nổi bật và các thông tin khác theo quy định của pháp luật và chỉ đạo của Thủ tướng Chính phủ; | |
| b) Thực hiện nhiệm vụ phát ngôn của Chính phủ, Thủ tướng Chính phủ; | |
| c) Chủ trì, phối hợp với các bộ, ngành, Ủy ban nhân dân cấp tỉnh, các cơ quan, tổ chức liên quan tổ chức họp báo Chính phủ, cung cấp thông tin cho báo chí định kỳ, đột xuất; tham mưu trả lời phỏng vấn báo chí của Thủ tướng Chính phủ; thực hiện thông cáo báo chí theo quy định của pháp luật; | |
| d) Yêu cầu các cơ quan liên quan hiệu chỉnh, cơ quan báo chí cải chính, hiệu chỉnh nội dung thông tin không chính xác, chưa phù hợp với yêu cầu lãnh đạo, chỉ đạo, điều hành của Chính phủ, Thủ tướng Chính phủ theo quy định của pháp luật; | |
| đ) Thực hiện quản lý nhà nước về công báo... | |
Đỗ xe trên dốc cầu Rạch Chiếc mà không chèn bánh thì bị xử phạt bao nhiêu tiền? |
"Điều 5. Xử phạt người điều khiển xe ô tô và các loại xe tương tự xe ô tô vi phạm quy tắc giao thông đường bộ |
| .... | |
| 2. Phạt tiền từ 400.000 đồng đến 600.000 đồng đối với người điều khiển xe thực hiện một trong các hành vi vi phạm sau đây: | |
| a) Chuyển làn đường không đúng nơi cho phép hoặc không có tín hiệu báo trước, trừ các hành vi vi phạm quy định tại điểm g khoản 5 Điều này; | |
| b) Điều khiển xe chạy tốc độ thấp hơn các xe khác đi cùng chiều mà không đi về bên phải phần đường xe chạy, trừ trường hợp các xe khác đi cùng chiều chạy quá tốc độ quy định; | |
| c) Chở người trên buồng lái quá số lượng quy định; | |
| d) Không tuân thủ các quy định về nhường đường tại nơi đường bộ giao nhau, trừ các hành vi vi phạm quy định tại điểm m, điểm n khoản 3 Điều này; | |
| đ) Điều khiển xe có liên quan trực tiếp đến vụ tai nạn giao thông mà không dừng lại, không giữ nguyên hiện trường, không tham gia cấp cứu người bị nạn, trừ hành vi vi phạm quy định tại điểm b khoản 8 Điều này; | |
| e) Xe được quyền ưu tiên lắp đặt, sử dụng... | |
Phẫu thuật kết hợp xương gãy khung chậu chỉ định trong những trường hợp nào? |
PHẪU THUẬT KHX GÃY KHUNG CHẬU - TRẬT KHỚP MU |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 64,
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
per_device_train_batch_size: 64num_train_epochs: 1learning_rate: 1e-05lr_scheduler_type: cosine_with_restartswarmup_steps: 100weight_decay: 0.01bf16: Trueload_best_model_at_end: Truedataloader_num_workers: 16dataloader_persistent_workers: Truebatch_sampler: no_duplicatesper_device_train_batch_size: 64num_train_epochs: 1max_steps: -1learning_rate: 1e-05lr_scheduler_type: cosine_with_restartslr_scheduler_kwargs: Nonewarmup_steps: 100optim: adamw_torchoptim_args: Noneweight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08optim_target_modules: Nonegradient_accumulation_steps: 1average_tokens_across_devices: Truemax_grad_norm: 1.0label_smoothing_factor: 0.0bf16: Truefp16: Falsebf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Nonetorch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneuse_liger_kernel: Falseliger_kernel_config: Noneuse_cache: Falseneftune_noise_alpha: Nonetorch_empty_cache_steps: Noneauto_find_batch_size: Falselog_on_each_node: Truelogging_nan_inf_filter: Trueinclude_num_input_tokens_seen: nolog_level: passivelog_level_replica: warningdisable_tqdm: Falseproject: huggingfacetrackio_space_id: trackioper_device_eval_batch_size: 8prediction_loss_only: Trueeval_on_start: Falseeval_do_concat_batches: Trueeval_use_gather_object: Falseeval_accumulation_steps: Noneinclude_for_metrics: []batch_eval_metrics: Falsesave_only_model: Falsesave_on_each_node: Falseenable_jit_checkpoint: Falsepush_to_hub: Falsehub_private_repo: Nonehub_model_id: Nonehub_strategy: every_savehub_always_push: Falsehub_revision: Noneload_best_model_at_end: Trueignore_data_skip: Falserestore_callback_states_from_checkpoint: Falsefull_determinism: Falseseed: 42data_seed: Noneuse_cpu: Falseaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedataloader_drop_last: Falsedataloader_num_workers: 16dataloader_pin_memory: Truedataloader_persistent_workers: Truedataloader_prefetch_factor: Noneremove_unused_columns: Truelabel_names: Nonetrain_sampling_strategy: randomlength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falseddp_backend: Noneddp_timeout: 1800fsdp: []fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}deepspeed: Nonedebug: []skip_memory_metrics: Truedo_predict: Falseresume_from_checkpoint: Nonewarmup_ratio: Nonelocal_rank: -1prompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | val_ir_cosine_ndcg@10 |
|---|---|---|---|
| 0 | 0 | - | 0.8719 |
| 0.0303 | 50 | 0.1413 | - |
| 0.0605 | 100 | 0.0658 | - |
| 0.0908 | 150 | 0.0637 | - |
| 0.1211 | 200 | 0.0550 | - |
| 0.1513 | 250 | 0.0666 | - |
| 0.1816 | 300 | 0.0702 | - |
| 0.2119 | 350 | 0.0538 | - |
| 0.2421 | 400 | 0.0541 | - |
| 0.2724 | 450 | 0.0506 | - |
| 0.3027 | 500 | 0.0520 | 0.9434 |
| 0.3329 | 550 | 0.0491 | - |
| 0.3632 | 600 | 0.0520 | - |
| 0.3935 | 650 | 0.0512 | - |
| 0.4237 | 700 | 0.0505 | - |
| 0.4540 | 750 | 0.0505 | - |
| 0.4843 | 800 | 0.0448 | - |
| 0.5145 | 850 | 0.0529 | - |
| 0.5448 | 900 | 0.0455 | - |
| 0.5751 | 950 | 0.0450 | - |
| 0.6053 | 1000 | 0.0429 | 0.9514 |
| 0.6356 | 1050 | 0.0376 | - |
| 0.6659 | 1100 | 0.0434 | - |
| 0.6961 | 1150 | 0.0451 | - |
| 0.7264 | 1200 | 0.0427 | - |
| 0.7567 | 1250 | 0.0448 | - |
| 0.7869 | 1300 | 0.0442 | - |
| 0.8172 | 1350 | 0.0426 | - |
| 0.8475 | 1400 | 0.0518 | - |
| 0.8777 | 1450 | 0.0372 | - |
| 0.9080 | 1500 | 0.0473 | 0.9520 |
| 0.9383 | 1550 | 0.0350 | - |
| 0.9685 | 1600 | 0.0426 | - |
| 0.9988 | 1650 | 0.0378 | - |
| 1.0 | 1652 | - | 0.952 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}