SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder

This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Xin chào Quý_Ban biên_tập . Tôi hiện đang sinh_sống và làm_việc tại Quảng_Ngãi . Trong quá_trình làm_việc , tôi gặp một_số vướng_mắc mong được giải_đáp . Cho tôi hỏi , hiện_nay , người giả_mạo hồ_sơ , giấy_tờ để được cấp thẻ tạm_trú bị xử_lý ra sao ?',
    'Nghị_định Quy_định xử_phạt vi_phạm hành_chính trong lĩnh_vực an_ninh , trật_tự , an_toàn xã_hội ; phòng , chống tệ_nạn xã_hội ; phòng cháy và chữa_cháy ; phòng , chống bạo_lực gia_đình Chương 2 Điều 17 . Vi_phạm các quy_định về xuất_cảnh , nhập_cảnh , quá_cảnh , cư_trú và đi_lại \n Nghị_định 167 / 2013 / NĐ - CP \n 1 . Phạt cảnh_cáo hoặc phạt tiền từ 100.000 đồng đến 300.000 đồng đối_với người nước_ngoài đi_lại trên lãnh_thổ Việt_Nam mà không mang theo hộ_chiếu hoặc giấy_tờ khác có giá_trị thay hộ_chiếu . 2 . Phạt tiền từ 500.000 đồng đến 2.000.000 đồng đối_với một trong những hành_vi sau đây : a ) Không thông_báo ngay cho cơ_quan có thẩm_quyền về việc mất , hư_hỏng hộ_chiếu hoặc giấy_tờ khác có giá_trị thay hộ_chiếu , thị_thực Việt_Nam , thẻ tạm_trú , thẻ thường_trú ; b ) Tẩy , xóa , sửa_chữa hoặc làm sai_lệch hình_thức , nội_dung ghi trong hộ_chiếu hoặc giấy_tờ khác có giá_trị thay hộ_chiếu , thị_thực , thẻ tạm_trú và thẻ thường_trú ; c ) Khai không đúng sự_thật để được cấp hộ_chiếu , giấy_tờ khác có giá_trị thay hộ_chiếu , thị_thực Việt_Nam , thẻ tạm_trú , thẻ thường_trú hoặc giấy_tờ có giá_trị nhập_cảnh , xuất_cảnh , cư_trú tại Việt_Nam ; d ) Người nước_ngoài đi vào khu_vực cấm , khu_vực nhà_nước quy_định cần có giấy_phép mà không có giấy_phép hoặc đi_lại quá phạm_vi , thời_hạn được phép ; đ ) Không xuất_trình hộ_chiếu hoặc giấy_tờ khác có giá_trị thay hộ_chiếu hoặc giấy_tờ có liên_quan đến xuất nhập_cảnh khi nhà chức_trách Việt_Nam yêu_cầu ; không chấp_hành các yêu_cầu khác của nhà chức_trách Việt_Nam về kiểm_tra người , hành_lý ; e ) Người nước_ngoài không khai_báo tạm_trú theo quy_định hoặc sử_dụng chứng_nhận tạm_trú , thẻ tạm_trú , thẻ thường_trú ở Việt_Nam quá thời_hạn từ 15 ngày trở xuống mà không được cơ_quan có thẩm_quyền cho phép ; g ) Cho người nước_ngoài nghỉ qua đêm nhưng không khai_báo tạm_trú , không hướng_dẫn người nước_ngoài khai_báo tạm_trú theo quy_định hoặc không thực_hiện đúng các quy_định khác của cơ_quan có thẩm_quyền . a ) Qua_lại biên_giới quốc_gia mà không làm thủ_tục xuất_cảnh , nhập_cảnh theo quy_định ; b ) Trốn hoặc tổ_chức , giúp_đỡ người khác trốn vào các phương_tiện nhập_cảnh , xuất_cảnh nhằm mục_đích vào Việt_Nam hoặc ra nước_ngoài ; c ) Cho người khác sử_dụng hộ_chiếu , giấy_tờ có giá_trị thay hộ_chiếu để thực_hiện_hành_vi trái quy_định của pháp_luật ; d ) Sử_dụng hộ_chiếu hoặc các giấy_tờ khác có giá_trị thay hộ_chiếu của người khác để nhập_cảnh , xuất_cảnh , quá_cảnh ; đ ) Người nước_ngoài không khai_báo tạm_trú theo quy_định hoặc sử_dụng chứng_nhận tạm_trú , thẻ tạm_trú , thẻ thường_trú ở Việt_Nam quá thời_hạn từ 16 ngày trở lên mà không được cơ_quan có thẩm_quyền cho phép ; e ) Người nước_ngoài đã được cấp thẻ thường_trú mà thay_đổi địa_chỉ nhưng không khai_báo để thực_hiện việc cấp đổi lại . a ) Chủ phương_tiện , người điều_khiển các loại phương_tiện chuyên_chở người nhập_cảnh , xuất_cảnh Việt_Nam trái_phép ; b ) Sử_dụng hộ_chiếu giả , giấy_tờ có giá_trị thay hộ_chiếu giả , thị_thực giả , thẻ tạm_trú giả , thẻ thường_trú giả , dấu kiểm_chứng giả để xuất_cảnh , nhập_cảnh , quá_cảnh , cư_trú . 5 . Phạt tiền từ 15.000.000 đồng đến 25.000.000 đồng đối_với một trong những hành_vi sau đây : a ) Giúp_đỡ , chứa_chấp , che_giấu , tạo điều_kiện cho người khác đi nước_ngoài , ở lại nước_ngoài , vào Việt_Nam , ở lại Việt_Nam hoặc qua_lại biên_giới quốc_gia trái_phép ; b ) Người nước_ngoài nhập_cảnh , hành_nghề hoặc có hoạt_động khác tại Việt_Nam mà không được phép của cơ_quan có thẩm_quyền của Việt_Nam ; c ) Cá_nhân , tổ_chức ở Việt_Nam bảo_lãnh hoặc làm thủ_tục cho người nước_ngoài nhập_cảnh Việt_Nam , xin cấp thị_thực , cấp thẻ tạm_trú , gia_hạn tạm_trú , giấy_tờ có giá_trị nhập_cảnh , cư_trú tại Việt_Nam nhưng không thực_hiện đúng trách_nhiệm theo quy_định của pháp_luật hoặc khai không đúng sự_thật khi bảo_lãnh , mời hoặc làm thủ_tục cho người nước_ngoài nhập_cảnh , xin cấp thị_thực , cấp thẻ tạm_trú , gia_hạn tạm_trú , giấy_tờ có giá_trị nhập_cảnh , xuất_cảnh , cư_trú tại Việt_Nam ; d ) Người nước_ngoài nhập_cảnh hoạt_động không đúng mục_đích , chương_trình đã đề_nghị xin cấp thẻ tạm_trú , thẻ thường_trú . 6 . Phạt tiền từ 30.000.000 đồng đến 40.000.000 đồng đối_với một trong những hành_vi sau đây : a ) Giả_mạo hồ_sơ , giấy_tờ để được cấp hộ_chiếu hoặc giấy_tờ khác có giá_trị thay hộ_chiếu , thị_thực , thẻ tạm_trú , thẻ thường_trú ; b ) Làm giả hộ_chiếu hoặc giấy_tờ khác có giá_trị thay hộ_chiếu , thị_thực , thẻ tạm_trú , thẻ thường_trú hoặc dấu kiểm_chứng ; c ) Trốn vào đại_sứ_quán , lãnh_sự_quán hoặc trụ_sở cơ_quan , tổ_chức quốc_tế đóng tại Việt_Nam ; d ) Người nước_ngoài cư_trú tại Việt_Nam mà không được phép của cơ_quan có thẩm_quyền ; đ ) Tổ_chức , đưa dẫn hoặc môi_giới cho người khác xuất_cảnh , nhập_cảnh Việt_Nam trái_phép . 7 . Hình_thức xử_phạt bổ_sung : Tịch_thu tang_vật , phương_tiện vi_phạm hành_chính đối_với hành_vi quy_định tại Điểm b Khoản 2 ; Điểm c , d Khoản 3 ; Điểm a Khoản 4 ; Điểm a , b Khoản 6 Điều này . 8 . Biện_pháp khắc_phục hậu_quả : a ) Buộc thu_hồi hộ_chiếu , giấy_tờ khác có giá_trị thay hộ_chiếu , thị_thực , thẻ tạm_trú , thẻ thường_trú hoặc dấu kiểm_chứng đối_với hành_vi quy_định tại Điểm b Khoản 2 ; Điểm d , đ Khoản 3 ; Điểm b Khoản 4 ; Điểm a , b Khoản 6 Điều này ; b ) Buộc_hủy bỏ thông_tin , tài_liệu sai sự_thật đối_với hành_vi quy_định tại Điểm c Khoản 2 ; Điểm c Khoản 5 Điều này . 9 . Người nước_ngoài có hành_vi vi_phạm hành_chính quy_định tại Khoản 1 , 2 , 3 , 4 , 5 và Khoản 6 Điều này , thì tùy theo mức_độ vi_phạm có_thể bị áp_dụng hình_thức xử_phạt trục_xuất khỏi nước Cộng_hòa xã_hội chủ_nghĩa Việt_Nam .',
    'Luật Cư_trú Chương I Điều 7 . Các hành_vi bị nghiêm_cấm về cư_trú \n Luật 68 / 2020 / QH14 \n 1 . Cản_trở công_dân thực_hiện quyền tự_do cư_trú . 2 . Lạm_dụng việc sử_dụng thông_tin về nơi thường_trú , nơi tạm_trú làm điều_kiện để hạn_chế quyền , lợi_ích hợp_pháp của công_dân . 3 . Đưa , môi_giới , nhận hối_lộ trong việc đăng_ký , quản_lý cư_trú . 4 . Không tiếp_nhận , trì_hoãn việc tiếp_nhận hồ_sơ , giấy_tờ , tài_liệu , thông_tin đăng_ký cư_trú hoặc có hành_vi nhũng_nhiễu khác ; không thực_hiện , thực_hiện không đúng thời_hạn đăng_ký cư_trú cho công_dân khi hồ_sơ đủ điều_kiện đăng_ký cư_trú ; xóa_đăng_ký thường_trú , đăng_ký tạm_trú trái với quy_định của pháp_luật . 5 . Thu , quản_lý , sử_dụng lệ_phí đăng_ký cư_trú trái với quy_định của pháp_luật . 6 . Tự đặt ra thời_hạn , thủ_tục , giấy_tờ , tài_liệu , biểu_mẫu trái với quy_định của pháp_luật hoặc làm sai_lệch thông_tin , sổ_sách , hồ_sơ về cư_trú . 7 . Cố_ý cấp hoặc từ_chối cấp giấy_tờ , tài_liệu về cư_trú trái với quy_định của pháp_luật . 8 . Lợi_dụng việc thực_hiện quyền tự_do cư_trú để xâm_phạm lợi_ích của Nhà_nước , quyền , lợi_ích hợp_pháp của tổ_chức , cá_nhân . 9 . Làm giả giấy_tờ , tài_liệu , dữ_liệu về cư_trú ; sử_dụng giấy_tờ , tài_liệu , dữ_liệu giả về cư_trú ; cung_cấp thông_tin , giấy_tờ , tài_liệu sai sự_thật về cư_trú ; khai man điều_kiện , giả_mạo hồ_sơ , giấy_tờ , tài_liệu để được đăng_ký thường_trú , đăng_ký tạm_trú ; mua , bán , thuê , cho thuê , mượn , cho mượn , cầm_cố , nhận cầm_cố , hủy_hoại giấy_tờ , tài_liệu về cư_trú . 10 . Tổ_chức , kích_động , xúi_giục , lôi_kéo , dụ_dỗ , giúp_sức , cưỡng_bức người khác vi_phạm_pháp_luật về cư_trú . 11 . Giải_quyết cho đăng_ký thường_trú , đăng_ký tạm_trú khi biết rõ người đăng_ký thường_trú , đăng_ký tạm_trú không sinh_sống tại_chỗ ở đó . 12 . Đồng_ý cho người khác đăng_ký thường_trú , đăng_ký tạm_trú vào chỗ ở của mình để vụ_lợi hoặc trong thực_tế người đăng_ký thường_trú , đăng_ký tạm_trú không sinh_sống tại_chỗ ở đó . 13 . Truy_nhập , khai_thác , hủy_hoại , làm cản_trở , gián_đoạn hoạt_động , thay_đổi , xóa , phát_tán , cung_cấp trái_phép thông_tin trong Cơ_sở dữ_liệu về cư_trú .',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.3332, 0.1167],
#         [0.3332, 1.0000, 0.1978],
#         [0.1167, 0.1978, 1.0000]])

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.9052

Training Details

Training Dataset

Unnamed Dataset

  • Size: 3,432 training samples
  • Columns: sentence_0, sentence_1, and sentence_2
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2
    type string string string
    details
    • min: 5 tokens
    • mean: 43.6 tokens
    • max: 256 tokens
    • min: 49 tokens
    • mean: 226.37 tokens
    • max: 256 tokens
    • min: 51 tokens
    • mean: 245.66 tokens
    • max: 256 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2
    Cho tôi hỏi về đăng_ký tạm_trú và thông_báo lưu_trú . Tháng sau , ba mẹ tôi ở dưới quê lên thăm vợ_chồng tôi và ở lại tầm 2 tuần_lễ để chơi với các cháu . Cho tôi hỏi trong khoảng 2 tuần ba mẹ tôi ở lại nhà tôi thì tôi có cần phải đăng_ký tạm_trú hay làm thông_báo lưu_trú cho ông_bà hay không ? Luật Cư_trú Chương V Điều 27 . Điều_kiện đăng_ký tạm_trú
    Luật 68 / 2020 / QH14
    1 . Công_dân đến sinh_sống tại_chỗ ở hợp_pháp ngoài phạm_vi đơn_vị hành_chính cấp xã nơi đã đăng_ký thường_trú để lao_động , học_tập hoặc vì mục_đích khác từ 30 ngày trở lên thì phải thực_hiện đăng_ký tạm_trú . 2 . Thời_hạn tạm_trú tối_đa là 02 năm và có_thể tiếp_tục gia_hạn nhiều lần 3 . Công_dân không được đăng_ký tạm_trú mới tại_chỗ ở quy_định tại Điều 23 của Luật này .
    Luật Cư_trú Chương IV Điều 31 . Lưu_trú và thông_báo lưu_trú
    Luật 81 / 2006 / QH11
    1 . Lưu_trú là việc công_dân ở lại trong một thời_gian nhất_định tại địa_điểm thuộc xã , phường , thị_trấn ngoài nơi cư_trú của mình và không thuộc trường_hợp phải đăng_ký tạm_trú . 2 . Đại_diện gia_đình , nhà ở tập_thể , cơ_sở chữa bệnh , khách_sạn , nhà_nghỉ , cơ_sở khác khi có người đến lưu_trú có trách_nhiệm thông_báo việc lưu_trú với Công_an xã , phường , thị_trấn ; trường_hợp người đến lưu_trú tại nhà ở của gia_đình , nhà ở tập_thể mà chủ gia_đình , nhà ở tập_thể đó không đăng_ký thường_trú tại địa_bàn xã , phường , thị_trấn đó thì người đến lưu_trú có trách_nhiệm thông_báo việc lưu_trú với Công_an xã , phường , thị_trấn . Việc thông_báo lưu_trú được thực_hiện trực_tiếp hoặc bằng điện_thoại hoặc qua mạng Internet , mạng máy_tính . Công_an xã , phường , thị_trấn có trách_nhiệm thông_báo địa_điểm , địa_chỉ mạng Internet , địa_chỉ mạng máy_tính , số điện_thoại nơi tiếp_nhận thông_báo lưu_trú cho n...
    Xin chào Quý_Ban biên_tập . Tôi hiện đang sinh_sống và làm_việc tại Tây_Ninh . Trong quá_trình công_tác , tôi gặp một_số vướng_mắc mong được giải_đáp . Tôi thấy một_số tài_liệu có đề_cập đến công_tác cấp sổ tạm_trú cho công_dân tuy_nhiên không phân_tích rõ . Cho tôi hỏi , trường_hợp sổ tạm_trú bị mất thì thủ_tục xin cấp lại sổ được quy_định trong văn_bản nào ? Thông_tư Quy_định chi_tiết thi_hành một_số điều của luật cư_trú và nghị_định số 31 / 2014 / NĐ - CP ngày 18 tháng 4 năm 2014 của chính_phủ quy_định chi_tiết một_số điều và biện_pháp thi_hành luật cư_trú Chương III Điều 17 . Cấp sổ tạm_trú
    Thông_tư 35 / 2014 / TT - BCA
    1 . Sổ tạm_trú được cấp cho hộ gia_đình hoặc cá_nhân đã đăng_ký tạm_trú theo quy_định tại Điều 30 Luật Cư_trú và quy_định tại Thông_tư này , có giá_trị xác_định nơi tạm_trú của công_dân và có thời_hạn tối_đa là hai mươi bốn tháng . Thời_hạn tạm_trú theo đề_nghị của công_dân nhưng tối_đa không quá hai mươi bốn tháng . Hết thời_hạn tạm_trú , hộ gia_đình hoặc cá_nhân vẫn tiếp_tục tạm_trú thì đại_diện hộ gia_đình hoặc cá_nhân đến cơ_quan Công_an nơi cấp sổ tạm_trú làm thủ_tục gia_hạn tạm_trú ; thời_hạn tạm_trú của mỗi lần gia_hạn tối_đa không quá thời_hạn còn lại của sổ tạm_trú . Trường_hợp sổ tạm_trú hết thời_hạn sử_dụng mà hộ gia_đình hoặc cá_nhân vẫn tiếp_tục tạm_trú tại đó thì đại_diện hộ gia_đình hoặc cá_nhân đến cơ_...
    Nghị_định Quy_định chi_tiết một_số điều_luật cư_trú Chương II Điều 8 . Hồ_sơ , thủ_tục xóa_đăng_ký tạm_trú
    Nghị_định 62 / 2021 / NĐ - CP
    1 . Trong thời_hạn 01 ngày kể từ ngày nhận được quyết_định hủy bỏ đăng_ký tạm_trú của thủ_trưởng cấp trên trực_tiếp hoặc ngay sau khi ra quyết_định hủy bỏ đăng_ký tạm_trú đối_với công_dân , cơ_quan đăng_ký cư_trú thực_hiện việc xóa_đăng_ký tạm_trú đối_với công_dân và cập_nhật việc xóa_đăng_ký tạm_trú vào Cơ_sở dữ_liệu quốc_gia về dân_cư , Cơ_sở dữ_liệu về cư_trú . 2 . Trừ trường_hợp quy_định tại khoản 1 Điều này , trong thời_hạn 07 ngày kể từ ngày hộ gia_đình có người thuộc diện xóa_đăng_ký tạm_trú thì người thuộc diện xóa_đăng_ký tạm_trú hoặc đại_diện hộ gia_đình có trách_nhiệm nộp hồ_sơ làm thủ_tục xóa_đăng_ký tạm_trú đến cơ_quan đăng_ký cư_trú . Hồ_sơ xóa_đăng_ký tạm_trú gồm : Tờ khai thay_đổi thông_tin cư_trú và giấy_tờ , tài_liệu chứng_minh thuộc một trong các trường_hợp xóa_đăng_ký tạm_trú . 3 . Cơ_quan , đơn_vị quản_lý người học_tập , công_...
    Xin chào Quý_Ban biên_tập . Tôi hiện đang sinh_sống và làm_việc tại Đà_Nẵng . Trong quá_trình công_tác , tôi gặp một_số vướng_mắc mong được giải_đáp . Tôi thấy một_số tài_liệu có đề_cập đến công_tác cấp sổ tạm_trú cho công_dân tuy_nhiên không phân_tích rõ . Cho tôi hỏi , vấn_đề sổ tạm_trú bị hư_hỏng thì thủ_tục đổi lại sổ tôi có_thể tham_khảo ở đâu ? Thông_tư Quy_định chi_tiết thi_hành một_số điều của luật cư_trú và nghị_định số 31 / 2014 / NĐ - CP ngày 18 tháng 4 năm 2014 của chính_phủ quy_định chi_tiết một_số điều và biện_pháp thi_hành luật cư_trú Chương III Điều 17 . Cấp sổ tạm_trú
    Thông_tư 35 / 2014 / TT - BCA
    1 . Sổ tạm_trú được cấp cho hộ gia_đình hoặc cá_nhân đã đăng_ký tạm_trú theo quy_định tại Điều 30 Luật Cư_trú và quy_định tại Thông_tư này , có giá_trị xác_định nơi tạm_trú của công_dân và có thời_hạn tối_đa là hai mươi bốn tháng . Thời_hạn tạm_trú theo đề_nghị của công_dân nhưng tối_đa không quá hai mươi bốn tháng . Hết thời_hạn tạm_trú , hộ gia_đình hoặc cá_nhân vẫn tiếp_tục tạm_trú thì đại_diện hộ gia_đình hoặc cá_nhân đến cơ_quan Công_an nơi cấp sổ tạm_trú làm thủ_tục gia_hạn tạm_trú ; thời_hạn tạm_trú của mỗi lần gia_hạn tối_đa không quá thời_hạn còn lại của sổ tạm_trú . Trường_hợp sổ tạm_trú hết thời_hạn sử_dụng mà hộ gia_đình hoặc cá_nhân vẫn tiếp_tục tạm_trú tại đó thì đại_diện hộ gia_đình hoặc cá_nhân đến cơ_...
    Thông_tư Quy_định chi_tiết một_số điều và biện_pháp thi_hành luật cư_trú 2021 Chương VI Điều 21 . Trách_nhiệm của Cục Cảnh_sát quản_lý hành_chính về trật_tự xã_hội
    Thông_tư 55 / 2021 / TT - BCA
    1 . Tham_mưu xây_dựng và trình Bộ_trưởng Bộ Công_an ban_hành_văn_bản quy_phạm_pháp_luật về cư_trú theo thẩm_quyền ; 2 . Giúp Bộ_trưởng Bộ Công_an chỉ_đạo , hướng_dẫn , kiểm_tra , đôn_đốc Công_an các đơn_vị , địa_phương thực_hiện các quy_định về đăng_ký và quản_lý cư_trú ; hướng_dẫn đăng_ký cư_trú đảm_bảo tái_hòa_nhập cộng_đồng đối_với người chấp_hành xong hình_phạt tù . ; 3 . Cập_nhật thông_tin về cư_trú vào Cơ_sở dữ_liệu quốc_gia về dân_cư , Cơ_sở dữ_liệu về cư_trú ; 4 . Có kế_hoạch tuyên_truyền và tổ_chức triển_khai , thực_hiện Luật Cư_trú , Thông_tư này và các văn_bản pháp_luật có liên_quan tới các cấp Công_an ; 5 . Hướng_dẫn sử_dụng biểu_mẫu , giấy_tờ , sổ_sách về đăng_ký , quản_lý cư_trú theo quy_định của Bộ Công_an thống_nhất trong cả nước ; tham_mưu Bộ_trưởng Bộ Công_an trang_bị máy_m...
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.COSINE",
        "triplet_margin": 0.25
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_ratio: None
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • enable_jit_checkpoint: False
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • use_cpu: False
  • seed: 42
  • data_seed: None
  • bf16: False
  • fp16: True
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: -1
  • ddp_backend: None
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • auto_find_batch_size: False
  • full_determinism: False
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • use_cache: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step val-triplet_cosine_accuracy
0.4977 107 0.8621
0.9953 214 0.9052

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.2.3
  • Transformers: 5.0.0
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.13.0
  • Datasets: 4.7.0
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
20
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for hoamai1509/bkai_vietnamese_bi_encoder_finetuned

Finetuned
(51)
this model

Papers for hoamai1509/bkai_vietnamese_bi_encoder_finetuned

Evaluation results