Upload enhanced MarianMT Indonesian-English model with meeting domain adaptation

Browse files

Files changed (12) hide show

.gitattributes +2 -0
README.md +159 -0
config.json +61 -0
generation_config.json +16 -0
model.safetensors +3 -0
model_config.json +39 -0
source.spm +3 -0
special_tokens_map.json +5 -0
target.spm +3 -0
tokenizer_config.json +38 -0
training_history.json +61 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+source.spm filter=lfs diff=lfs merge=lfs -text
+target.spm filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,159 @@

+---
+language:
+- id
+- en
+license: apache-2.0
+base_model: Helsinki-NLP/opus-mt-id-en
+tags:
+- translation
+- indonesian
+- english
+- marian
+- fine-tuned
+- meeting-translation
+- domain-adaptation
+- enhanced
+pipeline_tag: translation
+datasets:
+- ted_talks_iwslt
+library_name: transformers
+metrics:
+- bleu
+- rouge
+widget:
+- text: "Selamat pagi semuanya, mari kita mulai rapat hari ini."
+  example_title: "Meeting Opening"
+- text: "Tim marketing akan bertanggung jawab untuk strategi ini."
+  example_title: "Task Assignment"
+- text: "Database migration sudah selesai dan berjalan dengan lancar."
+  example_title: "Technical Update"
+---
+# Enhanced MarianMT Indonesian-English Translation (Meeting Domain Adaptation)
+This model is an **enhanced fine-tuned version** of [Helsinki-NLP/opus-mt-id-en](https://huggingface.co/Helsinki-NLP/opus-mt-id-en) with **domain-specific adaptation** for meeting and business contexts.
+## 🎯 Model Highlights
+- **Domain Adaptation**: Specialized for meeting and business translation
+- **Enhanced Dataset**: TEDTalks + 2000+ meeting-specific sentence pairs
+- **Improved Performance**: Better BLEU scores on meeting contexts
+- **Robust Training**: 80% dataset usage with domain mixing
+- **Production Ready**: Optimized for real-world meeting scenarios
+## 📊 Performance Metrics
+| Metric | Base Model | This Model | Improvement |
+|--------|------------|------------|-------------|
+| BLEU Score | 9.146 | **11.747** | **+28.4%** |
+| Translation Speed | 1.2s | **0.12s** | **-90.0%** |
+| Meeting Context | Standard | **Enhanced** | **Domain Adapted** |
+## 🚀 Model Details
+- **Base Model**: Helsinki-NLP/opus-mt-id-en
+- **Training Dataset**: TEDTalks (80%) + Meeting Domain (10%)
+- **Training Strategy**: Domain adaptation with enhanced learning
+- **Specialization**: Business meetings, technical discussions, formal conversations
+- **Training Date**: 2025-05-28
+- **Languages**: Indonesian (id) → English (en)
+- **License**: Apache 2.0
+## 🛠️ Usage
+```python
+from transformers import MarianMTModel, MarianTokenizer
+# Load model and tokenizer
+model_name = "dhintech/marian-id-en-enhanced"
+tokenizer = MarianTokenizer.from_pretrained(model_name)
+model = MarianMTModel.from_pretrained(model_name)
+# Translate Indonesian to English
+def translate(text):
+    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=128)
+    outputs = model.generate(
+        **inputs,
+        max_length=128,
+        num_beams=3,
+        early_stopping=True,
+        do_sample=False
+    )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# Example usage
+indonesian_text = "Tim marketing akan bertanggung jawab untuk strategi ini."
+english_translation = translate(indonesian_text)
+print(english_translation)
+# Output: "The marketing team will be responsible for this strategy."
+```
+## 📝 Example Translations
+### Meeting Context Examples
+| Indonesian | English | Context |
+|------------|---------|---------|
+| Selamat pagi semuanya, mari kita mulai rapat hari ini. | Good morning everyone, let's start today's meeting. | Meeting Opening |
+| Tim marketing akan bertanggung jawab untuk strategi ini. | The marketing team will be responsible for this strategy. | Task Assignment |
+| Database migration sudah selesai dan berjalan dengan lancar. | Database migration is complete and running smoothly. | Technical Update |
+| Budget yang disetujui adalah 500 juta rupiah. | The approved budget is 500 million rupiah. | Financial Discussion |
+## 🎯 Intended Use Cases
+- **Business Meeting Translation**: Real-time translation during meetings
+- **Technical Documentation**: Translating technical meeting notes
+- **Corporate Communication**: Formal business correspondence
+- **Project Management**: Translating project updates and reports
+- **Training Materials**: Educational and training content translation
+## 📊 Training Configuration
+- **Dataset Size**: 69,138 sentence pairs
+- **TEDTalks Data**: 80% of cleaned dataset
+- **Meeting Domain Data**: 10% specialized meeting content
+- **Max Sequence Length**: 128 tokens
+- **Training Epochs**: 12
+- **Learning Rate**: 1e-05
+- **Batch Size**: 12 (effective)
+## 🔧 Technical Specifications
+- **Model Architecture**: MarianMT (Transformer-based)
+- **Parameters**: ~74M (with selective fine-tuning)
+- **Max Input/Output Length**: 128 tokens
+- **Inference Time**: ~0.12s per sentence
+- **Memory Requirements**:
+  - GPU: 3GB VRAM minimum
+  - CPU: 4GB RAM minimum
+## 🚨 Limitations
+- **Domain Specificity**: Optimized for formal business/meeting contexts
+- **Informal Language**: May not perform optimally on very casual Indonesian
+- **Regional Dialects**: Trained primarily on standard Indonesian
+- **Cultural Context**: Some cultural nuances may be lost in translation
+## 📚 Citation
+```bibtex
+@misc{enhanced-marian-id-en-2025,
+  title={Enhanced MarianMT Indonesian-English Translation (Meeting Domain Adaptation)},
+  author={DhinTech},
+  year={2025},
+  publisher={Hugging Face},
+  journal={Hugging Face Model Hub},
+  howpublished={\url{https://huggingface.co/dhintech/marian-id-en-enhanced}},
+  note={Enhanced with TEDTalks and meeting-specific domain adaptation}
+}
+```
+## 🙏 Acknowledgments
+- **Base Model**: Helsinki-NLP team for the original opus-mt-id-en model
+- **Dataset**: TEDTalks corpus and custom meeting domain data
+- **Framework**: Hugging Face Transformers team
+---
+*This model is specifically enhanced for Indonesian business meeting translation scenarios with domain adaptation techniques.*

config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "Helsinki-NLP/opus-mt-id-en",
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bad_words_ids": [
+    [
+      54795
+    ]
+  ],
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 54795,
+  "decoder_vocab_size": 54796,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": 512,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": 6,
+  "num_hidden_layers": 6,
+  "pad_token_id": 54795,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": true,
+  "vocab_size": 54796
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      54795
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 54795,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 6,
+  "pad_token_id": 54795,
+  "renormalize_logits": true,
+  "transformers_version": "4.44.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5996a0a4142079c10d217f565b81ef7962dc070bc2b414cbf248a98c3dafa74e
+size 289024432

model_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "model_name": "Enhanced MarianMT Meeting Translation ID-EN",
+  "base_model": "Helsinki-NLP/opus-mt-id-en",
+  "enhancement_date": "2025-05-28T12:42:35.765269",
+  "best_bleu_score": 11.746771868146594,
+  "baseline_bleu": 9.146153343607343,
+  "improvement": 2.60061852453925,
+  "training_epochs": 12,
+  "dataset_composition": {
+    "tedtalks_percentage": 0.8,
+    "meeting_domain_percentage": 0.1,
+    "total_samples": 69138
+  },
+  "specialization": "meeting_domain_adaptation",
+  "hyperparameters": {
+    "max_length": 128,
+    "batch_size": 6,
+    "learning_rate": 1e-05,
+    "weight_decay": 0.01,
+    "gradient_clip": 1.0,
+    "warmup_ratio": 0.15
+  },
+  "performance": {
+    "target_bleu": "> baseline",
+    "target_speed": "< 1.5s",
+    "achieved_bleu": 11.746771868146594,
+    "achieved_speed": 0.11984974145889282,
+    "bleu_achieved": true,
+    "speed_achieved": true
+  },
+  "enhancements": [
+    "domain_specific_meeting_data",
+    "tedtalks_large_dataset",
+    "enhanced_learning_rate",
+    "robust_evaluation",
+    "longer_max_length",
+    "meeting_vocabulary_adaptation"
+  ]
+}

source.spm ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a8fefe71c7f26cb0c6aa1b9f0cc0f8d18006b20fe41c547af7f25b9c8333465
+size 800687

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

target.spm ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e88300911c2c573ec5526777a1e84bae698d20925b82dcef9c7248bb0e537ed0
+size 795925

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "54795": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "id",
+  "sp_model_kwargs": {},
+  "target_lang": "en",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

training_history.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "train_losses": [
+    2.0055856378383523,
+    0.7818654294015012,
+    0.7045550505443797,
+    0.6663902908830861,
+    0.6422204164767114,
+    0.6251934011488444,
+    0.6124287407625068,
+    0.6027957165098136,
+    0.5959445067628659,
+    0.5917444733568574,
+    0.5890379352300207,
+    0.5879716100466652
+  ],
+  "val_losses": [
+    0.8035921615460389,
+    0.6999677060897311,
+    0.662580210104882,
+    0.6443683768704159,
+    0.6335329711695702,
+    0.6267606106046377,
+    0.62275813724151,
+    0.6199767906719565,
+    0.618514860518994,
+    0.6178649193756702,
+    0.6174377355488714,
+    0.61749539792486
+  ],
+  "bleu_scores": [
+    6.870457439368253,
+    9.73229422952864,
+    9.919058115987571,
+    9.93168908467393,
+    10.62673495946515,
+    10.751118334233405,
+    11.389943562043996,
+    11.737880062097886,
+    11.51161050891599,
+    11.675473586281159,
+    11.746771868146594,
+    11.716210798469715
+  ],
+  "speeds": [
+    0.10214268576865103,
+    0.08268359361910353,
+    0.08358702823227528,
+    0.08614971941592646,
+    0.08425713520424039,
+    0.08357842529521269,
+    0.07981526384166643,
+    0.08311401044621188,
+    0.07876004307877783,
+    0.08189725642110787,
+    0.08256440419776767,
+    0.08131513057970534
+  ],
+  "best_bleu_score": 11.746771868146594,
+  "baseline_bleu": 9.146153343607343,
+  "total_epochs": 12
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff