--- language: ru license: mit library_name: transformers pipeline_tag: text-classification base_model: FacebookAI/xlm-roberta-base tags: - xlm-roberta - russian-nlp - grnti - multiclass - text-classification datasets: - ai-forever/ru-scibench-grnti-classification widget: - text: "Исследование влияния ферментных препаратов на процессы созревания зернового теста и качество хлеба. Досліджено вплив ферментних препаратів целюлази, ксиланази та глюкозооксидази на процеси дозріван- ня зернового тіста та якість зерно- вого хліба. Встановлено, що внесення дослідних ферментних препаратів у зернове тісто під час його приготу- вання сприяє інтенсифікації біохіміч- них і мікробіологічних процесів дозрі- вання. У результаті покращуються реологічні властивості тіста та під- вищуються показники якості гото- вих виробівКлючові слова: ферментні препа- рати, зерновий хліб, приготування тіста, целюлаза, ксиланаза, глюко- зооксидаза" model-index: - name: kiselyovd/grnti-text-classifier results: - task: type: text-classification name: Top-level GRNTI classification dataset: name: ru-scibench-grnti-classification type: ai-forever/ru-scibench-grnti-classification metrics: - type: accuracy value: 0.7237 name: Top-1 accuracy - type: accuracy value: 0.9675 name: Top-5 accuracy - type: f1 value: 0.723 name: Macro F1 - type: f1 value: 0.723 name: Weighted F1 --- # kiselyovd/grnti-text-classifier Production-grade Russian scientific-text classifier: **28 top-level GRNTI codes**. Main model: XLM-RoBERTa-base fine-tuned on `ai-forever/ru-scibench-grnti-classification`. ## Metrics (test split, n = 2772, 28 classes) | Model | Top-1 | Top-5 | Macro F1 | Weighted F1 | |-------|------:|------:|---------:|------------:| | FacebookAI/xlm-roberta-base | 72.4% | 96.8% | 72.3% | 72.3% | | DeepPavlov/rubert-base-cased | 72.9% | 95.9% | 72.8% | 72.8% | ## Usage ```python from transformers import pipeline clf = pipeline("text-classification", model="kiselyovd/grnti-text-classifier", top_k=5) clf("Исследование квантовой электродинамики в кристаллах.") ``` ## Intended use This model is trained for Russian-language top-level GRNTI section classification (State Rubricator of Scientific and Technical Information). It is not evaluated outside Russian scientific text and should not be used for generic multilingual classification. Do not rely on this model for high-stakes decisions. Outputs are probabilistic and subject to training-data biases. ## Training - Dataset: `ai-forever/ru-scibench-grnti-classification` (MIT, 28 476 train + 2 772 test). - Base model: `FacebookAI/xlm-roberta-base`. - Baseline: `DeepPavlov/rubert-base-cased`. - Precision: bf16-mixed on CUDA. - Optimizer: AdamW + linear warmup/decay. - Optuna 10-trial sweep for lr/weight_decay/warmup_ratio, then 5-epoch final training with best params. Source: https://github.com/kiselyovd/grnti-text-classifier ## License MIT.