publish main XLM-R checkpoint + card

8fd5551 verified 4 days ago

3.79 kB

language: ru
license: mit
library_name: transformers
pipeline_tag: text-classification
base_model: FacebookAI/xlm-roberta-base
tags:
  - xlm-roberta
  - russian-nlp
  - grnti
  - multiclass
  - text-classification
datasets:
  - ai-forever/ru-scibench-grnti-classification
widget:
  - text: >-
      Исследование влияния ферментных препаратов на процессы созревания
      зернового теста и качество хлеба. Досліджено вплив ферментних препаратів
      целюлази, ксиланази та глюкозооксидази на процеси дозріван- ня зернового
      тіста та якість зерно- вого хліба. Встановлено, що внесення дослідних
      ферментних препаратів у зернове тісто під час його приготу- вання сприяє
      інтенсифікації біохіміч- них і мікробіологічних процесів дозрі- вання. У
      результаті покращуються реологічні властивості тіста та під- вищуються
      показники якості гото- вих виробівКлючові слова: ферментні препа- рати,
      зерновий хліб, приготування тіста, целюлаза, ксиланаза, глюко- зооксидаза
model-index:
  - name: kiselyovd/grnti-text-classifier
    results:
      - task:
          type: text-classification
          name: Top-level GRNTI classification
        dataset:
          name: ru-scibench-grnti-classification
          type: ai-forever/ru-scibench-grnti-classification
        metrics:
          - type: accuracy
            value: 0.7237
            name: Top-1 accuracy
          - type: accuracy
            value: 0.9675
            name: Top-5 accuracy
          - type: f1
            value: 0.723
            name: Macro F1
          - type: f1
            value: 0.723
            name: Weighted F1

kiselyovd/grnti-text-classifier

Production-grade Russian scientific-text classifier: 28 top-level GRNTI codes. Main model: XLM-RoBERTa-base fine-tuned on ai-forever/ru-scibench-grnti-classification.

Metrics (test split, n = 2772, 28 classes)

Model	Top-1	Top-5	Macro F1	Weighted F1
FacebookAI/xlm-roberta-base	72.4%	96.8%	72.3%	72.3%
DeepPavlov/rubert-base-cased	72.9%	95.9%	72.8%	72.8%

Usage

from transformers import pipeline

clf = pipeline("text-classification", model="kiselyovd/grnti-text-classifier", top_k=5)
clf("Исследование квантовой электродинамики в кристаллах.")

Intended use

This model is trained for Russian-language top-level GRNTI section classification (State Rubricator of Scientific and Technical Information). It is not evaluated outside Russian scientific text and should not be used for generic multilingual classification.

Do not rely on this model for high-stakes decisions. Outputs are probabilistic and subject to training-data biases.

Training

Dataset: ai-forever/ru-scibench-grnti-classification (MIT, 28 476 train + 2 772 test).
Base model: FacebookAI/xlm-roberta-base.
Baseline: DeepPavlov/rubert-base-cased.
Precision: bf16-mixed on CUDA.
Optimizer: AdamW + linear warmup/decay.
Optuna 10-trial sweep for lr/weight_decay/warmup_ratio, then 5-epoch final training with best params.

Source: https://github.com/kiselyovd/grnti-text-classifier

License

MIT.