--- license: apache-2.0 datasets: - limloop/characters_dialogs - IlyaGusev/gpt_roleplay_realm - tamohannes/llm-roleplay - radce/communication_dataset - databricks/databricks-dolly-15k - ch1eph/RuGeoBench - nyuuzyou/ruschatgpt-qa - 0x22almostEvil/ru-riddles-377 - 0x22almostEvil/tatoeba-mt-qna-oa - Den4ikAI/ru_sberquad_long_answers - Vikhrmodels/GrandMaster-PRO-MAX - HuggingFaceH4/ultrachat_200k - OpenAssistant/oasst1 - OpenAssistant/oasst2 - PJMixers/hieunguyenminh_roleplay-deduped-ShareGPT - Arketov/hieunguyenminh_roleplay-deduped-ShareGPT_ru - limloop/logic_duo - limloop/ru_en_linguistic_exchange - limloop/multi_engagement_roleplay_corpus language: - ru - en pipeline_tag: text-generation library_name: transformers tags: - mamba2 base_model: - limloop/whiff-mamba2-20M --- # WHIFF 20M
🇷🇺 Русский... *Змеиный щепот в кустах, движимый легким порывом ветра* `whiff-20M` — это небольшая экспериментальная языковая модель на архитектуре Mamba2 с 20.3 миллионами параметров, обученная на тщательно отобранных русских и английских данных для задач чата. Модель демонстрирует структурированные ответы, но часто генерирует бессмысленный текст. ## Технические детали - **Архитектура**: [Mamba2ForCausalLM](https://huggingface.co/docs/transformers/v4.51.3/model_doc/mamba2) из 🤗 Transformers - **Параметры**: 20.3M - **Языки**: русский/английский (двуязычная) - **Токенизатор**: (специальный мини-BPE токенизатор) - **Лицензия**: Apache 2.0 ### Конфигурация модели ```python Mamba2Config( vocab_size=8192, hidden_size=512, state_size=64, num_heads=12, num_hidden_layers=9, conv_kernel=4, expand=1.5, n_groups=2 ) ``` ## Использование ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("limloop/whiff-mamba2-20M") model = AutoModelForCausalLM.from_pretrained("limloop/whiff-mamba2-20M") def chat(messages, temp=0.5): inputs = tokenizer.apply_chat_template(messages, return_tensors="pt") outputs = model.generate( inputs, max_length=512, top_k=40, top_p=0.9, repetition_penalty=1.1, num_return_sequences=1, temperature=temp, do_sample=True, eos_token_id=1 ) return tokenizer.decode(outputs[0], skip_special_tokens=True) # Пример dialog = [ {"role": "system", "content": "Ты — мудрый эльф."}, {"role": "user", "content": "Объясни квантовую физику."} ] response = chat(dialog, temp=0.4) print(response) ``` ## Данные обучения 19 927 тщательно отфильтрованных строк с диалогами: - 154 306 (39.5%) — Английские - 187 204 (48.0%) — Русские - 48 528 (12.5%) — Смешанные Источники: - `limloop/characters_dialogs` - `IlyaGusev/gpt_roleplay_realm` - `tamohannes/llm-roleplay` - `radce/communication_dataset` - `databricks/databricks-dolly-15k` - `ch1eph/RuGeoBench` - `nyuuzyou/ruschatgpt-qa` - `0x22almostEvil/ru-riddles-377` - `0x22almostEvil/tatoeba-mt-qna-oa` - `Den4ikAI/ru_sberquad_long_answers` - `Vikhrmodels/GrandMaster-PRO-MAX` - `HuggingFaceH4/ultrachat_200k` - `OpenAssistant/oasst1` - `OpenAssistant/oasst2` - `PJMixers/hieunguyenminh_roleplay-deduped-ShareGPT` - `Arketov/hieunguyenminh_roleplay-deduped-ShareGPT_ru` - `limloop/logic_duo` - `limloop/ru_en_linguistic_exchange` - `limloop/multi_engagement_roleplay_corpus` Все датасеты были дополнительно очищены и отфильтрованы для улучшения качества чат-взаимодействия. ## Ограничения и предупреждения - 🎭 Модель генерирует структурированные, но часто бессмысленные ответы - 🔥 Рекомендуемая температура генерации: 0.1-0.6 - ⚠️ Может демонстрировать артефакты обучения (повторы, противоречия) - ⚠️ Не предназначена для production-использования *Эта модель — как лесной ручей: вроде течёт куда-то, но куда именно — известно только белкам*
*A serpentine whisper in the bushes, carried by a gentle gust of wind* `whiff-20M` is a small experimental language model based on the Mamba2 architecture with 20.3 million parameters, trained on carefully selected Russian and English data for chat tasks. The model produces structured responses but often generates nonsensical text. ## Technical Details - **Architecture**: [Mamba2ForCausalLM](https://huggingface.co/docs/transformers/v4.51.3/model_doc/mamba2) from 🤗 Transformers - **Parameters**: 20.3M - **Languages**: Russian/English (bilingual) - **Tokenizer**: (custom mini-BPE tokenizer) - **License**: Apache 2.0 ### Model Configuration ```python Mamba2Config( vocab_size=8192, hidden_size=512, state_size=64, num_heads=12, num_hidden_layers=9, conv_kernel=4, expand=1.5, n_groups=2 ) ``` ## Usage ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("limloop/whiff-mamba2-20M") model = AutoModelForCausalLM.from_pretrained("limloop/whiff-mamba2-20M") def chat(messages, temp=0.5): inputs = tokenizer.apply_chat_template(messages, return_tensors="pt") outputs = model.generate( inputs, max_length=512, top_k=40, top_p=0.9, repetition_penalty=1.1, num_return_sequences=1, temperature=temp, do_sample=True, eos_token_id=1 ) return tokenizer.decode(outputs[0], skip_special_tokens=True) # Example dialog = [ {"role": "system", "content": "You are a wise elf."}, {"role": "user", "content": "Explain quantum physics."} ] response = chat(dialog, temp=0.4) print(response) ``` ## Training Data 19 927 carefully filtered dialogue lines: - 154 306 (39.5%) — English - 187 204 (48.0%) — Russian - 48 528 (12.5%) — Mixed Sources: - `limloop/characters_dialogs` - `IlyaGusev/gpt_roleplay_realm` - `tamohannes/llm-roleplay` - `radce/communication_dataset` - `databricks/databricks-dolly-15k` - `ch1eph/RuGeoBench` - `nyuuzyou/ruschatgpt-qa` - `0x22almostEvil/ru-riddles-377` - `0x22almostEvil/tatoeba-mt-qna-oa` - `Den4ikAI/ru_sberquad_long_answers` - `Vikhrmodels/GrandMaster-PRO-MAX` - `HuggingFaceH4/ultrachat_200k` - `OpenAssistant/oasst1` - `OpenAssistant/oasst2` - `PJMixers/hieunguyenminh_roleplay-deduped-ShareGPT` - `Arketov/hieunguyenminh_roleplay-deduped-ShareGPT_ru` - `limloop/logic_duo` - `limloop/ru_en_linguistic_exchange` - `limloop/multi_engagement_roleplay_corpus` All datasets were additionally cleaned and filtered to improve chat interaction quality. ## Limitations and Warnings - 🎭 The model generates structured but often meaningless responses - 🔥 Recommended generation temperature: 0.1-0.6 - ⚠️ May exhibit training artifacts (repetitions, contradictions) - ⚠️ Not intended for production use *This model is like a forest stream: it seems to flow somewhere, but where exactly - only the squirrels know*