transhumanist-already-exists
/

tereshchenkoblue-tokenizer

@@ -72,7 +72,7 @@ tokenizer = AutoTokenizer.from_pretrained(
     "transhumanist-already-exists/tereshchenkoblue-tokenizer"
 )
 toks = tokenizer("Всі красиві зберігають оптимізм", add_special_tokens=False)
-print(toks.input_ids) # [123903, 175118, 167580, 196099] - only 4 tokens 💪🏻
 ```
@@ -99,8 +99,6 @@ Acknowledgement: evaluation results provided by [@Sofetory](https://huggingface.
 - [tokenizer.json](tokenizer.json): Byte‐level tokenizer spec (vocab, merges, model settings).
-- [tokenizer_utf8.json](tokenizer_utf8.json): Human-readable dump: UTF-8-decoded sub-tokens and merge rules, for corpus-linguistic inspection.
 - [malyuk_qirim_tokenizer.json](malyuk_qirim_tokenizer.json): Gemma-3-style tokenizer trained on 3 mln Malyuk Ukrainian corpus plus Cyrillic QIRIM (3x oversampled).
 - [merge_info.json](merge_info.json): Lists the replaced Gemma-3 token IDs and the IDs of the added Malyuk tokens in [malyuk_qirim_tokenizer](malyuk_qirim_tokenizer.json).

     "transhumanist-already-exists/tereshchenkoblue-tokenizer"
 )
 toks = tokenizer("Всі красиві зберігають оптимізм", add_special_tokens=False)
+print(len(toks.input_ids)) - only 4 tokens 💪🏻
 ```
 - [tokenizer.json](tokenizer.json): Byte‐level tokenizer spec (vocab, merges, model settings).
 - [malyuk_qirim_tokenizer.json](malyuk_qirim_tokenizer.json): Gemma-3-style tokenizer trained on 3 mln Malyuk Ukrainian corpus plus Cyrillic QIRIM (3x oversampled).
 - [merge_info.json](merge_info.json): Lists the replaced Gemma-3 token IDs and the IDs of the added Malyuk tokens in [malyuk_qirim_tokenizer](malyuk_qirim_tokenizer.json).