Чем я хуже лошади
Курю на красной площади
Тощий, как береза в роще
Варю щи
Сейчас в дрищи
Ищу пищу
Пищи как мышка
Кури шишку

(с) блев мс 2007

deGenerate Pretrained Transformer - пишем текста как группа Kunteynir

Not For Any Audiences!!! // Не для использования за пределами ЛЛМ-андерграунда!!!

православный GGUF здесь: https://huggingface.co/screamuch/kunteynir-lyrics-ruadapt_llama2_7b-gguf

что это

ллама2 русская (rccmsu/ruadapt_llama2_7b_v0.1) натренированная на текстах группы kunteynir.

как это получилось

текста взял с circa. 2001 ("дыпел плеет - 6 метров") по circa. 2015 ("меняю СР на коран", "гусь (feat. Feduk)"). около 300кб текста.

датасет сначала собрал с гениуса (полноценные релизы), потом прогнал через openai/whisper-large-v3 неизданное (1 и 2) и еще кучу рандомных нерелизнутых/полурелизнутых треков, которые нашел у себя в плейлисте. потомь сгенерировал описания для каждого куплета через crestf411/daybreak-kunoichi-2dpo-7b-gguf.

промпты для генерации описания:

Q: {куплет}

A: Одной строкой, этот куплет про 

и/или

Q: {куплет}

A: Одной строкой, ключевые слова в этом тексте включают в себя "

тренировал на 2999 шагах на кастомном датасете текстов и их описаний, лосс после 900 колебался ниже 0.02

часов 8 ушло на все это дело на Т4 с kaggle, изи катка. инференс гонял на A6000 арендованном (быстрее), там же собрал православный gguf.

как это использовать

работает на кагле с 29гб RAM и 15гб VRAM (T4)

загрузить модель:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

if torch.cuda.is_available():
    device = torch.device("cuda")
    print("Using GPU:", torch.cuda.get_device_name(0))

    model = AutoModelForCausalLM.from_pretrained("screamuch/kunteynir-lyrics-ruadapt_llama2_7b")
    tokenizer = AutoTokenizer.from_pretrained("screamuch/kunteynir-lyrics-ruadapt_llama2_7b")

    model = model.half()  # вот это важно почему-то, я хз

    model.to(device)

написать текста:

input_text = """### Input:

Напиши куплет в стиле Паши Техника про шепчащийся человека, который закончил работу в больнице и хочет делиться своим вечерним опытом на пути до дома, где он направляется в кабинет уролога по талону и сталкивается с разными сценaми, включая спящую пациентку и неповиновение требованию снять куртку Stone Island и пойти на третий этаж в лабораторию. Автор использует юмор и игру слов на тему медицины и ходжефукса во время этого рассказа.

### Response:
"""
input_ids = tokenizer.encode(input_text, return_tensors="pt")

input_ids = input_ids.to(device)

output_ids = model.generate(input_ids, max_length=500, num_beams=2, early_stopping=True)

generated_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(generated_text)

советы:

  • чем более отбитый и странный промпт, тем угарнее получается результат. тот же дейбрейк-куноичи отлично справится с генерацией какой-нибудь ереси вроде невежливых и более грязных ключевых слов
  • промпт надо писать такой: Напиши куплет в стиле Паши Техника/Кальмара/Максима Синицына/Блева про {скелет повествования}. {список каких-то ключевых слов}., для более качественного ответа

пример

самый адекватный для публикации и качественный какой смог найти

### Input:

Напиши куплет в стиле Паши Техника про лысого человека, который ищет шишки, а также упоминает Джунгли (возможно, название места или группы), Маугли Багира и Иру в связке с второй ночью, во время которой они веселятся с чипсами и сыром. Автор также находится в атмосфере дыма от трубы и пива.

### Response:
О чём говорим, о чём пишем
Лысый, не тупи, доставай шиши
Извини, это все, что я могу сказать
Слышь, Юру, Иру, держи его за яйца
Вторую ночь под порохом ебашим
Чипсы с сыром, это всегда круто
Под дымом куря опиум, пиво выкуриваю
Напоминаю, что ты был с нами в Джунглях
Мы тебя не забыли
В лесу были мы, Маугли и Багира
Наш дом утек в океан
Давно не видел набухший хуй
Но сейчас у меня бомба в кармане
И свет, и газ

### End:

пишите

если вдруг используете в творчестве, я с удовольствием поору с ваших треков или что вы там еще сделаете с этим. я гуглюсь по имени этого аккаунта, ну или по лс здесь.

Downloads last month
3
Safetensors
Model size
7B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support