Чем я хуже лошади
Курю на красной площади
Тощий, как береза в роще
Варю щи
Сейчас в дрищи
Ищу пищу
Пищи как мышка
Кури шишку
(с) блев мс 2007
deGenerate Pretrained Transformer - пишем текста как группа Kunteynir
Not For Any Audiences!!! // Не для использования за пределами ЛЛМ-андерграунда!!!
православный GGUF здесь: https://huggingface.co/screamuch/kunteynir-lyrics-ruadapt_llama2_7b-gguf
что это
ллама2 русская (rccmsu/ruadapt_llama2_7b_v0.1) натренированная на текстах группы kunteynir.
как это получилось
текста взял с circa. 2001 ("дыпел плеет - 6 метров") по circa. 2015 ("меняю СР на коран", "гусь (feat. Feduk)"). около 300кб текста.
датасет сначала собрал с гениуса (полноценные релизы), потом прогнал через openai/whisper-large-v3 неизданное (1 и 2) и еще кучу рандомных нерелизнутых/полурелизнутых треков, которые нашел у себя в плейлисте. потомь сгенерировал описания для каждого куплета через crestf411/daybreak-kunoichi-2dpo-7b-gguf.
промпты для генерации описания:
Q: {куплет}
A: Одной строкой, этот куплет про
и/или
Q: {куплет}
A: Одной строкой, ключевые слова в этом тексте включают в себя "
тренировал на 2999 шагах на кастомном датасете текстов и их описаний, лосс после 900 колебался ниже 0.02
часов 8 ушло на все это дело на Т4 с kaggle, изи катка. инференс гонял на A6000 арендованном (быстрее), там же собрал православный gguf.
как это использовать
работает на кагле с 29гб RAM и 15гб VRAM (T4)
загрузить модель:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
if torch.cuda.is_available():
device = torch.device("cuda")
print("Using GPU:", torch.cuda.get_device_name(0))
model = AutoModelForCausalLM.from_pretrained("screamuch/kunteynir-lyrics-ruadapt_llama2_7b")
tokenizer = AutoTokenizer.from_pretrained("screamuch/kunteynir-lyrics-ruadapt_llama2_7b")
model = model.half() # вот это важно почему-то, я хз
model.to(device)
написать текста:
input_text = """### Input:
Напиши куплет в стиле Паши Техника про шепчащийся человека, который закончил работу в больнице и хочет делиться своим вечерним опытом на пути до дома, где он направляется в кабинет уролога по талону и сталкивается с разными сценaми, включая спящую пациентку и неповиновение требованию снять куртку Stone Island и пойти на третий этаж в лабораторию. Автор использует юмор и игру слов на тему медицины и ходжефукса во время этого рассказа.
### Response:
"""
input_ids = tokenizer.encode(input_text, return_tensors="pt")
input_ids = input_ids.to(device)
output_ids = model.generate(input_ids, max_length=500, num_beams=2, early_stopping=True)
generated_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(generated_text)
советы:
- чем более отбитый и странный промпт, тем угарнее получается результат. тот же дейбрейк-куноичи отлично справится с генерацией какой-нибудь ереси вроде невежливых и более грязных ключевых слов
- промпт надо писать такой: Напиши куплет в стиле Паши Техника/Кальмара/Максима Синицына/Блева про {скелет повествования}. {список каких-то ключевых слов}., для более качественного ответа
пример
самый адекватный для публикации и качественный какой смог найти
### Input:
Напиши куплет в стиле Паши Техника про лысого человека, который ищет шишки, а также упоминает Джунгли (возможно, название места или группы), Маугли Багира и Иру в связке с второй ночью, во время которой они веселятся с чипсами и сыром. Автор также находится в атмосфере дыма от трубы и пива.
### Response:
О чём говорим, о чём пишем
Лысый, не тупи, доставай шиши
Извини, это все, что я могу сказать
Слышь, Юру, Иру, держи его за яйца
Вторую ночь под порохом ебашим
Чипсы с сыром, это всегда круто
Под дымом куря опиум, пиво выкуриваю
Напоминаю, что ты был с нами в Джунглях
Мы тебя не забыли
В лесу были мы, Маугли и Багира
Наш дом утек в океан
Давно не видел набухший хуй
Но сейчас у меня бомба в кармане
И свет, и газ
### End:
пишите
если вдруг используете в творчестве, я с удовольствием поору с ваших треков или что вы там еще сделаете с этим. я гуглюсь по имени этого аккаунта, ну или по лс здесь.
- Downloads last month
- 3