咨询一下大佬一些关于Z-IMAGE人脸训练的问题

#5
by LawlietDream - opened

关于LORA训练这块我是纯小白,下了大佬您的LORA之后发现自己炼的真的是一坨。。。有一些可能看起来比较基础的问题想要咨询一下大佬。。我目前是做完训练集之后扔RH上面的模型训练(分用不完直接打算用LORA训练耗积分)

目前RH上面能调节的参数就:训练步数,学习率,LORA阶数,模型触发词,还有就是训练集和打标了。我之前第一次接触这个,试了8个不同的脸,训练集有好的也有差的,自然是训练集相对好的质量还可以,但是还是远比不上大佬的。我想要知道训练集一般要到什么精度才够标准,设置多少分辨率,需不需要打标?(因为我之前粗略的看了别人的视频说不打标可以我就没有打标)

还有就是训练集里面的需不需要出现远景,比如半身和全身,我以为这样能增加多样性,但是其实我实际几轮测试下来,还不如全部都是裁切面部的那种人物相似度更好一些

我试过大佬的人脸模型,直接用的ZIT生图,直接加LORA对比不加LORA,对于画面的“污染”相对比较小,我想知道这个是和我没有打标有关系,还是说我都是用ZIT炼的有关系,如果我切换ZI训练模型,会不会改善很多?有人脸训练到底有没有必要打标,一些相关的参数如何设置会更加合适一点?

关于LORA训练这块我是纯小白,下了大佬您的LORA之后发现自己炼的真的是一坨。。。有一些可能看起来比较基础的问题想要咨询一下大佬。。我目前是做完训练集之后扔RH上面的模型训练(分用不完直接打算用LORA训练耗积分)

目前RH上面能调节的参数就:训练步数,学习率,LORA阶数,模型触发词,还有就是训练集和打标了。我之前第一次接触这个,试了8个不同的脸,训练集有好的也有差的,自然是训练集相对好的质量还可以,但是还是远比不上大佬的。我想要知道训练集一般要到什么精度才够标准,设置多少分辨率,需不需要打标?(因为我之前粗略的看了别人的视频说不打标可以我就没有打标)

还有就是训练集里面的需不需要出现远景,比如半身和全身,我以为这样能增加多样性,但是其实我实际几轮测试下来,还不如全部都是裁切面部的那种人物相似度更好一些

我试过大佬的人脸模型,直接用的ZIT生图,直接加LORA对比不加LORA,对于画面的“污染”相对比较小,我想知道这个是和我没有打标有关系,还是说我都是用ZIT炼的有关系,如果我切换ZI训练模型,会不会改善很多?有人脸训练到底有没有必要打标,一些相关的参数如何设置会更加合适一点?

训练集质量很重要,图片要尽量高清,就人物图片而言,要以能看到皮肤细节质感为最终目标,分辨率要尽量大,如果有条件,可以先用seedvr2等高清放大工具将图片放大到2K以上,这样训练时被缩放为1024分辨率(zimage的最佳训练率为1024*1024,训练器会自动分桶缩放训练集中的图片)后细节就是足够的;
图片数量30张左右就足够,就zimage而言是需要远景的,也就是全身照,因为zimage模型本身出人物全身图时,脸部仍然是较为清晰的,所以远景素材是有用的(当然这并不能增加多样性,这实质上还是在增加远景中人脸的相对准确性),以前面30张图为例的话,全身照有3到5张就够了,其他仍然以半身照和肖像为主;

打标还是需要的,虽然zimage得益于挂载qwen-4b模型有着较强的图义理解能力,能大致理解图片内容,但为了快速解耦概念,以及为了避免与模型本身的一些概念混淆,还是打标为好,尤其是训练集的图片中明显存在相对生僻的概念时——比如少见的发型妆容、少见的肢体动作......等等;
可以用qwen的大语言模型反推图片,然后再手动修改输出结果中不正确的内容,以此最大程度减小lora带来的“污染”;
更进一步是抠图+打标,相当于把背景的影响也去掉了;

用ZIT作为基底训练,本身就是比ZI(base)模型更容易过拟合,体现出来也就是更容易被“污染”,这个特性跟打不打标关系不大,是zit模型本身被蒸馏过的缘故,可以说是正常现象,这个仓库里前期上传的以zit为基底训练的lora其实也有类似问题,这个我在仓库说明中有提到过;
RH的在线zit lora训练我没使用过不太清楚,看样子有可能是用的ai-tookit的训练器,不过不知道其后台是使用的deturbo方案还是适配器方案,我之前个人的体验是适配器方案效果比较好,参数倒是不用过多设置,默认的就行;
这个仓库中前期的zit lora几乎都是用musubi-tuner训练,后来至今的zi lokr则是用OneTrainer的一个分支训练完成的,基于zi训练的lora/lokr的多兼容性明显好得多,但OneTrainer对于初学者而言可能相对麻烦很多。

综上而言,如果用zit训练的效果都不佳,大概还是训练集本身的问题,转用zi大概会让问题更严重,因此可以先优化训练集试试。

关于LORA训练这块我是纯小白,下了大佬您的LORA之后发现自己炼的真的是一坨。。。有一些可能看起来比较基础的问题想要咨询一下大佬。。我目前是做完训练集之后扔RH上面的模型训练(分用不完直接打算用LORA训练耗积分)

目前RH上面能调节的参数就:训练步数,学习率,LORA阶数,模型触发词,还有就是训练集和打标了。我之前第一次接触这个,试了8个不同的脸,训练集有好的也有差的,自然是训练集相对好的质量还可以,但是还是远比不上大佬的。我想要知道训练集一般要到什么精度才够标准,设置多少分辨率,需不需要打标?(因为我之前粗略的看了别人的视频说不打标可以我就没有打标)

还有就是训练集里面的需不需要出现远景,比如半身和全身,我以为这样能增加多样性,但是其实我实际几轮测试下来,还不如全部都是裁切面部的那种人物相似度更好一些

我试过大佬的人脸模型,直接用的ZIT生图,直接加LORA对比不加LORA,对于画面的“污染”相对比较小,我想知道这个是和我没有打标有关系,还是说我都是用ZIT炼的有关系,如果我切换ZI训练模型,会不会改善很多?有人脸训练到底有没有必要打标,一些相关的参数如何设置会更加合适一点?

训练集质量很重要,图片要尽量高清,就人物图片而言,要以能看到皮肤细节质感为最终目标,分辨率要尽量大,如果有条件,可以先用seedvr2等高清放大工具将图片放大到2K以上,这样训练时被缩放为1024分辨率(zimage的最佳训练率为1024*1024,训练器会自动分桶缩放训练集中的图片)后细节就是足够的;
图片数量30张左右就足够,就zimage而言是需要远景的,也就是全身照,因为zimage模型本身出人物全身图时,脸部仍然是较为清晰的,所以远景素材是有用的(当然这并不能增加多样性,这实质上还是在增加远景中人脸的相对准确性),以前面30张图为例的话,全身照有3到5张就够了,其他仍然以半身照和肖像为主;

打标还是需要的,虽然zimage得益于挂载qwen-4b模型有着较强的图义理解能力,能大致理解图片内容,但为了快速解耦概念,以及为了避免与模型本身的一些概念混淆,还是打标为好,尤其是训练集的图片中明显存在相对生僻的概念时——比如少见的发型妆容、少见的肢体动作......等等;
可以用qwen的大语言模型反推图片,然后再手动修改输出结果中不正确的内容,以此最大程度减小lora带来的“污染”;
更进一步是抠图+打标,相当于把背景的影响也去掉了;

用ZIT作为基底训练,本身就是比ZI(base)模型更容易过拟合,体现出来也就是更容易被“污染”,这个特性跟打不打标关系不大,是zit模型本身被蒸馏过的缘故,可以说是正常现象,这个仓库里前期上传的以zit为基底训练的lora其实也有类似问题,这个我在仓库说明中有提到过;
RH的在线zit lora训练我没使用过不太清楚,看样子有可能是用的ai-tookit的训练器,不过不知道其后台是使用的deturbo方案还是适配器方案,我之前个人的体验是适配器方案效果比较好,参数倒是不用过多设置,默认的就行;
这个仓库中前期的zit lora几乎都是用musubi-tuner训练,后来至今的zi lokr则是用OneTrainer的一个分支训练完成的,基于zi训练的lora/lokr的多兼容性明显好得多,但OneTrainer对于初学者而言可能相对麻烦很多。

综上而言,如果用zit训练的效果都不佳,大概还是训练集本身的问题,转用zi大概会让问题更严重,因此可以先优化训练集试试。

很有感触,练一些老的人物时候,原素材能有72已经算高清了。放大后的效果也怪怪的

ifmylove2011 changed discussion status to closed

关于LORA训练这块我是纯小白,下了大佬您的LORA之后发现自己炼的真的是一坨。。。有一些可能看起来比较基础的问题想要咨询一下大佬。。我目前是做完训练集之后扔RH上面的模型训练(分用不完直接打算用LORA训练耗积分)

目前RH上面能调节的参数就:训练步数,学习率,LORA阶数,模型触发词,还有就是训练集和打标了。我之前第一次接触这个,试了8个不同的脸,训练集有好的也有差的,自然是训练集相对好的质量还可以,但是还是远比不上大佬的。我想要知道训练集一般要到什么精度才够标准,设置多少分辨率,需不需要打标?(因为我之前粗略的看了别人的视频说不打标可以我就没有打标)

还有就是训练集里面的需不需要出现远景,比如半身和全身,我以为这样能增加多样性,但是其实我实际几轮测试下来,还不如全部都是裁切面部的那种人物相似度更好一些

我试过大佬的人脸模型,直接用的ZIT生图,直接加LORA对比不加LORA,对于画面的“污染”相对比较小,我想知道这个是和我没有打标有关系,还是说我都是用ZIT炼的有关系,如果我切换ZI训练模型,会不会改善很多?有人脸训练到底有没有必要打标,一些相关的参数如何设置会更加合适一点?

训练集质量很重要,图片要尽量高清,就人物图片而言,要以能看到皮肤细节质感为最终目标,分辨率要尽量大,如果有条件,可以先用seedvr2等高清放大工具将图片放大到2K以上,这样训练时被缩放为1024分辨率(zimage的最佳训练率为1024*1024,训练器会自动分桶缩放训练集中的图片)后细节就是足够的;
图片数量30张左右就足够,就zimage而言是需要远景的,也就是全身照,因为zimage模型本身出人物全身图时,脸部仍然是较为清晰的,所以远景素材是有用的(当然这并不能增加多样性,这实质上还是在增加远景中人脸的相对准确性),以前面30张图为例的话,全身照有3到5张就够了,其他仍然以半身照和肖像为主;

打标还是需要的,虽然zimage得益于挂载qwen-4b模型有着较强的图义理解能力,能大致理解图片内容,但为了快速解耦概念,以及为了避免与模型本身的一些概念混淆,还是打标为好,尤其是训练集的图片中明显存在相对生僻的概念时——比如少见的发型妆容、少见的肢体动作......等等;
可以用qwen的大语言模型反推图片,然后再手动修改输出结果中不正确的内容,以此最大程度减小lora带来的“污染”;
更进一步是抠图+打标,相当于把背景的影响也去掉了;

用ZIT作为基底训练,本身就是比ZI(base)模型更容易过拟合,体现出来也就是更容易被“污染”,这个特性跟打不打标关系不大,是zit模型本身被蒸馏过的缘故,可以说是正常现象,这个仓库里前期上传的以zit为基底训练的lora其实也有类似问题,这个我在仓库说明中有提到过;
RH的在线zit lora训练我没使用过不太清楚,看样子有可能是用的ai-tookit的训练器,不过不知道其后台是使用的deturbo方案还是适配器方案,我之前个人的体验是适配器方案效果比较好,参数倒是不用过多设置,默认的就行;
这个仓库中前期的zit lora几乎都是用musubi-tuner训练,后来至今的zi lokr则是用OneTrainer的一个分支训练完成的,基于zi训练的lora/lokr的多兼容性明显好得多,但OneTrainer对于初学者而言可能相对麻烦很多。

综上而言,如果用zit训练的效果都不佳,大概还是训练集本身的问题,转用zi大概会让问题更严重,因此可以先优化训练集试试。

感谢大佬的耐心细致的回复,收益很多。。现在在保持一致性的同时增近高清的方案多了很多,打算配合KLEIN和SDVR2先把训练集再优化一下,然后再研究一下打标的事情。

Sign up or log in to comment