咨询一下大佬一些关于Z-IMAGE人脸训练的问题

by LawlietDream - opened 4 days ago

关于LORA训练这块我是纯小白，下了大佬您的LORA之后发现自己炼的真的是一坨。。。有一些可能看起来比较基础的问题想要咨询一下大佬。。我目前是做完训练集之后扔RH上面的模型训练（分用不完直接打算用LORA训练耗积分）

目前RH上面能调节的参数就：训练步数，学习率，LORA阶数，模型触发词，还有就是训练集和打标了。我之前第一次接触这个，试了8个不同的脸，训练集有好的也有差的，自然是训练集相对好的质量还可以，但是还是远比不上大佬的。我想要知道训练集一般要到什么精度才够标准，设置多少分辨率，需不需要打标？（因为我之前粗略的看了别人的视频说不打标可以我就没有打标）

还有就是训练集里面的需不需要出现远景，比如半身和全身，我以为这样能增加多样性，但是其实我实际几轮测试下来，还不如全部都是裁切面部的那种人物相似度更好一些

我试过大佬的人脸模型，直接用的ZIT生图，直接加LORA对比不加LORA，对于画面的“污染”相对比较小，我想知道这个是和我没有打标有关系，还是说我都是用ZIT炼的有关系，如果我切换ZI训练模型，会不会改善很多？有人脸训练到底有没有必要打标，一些相关的参数如何设置会更加合适一点？

ifmylove2011

Owner 3 days ago

关于LORA训练这块我是纯小白，下了大佬您的LORA之后发现自己炼的真的是一坨。。。有一些可能看起来比较基础的问题想要咨询一下大佬。。我目前是做完训练集之后扔RH上面的模型训练（分用不完直接打算用LORA训练耗积分）

目前RH上面能调节的参数就：训练步数，学习率，LORA阶数，模型触发词，还有就是训练集和打标了。我之前第一次接触这个，试了8个不同的脸，训练集有好的也有差的，自然是训练集相对好的质量还可以，但是还是远比不上大佬的。我想要知道训练集一般要到什么精度才够标准，设置多少分辨率，需不需要打标？（因为我之前粗略的看了别人的视频说不打标可以我就没有打标）

还有就是训练集里面的需不需要出现远景，比如半身和全身，我以为这样能增加多样性，但是其实我实际几轮测试下来，还不如全部都是裁切面部的那种人物相似度更好一些

我试过大佬的人脸模型，直接用的ZIT生图，直接加LORA对比不加LORA，对于画面的“污染”相对比较小，我想知道这个是和我没有打标有关系，还是说我都是用ZIT炼的有关系，如果我切换ZI训练模型，会不会改善很多？有人脸训练到底有没有必要打标，一些相关的参数如何设置会更加合适一点？

训练集质量很重要，图片要尽量高清，就人物图片而言，要以能看到皮肤细节质感为最终目标，分辨率要尽量大，如果有条件，可以先用seedvr2等高清放大工具将图片放大到2K以上，这样训练时被缩放为1024分辨率(zimage的最佳训练率为1024*1024，训练器会自动分桶缩放训练集中的图片）后细节就是足够的；
图片数量30张左右就足够，就zimage而言是需要远景的，也就是全身照，因为zimage模型本身出人物全身图时，脸部仍然是较为清晰的，所以远景素材是有用的（当然这并不能增加多样性，这实质上还是在增加远景中人脸的相对准确性），以前面30张图为例的话，全身照有3到5张就够了，其他仍然以半身照和肖像为主；

打标还是需要的，虽然zimage得益于挂载qwen-4b模型有着较强的图义理解能力，能大致理解图片内容，但为了快速解耦概念，以及为了避免与模型本身的一些概念混淆，还是打标为好，尤其是训练集的图片中明显存在相对生僻的概念时——比如少见的发型妆容、少见的肢体动作......等等；
可以用qwen的大语言模型反推图片，然后再手动修改输出结果中不正确的内容，以此最大程度减小lora带来的“污染”；
更进一步是抠图+打标，相当于把背景的影响也去掉了；

用ZIT作为基底训练，本身就是比ZI(base)模型更容易过拟合，体现出来也就是更容易被“污染”，这个特性跟打不打标关系不大，是zit模型本身被蒸馏过的缘故，可以说是正常现象，这个仓库里前期上传的以zit为基底训练的lora其实也有类似问题，这个我在仓库说明中有提到过；
RH的在线zit lora训练我没使用过不太清楚，看样子有可能是用的ai-tookit的训练器，不过不知道其后台是使用的deturbo方案还是适配器方案，我之前个人的体验是适配器方案效果比较好，参数倒是不用过多设置，默认的就行；
这个仓库中前期的zit lora几乎都是用musubi-tuner训练，后来至今的zi lokr则是用OneTrainer的一个分支训练完成的，基于zi训练的lora/lokr的多兼容性明显好得多，但OneTrainer对于初学者而言可能相对麻烦很多。

综上而言，如果用zit训练的效果都不佳，大概还是训练集本身的问题，转用zi大概会让问题更严重，因此可以先优化训练集试试。

sylerbhchen

2 days ago

关于LORA训练这块我是纯小白，下了大佬您的LORA之后发现自己炼的真的是一坨。。。有一些可能看起来比较基础的问题想要咨询一下大佬。。我目前是做完训练集之后扔RH上面的模型训练（分用不完直接打算用LORA训练耗积分）

目前RH上面能调节的参数就：训练步数，学习率，LORA阶数，模型触发词，还有就是训练集和打标了。我之前第一次接触这个，试了8个不同的脸，训练集有好的也有差的，自然是训练集相对好的质量还可以，但是还是远比不上大佬的。我想要知道训练集一般要到什么精度才够标准，设置多少分辨率，需不需要打标？（因为我之前粗略的看了别人的视频说不打标可以我就没有打标）

还有就是训练集里面的需不需要出现远景，比如半身和全身，我以为这样能增加多样性，但是其实我实际几轮测试下来，还不如全部都是裁切面部的那种人物相似度更好一些

我试过大佬的人脸模型，直接用的ZIT生图，直接加LORA对比不加LORA，对于画面的“污染”相对比较小，我想知道这个是和我没有打标有关系，还是说我都是用ZIT炼的有关系，如果我切换ZI训练模型，会不会改善很多？有人脸训练到底有没有必要打标，一些相关的参数如何设置会更加合适一点？

训练集质量很重要，图片要尽量高清，就人物图片而言，要以能看到皮肤细节质感为最终目标，分辨率要尽量大，如果有条件，可以先用seedvr2等高清放大工具将图片放大到2K以上，这样训练时被缩放为1024分辨率(zimage的最佳训练率为1024*1024，训练器会自动分桶缩放训练集中的图片）后细节就是足够的；
图片数量30张左右就足够，就zimage而言是需要远景的，也就是全身照，因为zimage模型本身出人物全身图时，脸部仍然是较为清晰的，所以远景素材是有用的（当然这并不能增加多样性，这实质上还是在增加远景中人脸的相对准确性），以前面30张图为例的话，全身照有3到5张就够了，其他仍然以半身照和肖像为主；

打标还是需要的，虽然zimage得益于挂载qwen-4b模型有着较强的图义理解能力，能大致理解图片内容，但为了快速解耦概念，以及为了避免与模型本身的一些概念混淆，还是打标为好，尤其是训练集的图片中明显存在相对生僻的概念时——比如少见的发型妆容、少见的肢体动作......等等；
可以用qwen的大语言模型反推图片，然后再手动修改输出结果中不正确的内容，以此最大程度减小lora带来的“污染”；
更进一步是抠图+打标，相当于把背景的影响也去掉了；

用ZIT作为基底训练，本身就是比ZI(base)模型更容易过拟合，体现出来也就是更容易被“污染”，这个特性跟打不打标关系不大，是zit模型本身被蒸馏过的缘故，可以说是正常现象，这个仓库里前期上传的以zit为基底训练的lora其实也有类似问题，这个我在仓库说明中有提到过；
RH的在线zit lora训练我没使用过不太清楚，看样子有可能是用的ai-tookit的训练器，不过不知道其后台是使用的deturbo方案还是适配器方案，我之前个人的体验是适配器方案效果比较好，参数倒是不用过多设置，默认的就行；
这个仓库中前期的zit lora几乎都是用musubi-tuner训练，后来至今的zi lokr则是用OneTrainer的一个分支训练完成的，基于zi训练的lora/lokr的多兼容性明显好得多，但OneTrainer对于初学者而言可能相对麻烦很多。

综上而言，如果用zit训练的效果都不佳，大概还是训练集本身的问题，转用zi大概会让问题更严重，因此可以先优化训练集试试。

很有感触，练一些老的人物时候，原素材能有72已经算高清了。放大后的效果也怪怪的

ifmylove2011 changed discussion status to closed 2 days ago

LawlietDream

2 days ago

关于LORA训练这块我是纯小白，下了大佬您的LORA之后发现自己炼的真的是一坨。。。有一些可能看起来比较基础的问题想要咨询一下大佬。。我目前是做完训练集之后扔RH上面的模型训练（分用不完直接打算用LORA训练耗积分）

目前RH上面能调节的参数就：训练步数，学习率，LORA阶数，模型触发词，还有就是训练集和打标了。我之前第一次接触这个，试了8个不同的脸，训练集有好的也有差的，自然是训练集相对好的质量还可以，但是还是远比不上大佬的。我想要知道训练集一般要到什么精度才够标准，设置多少分辨率，需不需要打标？（因为我之前粗略的看了别人的视频说不打标可以我就没有打标）

还有就是训练集里面的需不需要出现远景，比如半身和全身，我以为这样能增加多样性，但是其实我实际几轮测试下来，还不如全部都是裁切面部的那种人物相似度更好一些

我试过大佬的人脸模型，直接用的ZIT生图，直接加LORA对比不加LORA，对于画面的“污染”相对比较小，我想知道这个是和我没有打标有关系，还是说我都是用ZIT炼的有关系，如果我切换ZI训练模型，会不会改善很多？有人脸训练到底有没有必要打标，一些相关的参数如何设置会更加合适一点？

训练集质量很重要，图片要尽量高清，就人物图片而言，要以能看到皮肤细节质感为最终目标，分辨率要尽量大，如果有条件，可以先用seedvr2等高清放大工具将图片放大到2K以上，这样训练时被缩放为1024分辨率(zimage的最佳训练率为1024*1024，训练器会自动分桶缩放训练集中的图片）后细节就是足够的；
图片数量30张左右就足够，就zimage而言是需要远景的，也就是全身照，因为zimage模型本身出人物全身图时，脸部仍然是较为清晰的，所以远景素材是有用的（当然这并不能增加多样性，这实质上还是在增加远景中人脸的相对准确性），以前面30张图为例的话，全身照有3到5张就够了，其他仍然以半身照和肖像为主；

打标还是需要的，虽然zimage得益于挂载qwen-4b模型有着较强的图义理解能力，能大致理解图片内容，但为了快速解耦概念，以及为了避免与模型本身的一些概念混淆，还是打标为好，尤其是训练集的图片中明显存在相对生僻的概念时——比如少见的发型妆容、少见的肢体动作......等等；
可以用qwen的大语言模型反推图片，然后再手动修改输出结果中不正确的内容，以此最大程度减小lora带来的“污染”；
更进一步是抠图+打标，相当于把背景的影响也去掉了；

用ZIT作为基底训练，本身就是比ZI(base)模型更容易过拟合，体现出来也就是更容易被“污染”，这个特性跟打不打标关系不大，是zit模型本身被蒸馏过的缘故，可以说是正常现象，这个仓库里前期上传的以zit为基底训练的lora其实也有类似问题，这个我在仓库说明中有提到过；
RH的在线zit lora训练我没使用过不太清楚，看样子有可能是用的ai-tookit的训练器，不过不知道其后台是使用的deturbo方案还是适配器方案，我之前个人的体验是适配器方案效果比较好，参数倒是不用过多设置，默认的就行；
这个仓库中前期的zit lora几乎都是用musubi-tuner训练，后来至今的zi lokr则是用OneTrainer的一个分支训练完成的，基于zi训练的lora/lokr的多兼容性明显好得多，但OneTrainer对于初学者而言可能相对麻烦很多。

综上而言，如果用zit训练的效果都不佳，大概还是训练集本身的问题，转用zi大概会让问题更严重，因此可以先优化训练集试试。

感谢大佬的耐心细致的回复，收益很多。。现在在保持一致性的同时增近高清的方案多了很多，打算配合KLEIN和SDVR2先把训练集再优化一下，然后再研究一下打标的事情。

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment