CyberSpark2-3b-cabin-lora-v2 Qwen2.5-VL-3B-Instruct-LoRA (轻量级适配器版)

这是座舱垂域微调任务的 LoRA (Low-Rank Adaptation) 权重文件。它本身不是完整的模型,而是针对舱内小孩宠物识别、情绪识别等场景训练的轻量级补丁。优势在于即插即用,你可以将其动态加载到基础的 Qwen2.5-VL-3B-Instruct 模型上,实现座舱场景的快速切换,而无需替换整个庞大的基座模型。

特性

  • 多模态:支持图像 + 文本输入,结合座舱场景提示词。
  • 中文优化:针对中文座舱交互进行了有监督微调(SFT)。
  • 动作标签:输出同时包含自然语言与结构化标签/操作串,便于集成到车机控制逻辑。

适用场景

  • 座舱情绪识别与安抚,联动灯光、音乐等舒适性功能。
  • 驾驶分心行为识别并提醒,如打电话、抽烟、打瞌睡等。
  • 儿童安全带佩戴检测并提示。

输入输出格式(推荐)

采用 ChatML 风格消息结构,结合 <image> 标记与操作串:

  • 输入:messages 列表 + images 列表(图像路径或 PIL.Image)。
  • 输出:自然语言 + 结构化操作串,例如:<|SPEECH_END|> playOperation|PAUSE| ...<|TAG|> phone_left_hand

示例提示词

情绪安抚与功能推荐

{
  "messages": [
    {"role": "system", "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech."},
    {"role": "user", "content": "<image>你现在是一个优秀的汽车座舱智能语音助手,你可以通过输入图片信息做出对应的回答和功能推荐。如果识别到了用户有开心、悲伤、愤怒、平静等情绪,可以安抚并给出功能推荐。"}
  ],
  "images": ["/data/LLM-SFT/datasets/face_emotion_dataset_0429/images/3675.jpg"]
}

期望输出示例:

我帮您保持柔和的中性色灯光,播放了一首安静的背景乐 <|SPEECH_END|> enableAmbientLight|true| setAmbientLightMode|3| playOperation|PLAY|tag|neutral|

分心行为提醒

{
  "messages": [
    {"role": "system", "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech."},
    {"role": "user", "content": "<image>你现在是一个优秀的汽车座舱智能语音助手,你可以通过输入图片信息做出对应的回答和功能推荐。\n如果识别到了用户在吸烟、打瞌睡、接打电话等行为,可以做出提醒并给出功能推荐。"}
  ],
  "images": ["/data/DMS_CV/datasets/state-farm-distracted-driver-detection/imgs/val/c4/img_22127.jpg"]
}

期望输出示例:

您正在打电话,我帮您把车内音乐调低了,请专心驾驶 <|SPEECH_END|> playOperation|PAUSE| setMediaVolume|6| setMute|true| <|TAG|> phone_left_hand

儿童安全带佩戴检测

{
  "messages": [
    {"role": "system", "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech."},
    {"role": "user", "content": "<image>你现在是一个优秀的汽车座舱智能语音助手,你可以通过输入图片信息做出对应的回答和功能推荐。看下是儿童是否正确佩戴安全带,若没有,请提醒用户。"}
  ],
  "images": ["/data/LLM-SFT/datasets/safetyBelt/correct-wear/0701_00027_ (137).png"]
}

期望输出示例:

检测到儿童已正确佩戴安全带 <|SPEECH_END|> tag|correct-wear|

Python 用法 (LoRA 挂载)

此版本为 LoRA 权重,需要结合 PEFT 库与基础模型使用:

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

base_model_id = "Qwen/Qwen2.5-VL-3B-Instruct"
lora_repo_id = "XAILab-CyberSpark/CyberSpark2-3b-cabin-lora-v2"

model = AutoModelForCausalLM.from_pretrained(base_model_id, trust_remote_code=True, device_map="auto")
model = PeftModel.from_pretrained(model, lora_repo_id)
# 之后的推理步骤与原版一致

文件说明

  • model-00001/00002.safetensorsmodel.safetensors.index.json:权重与索引。
  • config.jsongeneration_config.json:模型与推理配置。
  • tokenizer.json/tokenizer_config.json/merges.txt/vocab.json:分词器相关。
  • chat_template.jinja:对话模板,建议通过 apply_chat_template 使用。
  • preprocessor_config.jsonvideo_preprocessor_config.json:多模态预处理配置。

资源需求

  • 需要先下载基座模型 Qwen/Qwen2.5-VL-3B-Instruct,然后在推理框架(如 PEFT 或 vLLM)中动态挂载此 LoRA 权重。

许可与致谢

  • 基于 Qwen2.5-VL-3B-Instruct,请遵循其上游许可与使用约束。
  • 模型仅用于研究与演示目的,集成车机需进行充足的安全评估与验证。

局限与注意事项

  • 图像识别结果可能受光线、遮挡、角度影响。
  • 结构化操作串需与实际车机能力映射,避免越权或误操作。
  • 在真实驾驶环境中使用前,应进行全面测试并设置安全阈值与回退策略。
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support