CyberSpark2-3b-cabin-lora-v2 Qwen2.5-VL-3B-Instruct-LoRA (轻量级适配器版)

这是座舱垂域微调任务的 LoRA (Low-Rank Adaptation) 权重文件。它本身不是完整的模型，而是针对舱内小孩宠物识别、情绪识别等场景训练的轻量级补丁。优势在于即插即用，你可以将其动态加载到基础的 Qwen2.5-VL-3B-Instruct 模型上，实现座舱场景的快速切换，而无需替换整个庞大的基座模型。

特性

多模态：支持图像 + 文本输入，结合座舱场景提示词。
中文优化：针对中文座舱交互进行了有监督微调（SFT）。
动作标签：输出同时包含自然语言与结构化标签/操作串，便于集成到车机控制逻辑。

适用场景

座舱情绪识别与安抚，联动灯光、音乐等舒适性功能。
驾驶分心行为识别并提醒，如打电话、抽烟、打瞌睡等。
儿童安全带佩戴检测并提示。

输入输出格式（推荐）

采用 ChatML 风格消息结构，结合 <image> 标记与操作串：

输入：messages 列表 + images 列表（图像路径或 PIL.Image）。
输出：自然语言 + 结构化操作串，例如：<|SPEECH_END|> playOperation|PAUSE| ... 或 <|TAG|> phone_left_hand。

示例提示词

情绪安抚与功能推荐

{
  "messages": [
    {"role": "system", "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech."},
    {"role": "user", "content": "<image>你现在是一个优秀的汽车座舱智能语音助手，你可以通过输入图片信息做出对应的回答和功能推荐。如果识别到了用户有开心、悲伤、愤怒、平静等情绪，可以安抚并给出功能推荐。"}
  ],
  "images": ["/data/LLM-SFT/datasets/face_emotion_dataset_0429/images/3675.jpg"]
}

期望输出示例：

我帮您保持柔和的中性色灯光，播放了一首安静的背景乐 <|SPEECH_END|> enableAmbientLight|true| setAmbientLightMode|3| playOperation|PLAY|tag|neutral|

分心行为提醒

{
  "messages": [
    {"role": "system", "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech."},
    {"role": "user", "content": "<image>你现在是一个优秀的汽车座舱智能语音助手，你可以通过输入图片信息做出对应的回答和功能推荐。\n如果识别到了用户在吸烟、打瞌睡、接打电话等行为，可以做出提醒并给出功能推荐。"}
  ],
  "images": ["/data/DMS_CV/datasets/state-farm-distracted-driver-detection/imgs/val/c4/img_22127.jpg"]
}

期望输出示例：

您正在打电话，我帮您把车内音乐调低了，请专心驾驶 <|SPEECH_END|> playOperation|PAUSE| setMediaVolume|6| setMute|true| <|TAG|> phone_left_hand

儿童安全带佩戴检测

{
  "messages": [
    {"role": "system", "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech."},
    {"role": "user", "content": "<image>你现在是一个优秀的汽车座舱智能语音助手，你可以通过输入图片信息做出对应的回答和功能推荐。看下是儿童是否正确佩戴安全带，若没有，请提醒用户。"}
  ],
  "images": ["/data/LLM-SFT/datasets/safetyBelt/correct-wear/0701_00027_ (137).png"]
}

期望输出示例：

检测到儿童已正确佩戴安全带 <|SPEECH_END|> tag|correct-wear|

Python 用法 (LoRA 挂载)

此版本为 LoRA 权重，需要结合 PEFT 库与基础模型使用：

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

base_model_id = "Qwen/Qwen2.5-VL-3B-Instruct"
lora_repo_id = "XAILab-CyberSpark/CyberSpark2-3b-cabin-lora-v2"

model = AutoModelForCausalLM.from_pretrained(base_model_id, trust_remote_code=True, device_map="auto")
model = PeftModel.from_pretrained(model, lora_repo_id)
# 之后的推理步骤与原版一致

文件说明

model-00001/00002.safetensors 与 model.safetensors.index.json：权重与索引。
config.json、generation_config.json：模型与推理配置。
tokenizer.json/tokenizer_config.json/merges.txt/vocab.json：分词器相关。
chat_template.jinja：对话模板，建议通过 apply_chat_template 使用。
preprocessor_config.json、video_preprocessor_config.json：多模态预处理配置。

资源需求

需要先下载基座模型 Qwen/Qwen2.5-VL-3B-Instruct，然后在推理框架（如 PEFT 或 vLLM）中动态挂载此 LoRA 权重。

许可与致谢

基于 Qwen2.5-VL-3B-Instruct，请遵循其上游许可与使用约束。
模型仅用于研究与演示目的，集成车机需进行充足的安全评估与验证。

局限与注意事项

图像识别结果可能受光线、遮挡、角度影响。
结构化操作串需与实际车机能力映射，避免越权或误操作。
在真实驾驶环境中使用前，应进行全面测试并设置安全阈值与回退策略。

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

Image-Text-to-Text

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support