星语 Vision:自研多模态大模型

在线体验:ModelScope

星语 Vision 以图像-文本联合推理为目标,验证从视觉编码、token 融合到文本生成的多模态系统链路。

  • 基于 CLIP 视觉编码器提取图像表征。
  • 实现视觉 token 替换策略,将图像信息融入文本 Transformer 模型。
  • 完成端到端图像-文本推理验证,并支持预训练、SFT 与 LoRA 微调流程。
直接链接