↓ 跳过正文

星语 Vision：自研多模态大模型

2026/05/01·1 分钟·

项目 CLIP VLM LoRA Image-Text

星语 Vision 以图像-文本联合推理为目标，验证从视觉编码、token 融合到文本生成的多模态系统链路。

基于 CLIP 视觉编码器提取图像表征。
实现视觉 token 替换策略，将图像信息融入文本 Transformer 模型。
完成端到端图像-文本推理验证，并支持预训练、SFT 与 LoRA 微调流程。

在线体验：ModelScope。

相关文章