刘文豪
AI Algorithm Engineer · Embodied AI · Multimodal Perception
把具身智能、多模态模型和视觉感知落到真实任务里。
上海工程技术大学电子信息硕士,研究方向聚焦 VLA/具身智能系统、轻量化语义分割、多尺度特征建模与工业视觉感知。我更关注模型结构、数据闭环和工程落地之间的连接。
2
第一作者科研工作
76+
CodeLab_LLM GitHub Stars
Top 8
RoboChallenge ICRA 2026
99.7%
图像质量分类测试准确率
Research Focus
研究方向
具身智能与 VLA
视觉-语言-动作建模、遥操作数据采集、指令到动作序列决策,以及真实系统联调。
多模态大模型
图文联合推理、视觉 token 融合、MoE/LoRA 训练推理闭环,以及 LLM 情绪到 TTS 控制链路。
视觉感知算法
裂缝分割、轻量化语义分割、旋转检测、人体分割与工业场景数据闭环。
Selected Work
精选成果
Embodied AI · Video Demo
LeRobot pi0.5 + SO-101:双任务机械臂操作
基于 LeRobot 与 pi0.5 策略框架,在 SO-101 机械臂上完成叠毛巾与清理桌面两个真实桌面操作任务,验证从数据采集、策略学习到实体执行的闭环。
2 Real Tasks
SO-101 Arm
LeRobot / pi0.5
叠毛巾
清理桌面
Experience
工程经历
商汤科技 SenseTime · 算法实习生
参与具身智能无人零售系统、图像质量分类、人体分割数据生成引擎和商品货架旋转检测优化,覆盖数据构建、模型训练、推理评估到系统联调。
首形科技 · 具身智能算法实习生
研发多模态情感交互系统,基于 Qwen3 微调、情感提示词体系和 LLM 到 TTS 的情绪向量控制链路完成工程落地。