刘文豪

AI Algorithm Engineer · Embodied AI · Multimodal Perception

把具身智能、多模态模型和视觉感知落到真实任务里。

上海工程技术大学电子信息硕士,研究方向聚焦 VLA/具身智能系统、轻量化语义分割、多尺度特征建模与工业视觉感知。我更关注模型结构、数据闭环和工程落地之间的连接。

2 第一作者科研工作
76+ CodeLab_LLM GitHub Stars
Top 8 RoboChallenge ICRA 2026
99.7% 图像质量分类测试准确率

Research Focus

研究方向

具身智能与 VLA

视觉-语言-动作建模、遥操作数据采集、指令到动作序列决策,以及真实系统联调。

多模态大模型

图文联合推理、视觉 token 融合、MoE/LoRA 训练推理闭环,以及 LLM 情绪到 TTS 控制链路。

视觉感知算法

裂缝分割、轻量化语义分割、旋转检测、人体分割与工业场景数据闭环。

Selected Work

精选成果

Embodied AI · Video Demo

LeRobot pi0.5 + SO-101:双任务机械臂操作

基于 LeRobot 与 pi0.5 策略框架,在 SO-101 机械臂上完成叠毛巾与清理桌面两个真实桌面操作任务,验证从数据采集、策略学习到实体执行的闭环。

2 Real Tasks SO-101 Arm LeRobot / pi0.5
叠毛巾
清理桌面
详情

Experience

工程经历

2025.04 - 2025.11

商汤科技 SenseTime · 算法实习生

参与具身智能无人零售系统、图像质量分类、人体分割数据生成引擎和商品货架旋转检测优化,覆盖数据构建、模型训练、推理评估到系统联调。

2025.12 - 2026.01

首形科技 · 具身智能算法实习生

研发多模态情感交互系统,基于 Qwen3 微调、情感提示词体系和 LLM 到 TTS 的情绪向量控制链路完成工程落地。