北京/上海/苏州：视觉负责人/视觉算法工程师(纯视觉）/感知算法工程师(融合感知）

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

视觉负责人汇报给：COO&CEO
"岗位职责：
1.负责具身智能机器人中的多模态交互算法研发，包括视觉、语言、语音、动作等信号的融合与理解；
2.基于大模型（ LLM / VLM / Audio-LM ），构建机器人“看懂 + 听懂 + 会互动”的能力；
3.研发机器人与人的交互感知能力，如手势识别、视线估计、行为理解、意图预测等；
4.完成多模态模型的训练、微调与端侧部署优化，提升实时性与鲁棒性；
5.跟踪具身智能、大模型、多模态学习前沿技术，推动产品化落地。
职位要求：
1.硕士及以上学历，计算机视觉、人工智能、机器人相关专业；
2.熟悉多模态学习技术（视觉、语言、语音其一），具备 VLM / LLM / Transformer 相关经验；
3.能够完成视觉或多模态感知任务：手势识别、行为理解、Grounding 、场景理解等任一方向；
4.熟练使用 PyTorch / TensorFlow / JAX 等深度学习框架，有模型部署与加速经验优先；
5.理解具身智能或智能体（ Agent ）相关架构，如 VLA 、World Model 、Diffusion Policy 等为加分项；
6.有机器人交互、服务机器人或智能硬件经验者优先。"

视觉算法工程师(纯视觉）汇报给视觉负责人
"岗位职责：
1.负责机器人场景下的 2D/3D 视觉感知算法研发，包括但不限于目标检测、图像分割、深度估计、姿态估计、语义理解等核心算法；
2.研究多模态视觉融合与时空感知算法，提升动态场景下的鲁棒性、深度精度与边缘部署性能；
3.参与从模型训练到端侧推理的全流程开发，包括模型训练、转换、部署以及性能优化（ cuDNN / ONNX / TensorRT ）；
4.结合 IMU 、相机、雷达等传感器数据，实现多视角立体视觉重建（ SFM / MVS ）、BEV 融合、光流估计及视觉里程计算法；
5.跟踪前沿的视觉感知技术与大模型（ VLM 、Diffusion 、AIGC for Vision ）发展趋势，支撑 VLM/端到端项目落地；
6.探索通用视觉表示在具身智能或机器人视觉系统中的应用。
职位要求：
1.硕士及以上学历，计算机视觉、自动化、电子工程、人工智能、应用数学等相关专业；
2.熟悉计算机视觉基础算法与图像处理方法，包括目标检测、语义分割、立体匹配、深度估计等方向；
3.精通至少一种编程语言（ C++ / Python ），熟练掌握主流深度学习框架（ PyTorch / TensorFlow / JAX 等）；
4.熟悉视觉系统的工程化部署流程，具备模型加速、剪枝、蒸馏、量化经验；
5.有以下任一经验者优先：BEV 或多视角立体视觉算法开发、双目/单目深度估计与光流匹配、多模态视觉融合（相机 + IMU / LiDAR ）、视觉里程计 / 视觉惯导融合（ VIO ）
6.具备良好的数学基础，理解计算几何、光学成像、矩阵运算与优化原理；
7.拥有扎实的工程实现能力与科研能力，在 CVPR / ICCV / ECCV / NeurIPS / ICML 等会议或 TPAMI / IJCV / TIP 顶刊发表论文者优先。"

感知算法工程师(融合感知）汇报给视觉负责人
"岗位职责：
1.负责具身智能机器人在真实环境下的多模态感知算法研发与部署，涵盖但不限于：
2.基于 3D 信息的目标检测与跟踪、语义分割、6D 位姿估计、场景理解；多模态融合算法（ RGB/红外图像、LiDAR 点云、深度信息、IMU 、音频等）；场景级别的动态物体检测与人机交互状态识别。
3.参与具身智能机器人“感知-认知-决策-控制”全链条中的感知策略设计与数据闭环优化，将视觉、语言、动作控制等多模态技术融合应用于机器人场景，构建端到端的机器人智能系统；
4.推进感知算法从实验室到边缘设备的部署与实时性能优化，提升机器人在真实环境下的自适应感知能力；
5.负责感知数据闭环系统搭建，包括自动化标注、高精度标注、质检与评测；
6.支撑上层 VLA （ Vision-Language-Action ）或世界模型（ World Model ）的感知输入构建；
7.关注行业前沿技术，探索 BEV 多模态融合、Occupancy 感知、主动感知与大模型感知（ VLM/VLP ）等方向在具身智能中的应用。
职位要求：
1.自动化、电子工程、计算机视觉、人工智能、机器人、应用数学等相关专业硕士及以上学历；
2.熟悉 3D 感知算法（ 3D 目标检测、语义分割、姿态估计、Occupancy 预测、多模态融合等），了解 VLM/VLP 或 World Model 在感知层的应用优先；
3.熟练使用 Linux 系统及 C++/Python 语言开发，具备 PyTorch 或 TensorFlow 等主流深度学习框架经验；
4.具备多传感器数据处理经验（图像、点云、IMU 、深度图、音频等），熟悉多传感器的标定、滤波、运动补偿、时间同步等技术；
5.具备概率感知建模、多模态联合表征、目标跟踪与时空预测经验者优先，具备算法从训练到端侧部署的工程化经验，熟悉 CUDA 加速、ONNX/TensorRT 部署优先；
6.在 CVPR/ICCV/ECCV/ICML/NeurIPS 等顶会发表论文者优先，或具有机器人感知相关项目落地经验。"

微信：fancyfrees
邮箱： [email protected]

目前尚无回复

视觉算法感知