V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 外包信息请发到 /go/outsourcing 节点。
• 不要把相同的信息发到不同的节点
fancyfrees
V2EX  ›  酷工作

北京/上海/苏州:视觉负责人/视觉算法工程师(纯视觉)/感知算法工程师(融合感知)

  •  
  •   fancyfrees · 2 天前 · 173 次点击
    视觉负责人 汇报给:COO&CEO
    "岗位职责:
    1.负责具身智能机器人中的多模态交互算法研发,包括视觉、语言、语音、动作等信号的融合与理解;
    2.基于大模型( LLM / VLM / Audio-LM ),构建机器人“看懂 + 听懂 + 会互动”的能力;
    3.研发机器人与人的交互感知能力,如手势识别、视线估计、行为理解、意图预测等;
    4.完成多模态模型的训练、微调与端侧部署优化,提升实时性与鲁棒性;
    5.跟踪具身智能、大模型、多模态学习前沿技术,推动产品化落地。
    职位要求:
    1.硕士及以上学历,计算机视觉、人工智能、机器人相关专业;
    2.熟悉多模态学习技术(视觉、语言、语音其一),具备 VLM / LLM / Transformer 相关经验;
    3.能够完成视觉或多模态感知任务:手势识别、行为理解、Grounding 、场景理解等任一方向;
    4.熟练使用 PyTorch / TensorFlow / JAX 等深度学习框架,有模型部署与加速经验优先;
    5.理解具身智能或智能体( Agent )相关架构,如 VLA 、World Model 、Diffusion Policy 等为加分项;
    6.有机器人交互、服务机器人或智能硬件经验者优先。"

    视觉算法工程师(纯视觉) 汇报给 视觉负责人
    "岗位职责:
    1.负责机器人场景下的 2D/3D 视觉感知算法研发,包括但不限于目标检测、图像分割、深度估计、姿态估计、语义理解等核心算法;
    2.研究多模态视觉融合与时空感知算法,提升动态场景下的鲁棒性、深度精度与边缘部署性能;
    3.参与从模型训练到端侧推理的全流程开发,包括模型训练、转换、部署以及性能优化( cuDNN / ONNX / TensorRT );
    4.结合 IMU 、相机、雷达等传感器数据,实现多视角立体视觉重建( SFM / MVS )、BEV 融合、光流估计及视觉里程计算法;
    5.跟踪前沿的视觉感知技术与大模型( VLM 、Diffusion 、AIGC for Vision )发展趋势,支撑 VLM/端到端项目落地;
    6.探索通用视觉表示在具身智能或机器人视觉系统中的应用。
    职位要求:
    1.硕士及以上学历,计算机视觉、自动化、电子工程、人工智能、应用数学等相关专业;
    2.熟悉计算机视觉基础算法与图像处理方法,包括目标检测、语义分割、立体匹配、深度估计等方向;
    3.精通至少一种编程语言( C++ / Python ),熟练掌握主流深度学习框架( PyTorch / TensorFlow / JAX 等);
    4.熟悉视觉系统的工程化部署流程,具备模型加速、剪枝、蒸馏、量化经验;
    5.有以下任一经验者优先:BEV 或多视角立体视觉算法开发、双目/单目深度估计与光流匹配、多模态视觉融合(相机 + IMU / LiDAR )、视觉里程计 / 视觉惯导融合( VIO )
    6.具备良好的数学基础,理解计算几何、光学成像、矩阵运算与优化原理;
    7.拥有扎实的工程实现能力与科研能力,在 CVPR / ICCV / ECCV / NeurIPS / ICML 等会议或 TPAMI / IJCV / TIP 顶刊发表论文者优先。"


    感知算法工程师(融合感知) 汇报给 视觉负责人
    "岗位职责:
    1.负责具身智能机器人在真实环境下的多模态感知算法研发与部署,涵盖但不限于:
    2.基于 3D 信息的目标检测与跟踪、语义分割、6D 位姿估计、场景理解;多模态融合算法( RGB/红外图像、LiDAR 点云、深度信息、IMU 、音频等);场景级别的动态物体检测与人机交互状态识别。
    3.参与具身智能机器人“感知-认知-决策-控制”全链条中的感知策略设计与数据闭环优化,将视觉、语言、动作控制等多模态技术融合应用于机器人场景,构建端到端的机器人智能系统;
    4.推进感知算法从实验室到边缘设备的部署与实时性能优化,提升机器人在真实环境下的自适应感知能力;
    5.负责感知数据闭环系统搭建,包括自动化标注、高精度标注、质检与评测;
    6.支撑上层 VLA ( Vision-Language-Action )或世界模型( World Model )的感知输入构建;
    7.关注行业前沿技术,探索 BEV 多模态融合、Occupancy 感知、主动感知与大模型感知( VLM/VLP )等方向在具身智能中的应用。
    职位要求:
    1.自动化、电子工程、计算机视觉、人工智能、机器人、应用数学等相关专业硕士及以上学历;
    2.熟悉 3D 感知算法( 3D 目标检测、语义分割、姿态估计、Occupancy 预测、多模态融合等),了解 VLM/VLP 或 World Model 在感知层的应用优先;
    3.熟练使用 Linux 系统及 C++/Python 语言开发,具备 PyTorch 或 TensorFlow 等主流深度学习框架经验;
    4.具备多传感器数据处理经验(图像、点云、IMU 、深度图、音频等),熟悉多传感器的标定、滤波、运动补偿、时间同步等技术;
    5.具备概率感知建模、多模态联合表征、目标跟踪与时空预测经验者优先,具备算法从训练到端侧部署的工程化经验,熟悉 CUDA 加速、ONNX/TensorRT 部署优先;
    6.在 CVPR/ICCV/ECCV/ICML/NeurIPS 等顶会发表论文者优先,或具有机器人感知相关项目落地经验。"

    微信:fancyfrees
    邮箱: [email protected]
    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2277 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 18ms · UTC 11:04 · PVG 19:04 · LAX 03:04 · JFK 06:04
    ♥ Do have faith in what you're doing.