【强化学习科学家招聘】_猎头顾问招聘信息-猎聘

单女士 5小时前在线

顾问 · 重庆卓荦人力资源管理有限公司

简历处理快回复速度快

聊一聊

职位介绍: 核心职责： 1、算法创新与理论突破 - 设计面向复杂动态环境的强化学习算法，解决样本效率低、探索-利用权衡、稀疏奖励、多目标优化等关键问题。 - 探索基于模型（Model-based RL）、分层强化学习（HRL）、元强化学习（Meta-RL）、逆强化学习（IRL）等前沿方向的技术融合与改进。 - 结合大模型技术，研发语言驱动强化学习（Language-guided RL）、世界模型（World Models）等跨模态决策框架。 2、大规模强化学习系统构建 - 构建分布式强化学习训练框架，优化并行采样、离线强化学习（Offline RL）与在线学习的混合训练机制。 - 开发高效仿真环境与智能体交互接口，支持高保真物理模拟、多智能体协同训练及超长序列决策任务。 - 设计自适应奖励函数与课程学习（Curriculum Learning）策略，加速智能体在复杂场景中的能力进化。 3、前沿探索与跨领域研究 - 研究多智能体强化学习（MARL）中的合作与竞争机制，解决非稳态环境、信用分配、通信效率等挑战。 - 探索强化学习与神经符号系统（Neuro-symbolic AI）、因果推理的结合，提升决策的可解释性与鲁棒性。 - 构建强化学习安全与伦理保障体系，设计对抗攻击防御、风险敏感策略与公平性约束机制。任职要求 1、教育背景计算机科学、控制理论、运筹学或相关领域博士学历。 2、技术能力 - 精通强化学习经典算法（如DQN、PPO、SAC、TD3）及最新进展（如Decision Transformer、DreamerV3），熟悉OpenAI Gym、MuJoCo、Isaac Sim等工具链。 - 具备大规模分布式训练经验（Ray、RLlib等框架），熟悉离线强化学习、模仿学习与仿真到真实（Sim2Real）迁移技术。 - 在算法层有深度实践：稀疏奖励优化、多智能体协同、元学习与快速适应 3、其他要求 - 在ICML、NeurIPS、ICLR、AAAI等顶级会议发表过RL相关论文，或主导过开源RL项目者优先。 - 熟悉PyTorch/TensorFlow等深度学习技术框架，具备从算法设计到工程落地的全流程能力。 - 对复杂系统建模与决策优化有强烈热情，能独立设计技术方案并带领团队攻坚。