强化学习科学家
200-230k·16薪
北京
5-10年
博士
顾问
· 重庆卓荦人力资源管理有限公司
简历处理快
回复速度快
聊一聊
- 职位介绍
- 核心职责:
1、算法创新与理论突破
- 设计面向复杂动态环境的强化学习算法,解决样本效率低、探索-利用权衡、稀疏奖励、多目标优化等关键问题。
- 探索基于模型(Model-based RL)、分层强化学习(HRL)、元强化学习(Meta-RL)、逆强化学习(IRL)等前沿方向的技术融合与改进。
- 结合大模型技术,研发语言驱动强化学习(Language-guided RL)、世界模型(World Models)等跨模态决策框架。
2、大规模强化学习系统构建
- 构建分布式强化学习训练框架,优化并行采样、离线强化学习(Offline RL)与在线学习的混合训练机制。
- 开发高效仿真环境与智能体交互接口,支持高保真物理模拟、多智能体协同训练及超长序列决策任务。
- 设计自适应奖励函数与课程学习(Curriculum Learning)策略,加速智能体在复杂场景中的能力进化。
3、前沿探索与跨领域研究
- 研究多智能体强化学习(MARL)中的合作与竞争机制,解决非稳态环境、信用分配、通信效率等挑战。
- 探索强化学习与神经符号系统(Neuro-symbolic AI)、因果推理的结合,提升决策的可解释性与鲁棒性。
- 构建强化学习安全与伦理保障体系,设计对抗攻击防御、风险敏感策略与公平性约束机制。
任职要求
1、教育背景
计算机科学、控制理论、运筹学或相关领域博士学历。
2、技术能力
- 精通强化学习经典算法(如DQN、PPO、SAC、TD3)及最新进展(如Decision Transformer、DreamerV3),熟悉OpenAI Gym、MuJoCo、Isaac Sim等工具链。
- 具备大规模分布式训练经验(Ray、RLlib等框架),熟悉离线强化学习、模仿学习与仿真到真实(Sim2Real)迁移技术。
- 在算法层有深度实践:稀疏奖励优化、多智能体协同、元学习与快速适应
3、其他要求
- 在ICML、NeurIPS、ICLR、AAAI等顶级会议发表过RL相关论文,或主导过开源RL项目者优先。
- 熟悉PyTorch/TensorFlow等深度学习技术框架,具备从算法设计到工程落地的全流程能力。
- 对复杂系统建模与决策优化有强烈热情,能独立设计技术方案并带领团队攻坚。
- 其他信息
- 语言要求:不限
- 行业要求:其他金融
猎聘温馨提示:
- 1. 如您发现平台内招聘方存在以下违规行为的,请立即举报
-
- a. 扣押您的身份证件或者其他证件;
- b. 要求您提供担保人、担保金或者以其他名义向您收取财物( 如培训费、体检费、资料费、置装费、押金等);
- c. 强迫您入股或者向您集资;
- d. 以招聘名义牟取不正当利益;
- e. 发布虚假招聘广告信息;
- f. 工作时长违反劳动法规定;
- g. 存在其他损害您的合法权益的行为。
- 2. 如您应聘的岗位属于涉外劳务合作/海外岗位的,请务必核实招聘方对外劳务合作资质取得情况,同时注意自身资金安全,防范招聘欺诈。
- 了解更多安全防范知识>
查看全部
猜你喜欢
某上海总部互联网公司
互联网
融资未公开
5000-10000人
某北京计算机软件上市公司
计算机软件
已上市
2000-5000人
某重庆大型科技金融公司
科技金融
C轮
2000-5000人
某知名公司
专业技术服务
融资未公开
5000-10000人
某知名互联网上市公司
互联网
已上市
10000人以上
某大型互联网/电商公司
科技金融
融资未公开
10000人以上
某知名公司
专业技术服务
融资未公开
10000人以上
某重庆大型科技金融公司
科技金融
C轮
2000-5000人