空天荟~电子科学与技术

航天器自主远距离快速抵近的近端策略优化研究

DOI：10.11999/JEIT250844 CSTR：

文献基本信息

中文标题：航天器自主远距离快速抵近的近端策略优化研究

英文标题：Research on Proximal Policy Optimization for Autonomous Long-Distance Rapid Rendezvous of Spacecraft

来源期刊：电子与信息学报

基金项目：上海市东方英才领军项目(Y4DFRCYG01)

作者：林政^{1, 2, 3} 胡海鹰^{1, 2, 3} 邸鹏^{1, 2} 朱永生¹ 周美江¹

作者单位：1. 中国科学院微小卫星创新研究院上海 201304
2. 中国科学院大学北京 100049
3. 合肥国家实验室合肥 230088

摘要：在考虑地球扁率J2摄动的影响下，文中针对限定携带燃料和限定转移时间下的异面轨道航天器远距离快速转移的最省燃料轨迹优化问题，基于近端策略优化(Proximal Policy Optimization, PPO)设计脉冲机动的时长与脉冲增量大小，实现最省燃料消耗的转移轨迹设计。首先构筑J2摄动下航天器转移变轨的动力学模型，并进行航天器在轨运行中的不确定性分析，其次，将问题转化为最优控制问题，并建立强化学习训练框架；此后，设计基于过程约束和终端约束的合适的奖励函数，提高算法的探索能力和训练过程的稳定性；最后，在该强化学习框架下进行训练得到模型，生成变轨机动策略，并通过仿真并进行对比实验验证算法性能。相较已有DRL方法，文中设计的改进型密集奖励函数结合位置势函数与速度引导机制，显著提升了算法的收敛速度、鲁棒性与燃料优化性能，仿真结果表明，该方法能够很好的生成策略并达到预期抵近要求。

全文链接： https://jeit.ac.cn/cn/article/doi/10.11999/JEIT250844