Перспективные методы обучения с подкреплением для управления движением космических аппаратов

Автор: Максим Геннадьевич Широбоков

Соавторы: Широбоков М.Г., Корнеев К.Р., Перепухов Д.Г.

Организация: Институт прикладной математики им. М.В. Келдыша РАН

Перспективные методы обучения с подкреплением для управления движением космических аппаратов

В настоящее время одними из самых актуальных задач управляемого движения космическими аппаратами являются безопасная посадка на неровную поверхность небесного тела, поддержание движения космического аппарата в окрестности малого небесного тела с плохо изученным гравитационным полем, управление движением аппарата на малых высотах в окрестности малых небесных тел, управление угловым движением с ограничениями на управляющие воздействия, управление движением в быстроменяющихся внешних условиях, управление связанным орбитальным и угловым движением аппарата в сложных динамических средах, управление движением с целью понижения риска столкновения с опасными и маневрирующими космическими объектами. Все эти задачи сложны и характеризуются наличием неопределенности в состоянии аппарата, его характеристик и характеристик окружающей среды.

В последние несколько лет часть теории оптимальности Беллмана, называемая машинным обучением с подкреплением, пополнилась эффективными алгоритмами, широко зарекомендовавшими себя в большом числе областей, в том числе и в механике. Эти методы основываются на алгоритмах приближенного динамического программирования, методах оптимизации функций с большим числом параметров и теории частично наблюдаемых марковских процессов принятия решений. Преимуществом этих методов является существенное сокращение математических предположений и значительный охват возможных решаемых задач. Многочисленные примеры их применения показывают, что стратегии управления, создаваемые этими методами, способны адаптироваться к неизвестным или меняющимся параметрам аппарата и внешней среды [1]. Авторский обзор применения этих методов к задачам управления космическими аппаратами выявил общую методологию в построении подобных стратегий.

В докладе представлена общая методология сведения задачи оптимального управления механическими системами к задаче машинного обучения с подкреплением и программная архитектура для численного решения задач. Приводятся примеры постановок и решения задач в рамках указанной методологии в области механики космического полета. В частности, рассмотрена задача управления космическим аппаратом в окрестности фокуса гравитационной линзы Солнца на расстоянии более 550 а.е. от Солнца с целью наблюдения экзопланет в высоком разрешении.

Работа выполнена при финансовой поддержке Российского научного фонда (проект №22-71-00051).

1. Shirobokov M., Trofimov S., Ovchinnikov M. Survey of Machine Learning Techniques in Spacecraft Control Design // Acta Astronautica, 2021. Vol. 186, pp. 87–97. URL: https://doi.org/10.1016/j.actaastro.2021.05.018.

механика космического полета, обучение с подкреплением, оптимальное управление