Забыли данные входа?   Регистрация  

Статьи со схожими метками: Оптимальное управление

МНОЖЕСТВО ДОСТИЖИМОСТИ МАШИНЫ ДУБИНСА С ИНТЕГРАЛЬНЫМ ОГРАНИЧЕНИЕМ НА УПРАВЛЕНИЕ

Институт математики и механики им. Н. Н. Красовского УрО РАН, Екатеринбург, Россия

МНОЖЕСТВО ДОСТИЖИМОСТИ МАШИНЫ ДУБИНСА С ИНТЕГРАЛЬНЫМ ОГРАНИЧЕНИЕМ НА УПРАВЛЕНИЕ

Математическая “машина Дубинса” — объект, передвигающийся на плоскости x, y с постоянной скоростью. Управлением u(t) является угловая скорость (производная по времени от функции φ(t)). Интеграл от квадрата управления на оговоренном промежутке [0; tf ] не должен превышать числа μ > 0. Каждой функции u(∙) соответствует движение x(∙), y(∙), и оно задает форму тонкого нерастяжимого стержня, закреплённого под определёнными углами на своих концах. Число μ ограничивает упругую энергию стрежня [1, 2].  Полагаем x0  = y0 = φ0 = 0. Множество достижимости G(tf ) при t > t0 = 0 определяем как совокупность всех точек (, y, φ)T, в каждую из которых в момент tf приводит некоторое допустимое управление. Цель работы — исследование трехмерного множества достижимости G(tf ).

Любое ненулевое управление, ведущее на границу множества G(t), доставляет равное µ минимальное значение функционала  u(t)2dt при фиксированных краевых условиях. Соответствующие экстремальные движения называются эластиками Эйлера.

Исследуя множество G(t), опираемся на опыт [3] построения множества достижимости для случая геометрических ограничений |u(t)|  μ. Существенные трудности связаны с необходимостью использования эллиптических функций.    

На рис. 1 слева показано трехмерное множество G(t), просчитанное для μ = 100, tf = 0.95. Цветом выделены участки границы, на которые ведут различные типы управлений: U1 — положительное управление (синий цвет), U4 — отрицательное управление (желтый цвет), U3 — управление с одним моментом смены знака с “+” на “−” (зеленый цвет), U2 — управление с одним моментом смены знака с “−” на “+” (фиолетовый цвет). Точка z0(tf), в которую ведет нулевое управление, лежит на стыке четырех указанных участков. Множество G(t) не является односвязным: имеется полость, ему не принадлежащая. Чтобы показать ее, на рис. 1 справа представлено сечение множества G(t) при φ = 0. От оси x отходят симметричные друг другу кривые A3 и A2. Их дуги до точки P1 первого пересечения дают “внешнюю” границу сечения. Дуги A3 и A2 от точки P1 до точки P2 второго пересечения лежат во внутренности сечения. Кривая A6 и примыкающие к ней участки кривых A3 и A2 после точки P2 составляют границу “дырки”, не принадлежащей сечению. Пунктиром показаны траектории четырех движений, ведущих на границу сечения (а стало быть, и на границу трехмерного множества G(t)).  Такие кривые представляют собой глобально оптимальные эластики Эйлера.

Перспективные методы обучения с подкреплением для управления движением космических аппаратов

Институт прикладной математики им. М.В. Келдыша РАН

Перспективные методы обучения с подкреплением для управления движением космических аппаратов

 

В настоящее время одними из самых актуальных задач управляемого движения космическими аппаратами являются безопасная посадка на неровную поверхность небесного тела, поддержание движения космического аппарата в окрестности малого небесного тела с плохо изученным гравитационным полем, управление движением аппарата на малых высотах в окрестности малых небесных тел, управление угловым движением с ограничениями на управляющие воздействия, управление движением в быстроменяющихся внешних условиях, управление связанным орбитальным и угловым движением аппарата в сложных динамических средах, управление движением с целью понижения риска столкновения с опасными и маневрирующими космическими объектами. Все эти задачи сложны и характеризуются наличием неопределенности в состоянии аппарата, его характеристик и характеристик окружающей среды.

 

В последние несколько лет часть теории оптимальности Беллмана, называемая машинным обучением с подкреплением, пополнилась эффективными алгоритмами, широко зарекомендовавшими себя в большом числе областей, в том числе и в механике. Эти методы основываются на алгоритмах приближенного динамического программирования, методах оптимизации функций с большим числом параметров и теории частично наблюдаемых марковских процессов принятия решений. Преимуществом этих методов является существенное сокращение математических предположений и значительный охват возможных решаемых задач. Многочисленные примеры их применения показывают, что стратегии управления, создаваемые этими методами, способны адаптироваться к неизвестным или меняющимся параметрам аппарата и внешней среды [1]. Авторский обзор применения этих методов к задачам управления космическими аппаратами выявил общую методологию в построении подобных стратегий.

 

В докладе представлена общая методология сведения задачи оптимального управления механическими системами к задаче машинного обучения с подкреплением и программная архитектура для численного решения задач. Приводятся примеры постановок и решения задач в рамках указанной методологии в области механики космического полета. В частности, рассмотрена задача управления космическим аппаратом в окрестности фокуса гравитационной линзы Солнца на расстоянии более 550 а.е. от Солнца с целью наблюдения экзопланет в высоком разрешении.

Работа выполнена при финансовой поддержке Российского научного фонда (проект №22-71-00051).

1. Shirobokov M., Trofimov S., Ovchinnikov M. Survey of Machine Learning Techniques in Spacecraft Control Design // Acta Astronautica, 2021. Vol. 186, pp. 87–97. URL: https://doi.org/10.1016/j.actaastro.2021.05.018.