ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ ДЛЯ МОДЕЛЬНЫХ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
- Авторы: Семенов С.С.1, Цурков В.И.2
 - 
							Учреждения: 
							
- МФТИ
 - ФИЦ ИУ РАН
 
 - Выпуск: № 3 (2023)
 - Страницы: 76-89
 - Раздел: ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
 - URL: https://edgccjournal.org/0002-3388/article/view/676487
 - DOI: https://doi.org/10.31857/S0002338823030125
 - EDN: https://elibrary.ru/EVAFAM
 - ID: 676487
 
Цитировать
Полный текст
Аннотация
Оптимизируются функционалы динамических систем различного вида с помощью современных методов обучения с подкреплением. Рассматриваются линейная задача распределения ресурсов, задача оптимального потребления и ее стохастические модификации. В обучении с подкреплением использовались методы градиента стратегии.
Об авторах
С. С. Семенов
МФТИ
														Email: semenov.ss@phystech.edu
				                					                																			                												                								Россия, МО, Долгопрудный						
В. И. Цурков
ФИЦ ИУ РАН
							Автор, ответственный за переписку.
							Email: tsur@ccas.ru
				                					                																			                												                								Россия, Москва						
Список литературы
- Sewak M. Deterministic Policy Gradient and the DDPG: Deterministic-Policy-Gradient-Based Approaches. 2019.
 - Schulman J. Trust Region Policy Optimization. 2015. https://arxiv.org/abs/1502.05477.
 - Haarnoja T. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Rein-forcement Learning with a Stochastic Actor. 2018. https://arxiv.org/abs/1801.01290.
 - Huang S. A2C is a special case of PPO. 2022. https://arxiv.org/abs/2205.09123.
 - Schulman J. Proximal Policy Optimization Algorithms. 2017. https://arxiv.org/abs/1707.06347.
 - Zhang L. Penalized Proximal Policy Optimization for Safe Reinforcement Learning. 2022. https://arxiv.org/abs/2205.11814.
 - Chen X. The Sufficiency of Off-policyness: PPO is insufficient according to an Off-policy Measure. 2022. https://arxiv.org/abs/2205.10047.
 - Ghosh A. Provably Efficient Model-Free Constrained RL with Linear Function Approximation. 2022. https://arxiv.org/abs/2206.11889.
 - Song Z. Safe-FinRL: A Low Bias and Variance Deep Reinforcement Learning Implementation for High-Freq Stock Trading. 2022. https://arxiv.org/abs/2206.05910.
 - Kaledin M. Variance Reduction for Policy-Gradient Methods via Empirical Variance Minimization. 2022. https://arxiv.org/abs/2206.06827.
 - Luo Q. Finite-Time Analysis of Fully Decentralized Single-Timescale Actor- Critic. 2022. https://arxiv.org/abs/2206.05733.
 - Deka A. ARC – Actor Residual Critic for Adversarial Imitation Learning. 2022. https://arxiv.org/abs/2206.02095.
 - Цурков В.И. Динамические задачи большой размерности. М.: Наука, 1988. 287 с.
 - Бекларян Л.А., Флёрова А.Ю., Жукова А.А. Методы оптимального управления: учеб. пособие. М.: Наука, 2018.
 - Оксендаль Б. Стохастические дифференциальные уравнения. Введение в теорию и приложеия. М.: Мир, 2003.
 - Понтрягин Л.С. Принцип максимума в оптимальном управлении. М.: Наука, 2004.
 
Дополнительные файлы
				
			
						
						
						
					
						
									














