Điều khiển tối ưu thích nghi trên cơ sở học tăng cường tích phân trực tuyến

Bài viết này đề xuất một cách tiếp cận trực tuyến để điều khiển tối ưu thích nghi trực tiếp với chi phí vô hạn cho các hệ thống phi tuyến trong một khung thời gian liên tục. Sự hội tụ của thuật toán trực tuyến với các giải pháp điều khiển tối ưu mà không yêu cầu động học nội của hệ thống. Tính ổn định động vòng kín được đảm bảo. | ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI TRÊN CƠ SỞ HỌC TĂNG CƯỜNG TÍCH PHÂN TRỰC TUYẾN Nguyễn Thị Thắm Vũ Văn Tú Khoa Điện-Cơ Email thamnt@ tuvv@ Ngày nhận bài 24 8 2020 Ngày PB đánh giá 22 9 2020 Ngày duyệt đăng 25 9 2020 TÓM TẮT Bài báo này đề xuất một cách tiếp cận trực tuyến để điều khiển tối ưu thích nghi trực tiếp với chi phí vô hạn cho các hệ thống phi tuyến trong một khung thời gian liên tục. Sự hội tụ của thuật toán trực tuyến với các giải pháp điều khiển tối ưu mà không yêu cầu động học nội của hệ thống. Tính ổn định động vòng kín được đảm bảo. Thuật toán được xây dựng trên chương trình học tăng cường RL cụ thể là thuật toán lặp PI Policy Iteration và sử dụng mạng nơ-ron trong cấu trúc Actor Critic để biểu diễn thông số của luật điều khiển và hiệu suất của hệ thống điều khiển. Hai mạng nơ-ron được huấn luyện để thể hiện bộ điều khiển tối ưu và hàm chi phí tối ưu mô tả hiệu suất của bộ điều khiển vô hạn. Kết quả là một cấu trúc điều khiển lai trong đó gồm một bộ điều khiển liên tục theo thời gian và một cấu trúc điều khiển thích nghi giám sát hoạt động dựa trên dữ liệu được lấy mẫu từ đối tượng và hiệu suất động học thời gian liên tục. Các phân tích lý thuyết và kết quả mô phỏng chứng minh sự hiệu quả của thuật toán đề xuất. Từ khóa Điều khiển tối ưu thích nghi trực tiếp Thuật toán lặp Mạng nơ-ron Điều khiển trực tuyến. ADAPTIVE OPTIMAL CONTROL BASED ON OFF-LINE INTEGRAL REINFORCEMENT LEARNING ABTRACT This paper proposes in a continuous-time framework an online approach to direct adaptive optimal control with infinite horizon cost for nonlinear systems. The algorithm converges online to the optimal control solution without knowledge of the internal system dynamics. Closed-loop dynamic stability is guaranteed throughout. The algorithm is based on a reinforcement learning scheme namely Policy Iterations and makes use of neural networks in an Actor Critic structure to parametrically represent the control policy and the performance of the control .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
18    82    1    29-03-2024
21    102    2    29-03-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.