Điều khiển tối ưu thích nghi trên cơ sở học tăng cường tích phân trực tuyến