test

MT5下载正版官网手机版:目标条件预测编码算法的应用

  MT5下载正版官网手机版为用户提供了一个强大的移动交易解决方案,使得用户可以在任何时间、任何地点管理自己的交易。在这篇文章中,我们将探讨目标条件预测编码(GCPC)算法,这是一种在MT5平台上实现离线强化学习的新方法。

  GCPC方法的作者采用序列建模进行离线强化学习。为了解决离线强化学习的问题,他们使用条件化、过滤度、或加权度模仿学习。假设有一套预先收集的训练数据。但用于收集数据的政策也许未知。训练数据包含一组轨迹,每条轨迹都表示为一组状态和动作(St, At)。轨迹可以选择性地包含在时间步骤t处获得的奖励Rt。

  由于轨迹是由未知政策收集而来,它们也许不是最优的、或不具备足够的专业级别。我们曾讨论过,正确使用包含次优数据的离线轨迹能够带来更有效的行为政策。因为次优轨迹也许包含展示实用“技能”的子轨迹,这些都可以组合起来解决给定的任务。

MT5下载正版官网手机版

  该方法作者认为,智能体行为政策应该能够接受任何形式的有关状态或轨迹的信息作为输入,并预测下一个动作。当仅用当前观察到的状态St和目标G时,智能体政策将忽略历史观察值。当智能体政策是序列模型时,它可以利用整个观察到的轨迹来预测下一个动作At。为了优化智能体行为政策,通常用到最大似然目标函数。

  序列建模可以从两个角度来制定决策:学习轨迹表示,和学习行为政策。第一个方向从原始输入轨迹中搜寻以紧缩潜在表示或预训练网络权重形式的实用表示。第二个方向搜寻转化观察和目标的最优动作,以便完成任务。

  学习轨迹函数和政策函数可以使用Transformer模型来实现。GCPC方法的作者建议,对于轨迹函数,采用序列建模技术将原始数据压缩为紧缩表示可能很实用。将轨迹表征学习与政策学习解耦也是可取的。解耦不仅为选择表示学习的目标提供了灵活性,还令我们能够独立研究序列建模对轨迹表示学习和政策学习的影响。因此,GCPC使用TrajNet(轨迹模型)和PolicyNet(政策模型)的两阶段结构。为了训练TrajNet,无监督学习方法,诸如掩码自动编码器、或下一个令牌预测,都可用于序列建模。PolicyNet旨在使用监督学习目标函数从收集的离线轨迹中提取出有效的政策。

  轨迹表示训练的第一阶段使用掩码自动编码。TrajNet接收轨迹τ和目标G(如有必要),并学习从相同轨迹的掩码视图中复原τ。可选项,TrajNet还会生成轨迹B的紧缩表示,这可用于后续的PolicyNet政策训练。在他们的论文中,GCPC方法的作者建议饲喂已游历轨迹的掩码表示作为自动编码器模型的输入。在解码器的输出中,它们努力获取已游历轨迹和后续状态的未掩蔽表示。

  在第二阶段,将TrajNet应用于未掩蔽的观测轨迹τ,从而获得轨迹B的紧缩表示。然后,PolicyNet在给定观察到的轨迹(或环境的当前状态)、目标G和紧缩轨迹表示B的情况下预测动作A。

  拟议的框架提供了一个统一的视图,用于比较实现表示学习和政策学习的不同设计。许多现有的方法可以被认为是所提议结构的特例。例如,对于DT实现,轨迹表示函数被设置为输入轨迹的标识映射函数,并且政策被训练为自回归生成动作。

  随着MT5下载正版官网手机版的不断更新,用户可以期待更多的功能和算法被集成到移动交易平台中,使得离线强化学习的应用更加广泛和便捷。这不仅为交易者提供了更多的工具和策略,也为强化学习领域的发展开辟了新的可能性。