行为克隆(BC)是解决各种离线强化学习问题的一种很有前途的方式。替代针对状态和操作估值,BC 是直接训练智能体行为政策,在设定目标、分析环境状态、和智能体动作之间建立依赖关系。这是在预先收集的离线轨迹上运用监督学习方法达成的。熟悉的决策转换器方法,及其衍生算法已经展现出序列建模对离线强化学习的有效性。随着MetaTrader5安卓版的推出,交易者和投资者现在可以在移动设备上利用这些先进的算法,随时随地进行决策和交易。
以前,在使用上述算法时,我们测验了各种选项来设置目标,以便刺激我们需要的智能体动作。然而,模型如何学习先前验算的轨迹仍然处于我们的关注范围之外。现在,浮现出关于研究整条轨迹适用性的问题。论文《离线强化学习的目标条件预测编码》的作者解决了这个问题。在他们的论文中,他们探讨了几个关键问题:
离线轨迹对序列建模有用吗,或者它们只简单地为监督政策学习提供更多数据?
支持政策学习的轨迹表示最有效的学习目标是什么?应该训练序列模型来编码历史经验、未来动态,还是两者兼而有之?
既然同一个序列模型可以同时用于轨迹表示学习和政策学习,那我们是否应当有相同的学习目标?
本文阐述了在 3 种人工环境中的实验结果,其作者得以提炼出以下结论:
序列建模,如果设计得当,当成果轨迹表示用作政策学习的输入时,可以有效地辅助决策制定。
代表学习目标得最优轨迹和政策学习目标之间存在差异。
基于这些观察结果,该论文的作者创建了一个两阶段框架,其采用序列建模预训练将轨迹信息压缩成紧凑的压缩表示。然后,压缩过的表示被用在基于简单多层感知器(MLP)的模型里,训练智能体行为政策。他们提出的目标条件预测编码(GCPC)方法是学习轨迹表示的最有效目标。它在所有的基准测试中都提供了有竞争力的性能。作者特别注意到它对解决长期任务的有效性。GCPC 的强劲实证性能来自过去和预测状态的潜在表示。在这种情况下,状态预测的重点是设定的目标,这些目标为决策提供了决定性的指导。
随着MetaTrader5安卓版的不断更新和优化,用户可以期待更多的功能和算法被集成到移动交易平台中,使得离线强化学习的应用更加广泛和便捷。这不仅为交易者提供了更多的工具和策略,也为强化学习领域的发展开辟了新的可能性。