test

MT5下载正版官网手机版:神经网络变得简单-决策转换器无监督预训练(PDT)

  在面对日益复杂的决策问题时,MT5下载正版官网手机版为用户提供了一个强大的工具——决策转换器。这种工具通过关注度方法解决了各种实际问题,但先前的实验表明,使用转换器架构还需要长期而彻底的模型训练,这反过来又需要准备已标记训练数据。在解决实际问题时,有时很难获得奖励,而已标记数据不能很好地扩展训练集。如果我们在预训练期间不使用奖励,模型可以获得一般化的行为模式,其可很容易地适应以后的各项任务。

  为了进行有效的预训练,模型必须能够在没有奖励的情况下提取多方面和通用的学习信号。在预训练期间,模型必须通过判定哪些学习信号可以与奖励相关联,来快速适应奖励任务。PDT仅依赖过去信息来学习未来轨迹的嵌入空间,以及未来先验条件。目标未来嵌入通过条件化动作预测,PDT被赋予了“对未来进行推理”的能力。这种能力自然是独立于任务的,可以推广到不同的任务规范。

  为了在下游任务中实现高效的在线优调,轻松令框架适应新条件,您可将每个未来嵌入与其回报相关联,这是针对每个未来嵌入,训练奖励预测网络来实现的。

mt5下载正版官网手机版

  PDT方法基于DT的原理。它还在分析访问状态和已完成动作的顺序之后,预测智能体的动作。同时,PDT为DT算法引入了附加功能,允许依据未标记数据进行初步模型训练,即无需分析回报。这看似不可能,因为“在途回报”(未来奖励)是模型分析的序列成员之一,并充当空间中模型朝向的一种指南针。

  PDT方法的作者提议用一些潜在状态向量Z代替RTG。这个思路并不新鲜,但作者为其给出了一个相当有趣的解释。在依据未标记数据进行初步训练的过程中,我们实际上会训练3个模型:

  扮演者,这是一个经典DT,基于前一个轨迹的分析进行动作预测;

  目标预测模型P(?|St) — 基于当前状态的分析预测DT目标(潜在状态Z);

  未来编码器模型G(?|τt+1:t+k) — “展望未来”并将其嵌入到潜在状态Z之中。

  注意,最后2个模型分析不同的数据,但都返回潜在向量Z。这在当前状态和未来状态之间构建了一种自动编码器。其潜在状态用作DT(扮演者)的目标称谓。

  不过,模型训练不同于自动编码器训练。首先,我们通过在未来轨迹和所采取的动行之间建立依赖关系,来训练未来的编码器和扮演者。我们允许PDT展望未来,了解一些规划界限。我们将有关后续轨迹的信息压缩为潜在状态。以这种方式,我们允许模型基于有关未来的可用信息制定决策。我们期望在初步训练期间创建具有广泛行为技能的扮演则政策,不受环境奖励的限制。

  然后,我们训练一个目标预测模型,寻找当前状态与未来轨迹的学习嵌入之间的依赖关系。

  这种方式令我们能够将奖励与目标出来的结果分开,为大规模的持续预学习开启了机遇。同时,当智能体的行为明显偏离预期目标时,它减少了行为不一致的问题。

  虽然使用目标预测模型P(Z|St)对未来的潜在变量进行采样、及生成模仿训练数据集分布的行为很实用,它不用为任何特定于任务的数据编码。因此,有必要发送P(Z|St)到未来嵌入的数据集,这些嵌入在下游学习期间会带来较高的未来奖励。

  这导致为DT创建智能系统行为,条件是回报最大化。与通过分配标量目标奖励来控制回报最大化政策不同,我们需要调整目标预测模型P(Z|St)。由于这种分布是未知的,我们使用了一个额外的奖励预测模型F(?|Z, St)来预测最优轨迹。奖励预测模型在下游训练过程中与所有其它模型一起学习。

  类似于预训练,我们使用未来编码器来获取潜在状态,这允许梯度向后传播,从而调整潜在表示中奖励数据的编码。这允许在下游学习过程中解决任务的特殊之处。

  随着技术的不断进步,MT5下载正版官网手机版将继续为用户提供最新的工具和资源,帮助他们更有效地解决复杂的决策问题。通过深入了解预训练决策转换器(PDT)方法,我们能够更好地利用这些工具,为用户提供了一个更加直观和高效的决策环境。