一百零一第2种技术(2 / 2)

东方阅读网【www.dfmsc.com】第一时间更新《简单设定无限世界》最新章节。

在伤害函数给出后，下一步就是构建综合伤害函数，由两部分构成：

第一部分就是就是我方的伤害函数。由于基于牛顿力学的飞行格斗技也是保守策略技术，UU看书 www.uukanｓhu.com所以首要的做到在战斗中自保，那么第一部分的函数就要赋予较高权重。

第二部分是用我方伤害函数减去对方伤害函数，赋予较低权重，这样就可以在尽量自保基础上对对方造成伤害。

然后来构建每次状态转移对应的伤害函数。每个状态下可以执行的动作可以有无数种，那么执行单个动作的概率就无限趋近于零，所以要用概率密度表示执行各动作的几率，其关于动作范围的积分代表执行对应所有动作的概率。

每类动作可能会导致转移到不同状态，各自也有对应概率，那么每个状态——动作——状态对都有其对应概率密度，并且有对应的综合伤害函数，对二者乘积做求和就得到了单步伤害期望函数。

而每次打斗总有终止的时候，要么是不打了，要么是其中一方阵亡了，这个过程会形成——状态——动作——状态——动作...…的过程链条，只是在打斗前我们无法百分百预测接下来的打斗会以哪条链条进行，所以我们需要将所有链条的单步伤害函数求和，然后就得到了总伤害期望函数。

每个状态都有这样的对应总伤害期望函数，不过我们的目标是知道每个状态下执行各动作的优劣，以找到最优动作，所以我们还要再得到一个状态——动作对的总伤害期望函数，这样，对于一个状态，其总伤害期望函数最大的那类动作就是最优动作。

在场的研究者中可能有研究ai或者使用过ai算法的，那你们应该也看出来了，上面这个模型就是著名的强化学习模型。”

东方阅读网【www.dfmsc.com】第一时间更新《简单设定无限世界》最新章节。

本章未完，点击下一页继续阅读。

一百零一 第2种技术(2 / 2)