东方阅读网【www.dfmsc.com】第一时间更新《简单设定无限世界》最新章节。
在伤害函数给出后,下一步就是构建综合伤害函数,由两部分构成:
第一部分就是就是我方的伤害函数。由于基于牛顿力学的飞行格斗技也是保守策略技术,UU看书 www.uukanshu.com所以首要的做到在战斗中自保,那么第一部分的函数就要赋予较高权重。
第二部分是用我方伤害函数减去对方伤害函数,赋予较低权重,这样就可以在尽量自保基础上对对方造成伤害。
然后来构建每次状态转移对应的伤害函数。每个状态下可以执行的动作可以有无数种,那么执行单个动作的概率就无限趋近于零,所以要用概率密度表示执行各动作的几率,其关于动作范围的积分代表执行对应所有动作的概率。
每类动作可能会导致转移到不同状态,各自也有对应概率,那么每个状态——动作——状态对都有其对应概率密度,并且有对应的综合伤害函数,对二者乘积做求和就得到了单步伤害期望函数。
而每次打斗总有终止的时候,要么是不打了,要么是其中一方阵亡了,这个过程会形成——状态——动作——状态——动作...…的过程链条,只是在打斗前我们无法百分百预测接下来的打斗会以哪条链条进行,所以我们需要将所有链条的单步伤害函数求和,然后就得到了总伤害期望函数。
每个状态都有这样的对应总伤害期望函数,不过我们的目标是知道每个状态下执行各动作的优劣,以找到最优动作,所以我们还要再得到一个状态——动作对的总伤害期望函数,这样,对于一个状态,其总伤害期望函数最大的那类动作就是最优动作。
在场的研究者中可能有研究ai或者使用过ai算法的,那你们应该也看出来了,上面这个模型就是著名的强化学习模型。”
东方阅读网【www.dfmsc.com】第一时间更新《简单设定无限世界》最新章节。
本章未完,点击下一页继续阅读。