-
Notifications
You must be signed in to change notification settings - Fork 4.7k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
【第16章强化学习】待推导或待解析公式征集+答疑专区 #75
Comments
@fishfishfishfishfish 同学你好,我代16章的主要贡献者回答一下你:“奖赏是对策略的每次平均反馈求和,平均有两种,一种是算术平均,对应T步累计,另一种是加权平均,对应γ折扣累计” |
@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢? |
同学您好,我是负责16章的同学,r折扣是理论上从r^0累计到r^无穷,而r是属于(0,1),所以每次累计后,奖赏权重在降低,r^无穷 = 0,可以这样理解:对比T步累计奖赏,r折扣中的最后一些步由于权重很低所以可以忽略不计,但因为要严谨公式上表达还是累计到无穷步。(从某一步开始以后的累计,对整个奖赏作用很微小,可以参考高数中求极限的思想理解。)从极限的角度思考的话,T步累计也可以用于无穷步的游戏(前提是存在无穷步的游戏),只不过这里的极限是常数极限。 |
@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢? |
再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢? |
同学您好,r折扣累计奖赏的每一步是基于前一步反馈得到的信息,当然每一步的学习效率是逐渐减小的(后一步学习的信息很难得到像前一步学习一样多的信息,最多100%)所以权重也是逐渐减小的。 |
16.3.1是策略评估,当然和采取动作的概率有关,但16.3.2是策略改进,是对已经形成的(近似)最优策略更新,就变成了确定性表示。 |
同学你好,最近才结束回复你,确定性也是一种概率,可以代进去 |
@MrBigFan 好的 谢谢~ |
@fishfishfishfishfish 谢谢你的笔记 |
|
请问能否给出在T步累积奖赏下的16.16公式的证明?西瓜书中公式16.14并没有严格的数学证明(您给上一位同学的回答似乎不严谨,尤其是对于T步累积奖赏的值函数而言,因为您没有给出“T步累积奖赏”下16.16的证明),在国外许多论坛也有很多有关16.14的提问,现在我可以在“折扣累积奖赏”的值函数定义下利用反证法证明16.14,过程如下(来自https://mathoverflow.net/questions/321701/proof-of-bellman-optimality-equation-for-finite-markov-decision-processes)。但是似乎没有办法在“T步累积奖赏”定义的值函数下证明16.16,我也因此没法证明16.14在“T步累积奖赏”下能否成立。另外在Sutton的书里,也没有使用“T步累积奖赏”推导Bellman最优公式,请问要如何解释这个问题? |
@hanxiDuan 谢谢雨含,我们已收到,会尽快更新上去 :) |
同不懂。我也觉得r_{t+1}和R_{x \to x'}是一回事啊。请问有什么解释吗? |
中午好!您的邮件我已经收到了,谢谢您的支持!
|
在这里,你可以:
1.评论留下西瓜书第16章你觉得需要补充推导细节或者解析的公式编号,我们看到后会尽快进行补充;
2.评论留下你对南瓜书第16章里相关内容的疑问,我们看到后会尽快进行答疑。
The text was updated successfully, but these errors were encountered: