博弈思维逆向归纳法
- 格式:pptx
- 大小:218.38 KB
- 文档页数:5
动态博弈中逆向归纳法是一种求解纳什均衡的方法。
在动态博弈中,博弈参与者的行为和策略是相互依存的,参与者需要考虑其他参与者的策略选择,从而做出自己的策略选择。
逆向归纳法的基本思想是从最后一个阶段开始,逆向推理,逐步确定每个参与者在每个阶段的最优策略选择。
具体来说,逆向归纳法的求解步骤如下:
1. 确定最后一个阶段的纳什均衡:在最后一个阶段,每个参与者的最优策略选择是与其他参与者的策略选择无关的。
因此,可以通过求解最后一个阶段的静态博弈来确定最后一个阶段的纳什均衡。
2. 逆向推导到前一个阶段:从最后一个阶段的纳什均衡出发,逆向推导到前一个阶段。
在前一个阶段,每个参与者的最优策略选择是与其他参与者在当前阶段的策略选择有关的。
因此,需要考虑其他参与者的策略选择,并利用逆向归纳法来确定每个参与者的最优策略选择。
3. 继续逆向推导到第一个阶段:重复上述步骤,直到推导到第一个阶段。
在第一个阶段,每个参与者的最优策略选择是与其他参与者的策略选择无关的。
4. 检查纳什均衡的稳定性:最后,需要检查所得到的纳什均衡是否稳定。
稳定的纳什均衡是指,如果某个参与者改变自己的策略选择,其他参与者的策略选择不会发生显著变化,从而使纳什均衡仍然成立。
需要注意的是,逆向归纳法的求解过程可能会非常复杂,特别是在动态博弈中。
因此,在实际应用中,需要根据具体情况选择适当的求解方法和工具。
从趣味推理题到逆向归纳法:喜欢博弈论的朋友必看网上看到这么一篇文章,上课老师讲的博弈论枯燥幼稚,唯独这篇文章又让我知道了什么是博弈,觉得很适合帮助理解完全信息动态博弈的基本思想(子博弈精炼纳什均衡和逆向归纳法),参考书上什么田忌赛马那些脑残例子贴切得多。
智慧的力量让人看到猛拍大腿,大叫一声“爽”五个海盗抢到了一百颗价值连城的宝石,他们决定先抽签决定自己的号码(1.2.3.4.5),第二步,由1号提出分配方案,然后五个人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则他将被仍到大海喂鲨鱼,1号死后,再由2号提出分配方案,然后四人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则也将扔进大海.....以此类推。
每个海盗都能很理智的判断得失,从而做出选择以最大化自己的利益,那么最后的分配结果如何?标准答案: 1号海盗分给3号1颗宝石,4号或5号海盗2颗,独得97颗。
分配方案为:97,0,1,2,0 或 97,0,1,0,2。
推理过程:从后向前推,如果1—3号海盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部宝石。
所以,4号唯有支持3号才能保命。
3号知道这一点,就会提出(100,0,0)的分配方案,对4号、5号一毛不拔而将全部宝石占为己有。
因为他知道4号一无所有但还是会投赞成票,再加上自己一票他的方案即可通过。
不过,2号推知到3号的方案,就会提出(98,0,1,1)的方案,即放弃3号,而给予4号和5号各一颗宝石。
由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他不希望他出局而由3号来分配。
这样,2号将拿走98颗宝石。
不过,2号的方案会被1号所洞悉,1号将提出(97,0,1,2,0)或(97,0,1,0,2)的方案,即放弃2号,而给3号一颗宝石,同时给4号(或5号)2颗宝石。
由于1号的解决方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案通过,97颗宝石可以轻松落入囊中。
博弈论基础读书笔记三完全信息动态博弈和逆向归纳法第⼆章完全信息动态博弈先来说明两个概念:1、是指在博弈中,参与⼈同时选择或虽⾮同时选择但后⾏动者并不知道先⾏动者采取了什么具体⾏动。
2、是指在博弈中,参与⼈的⾏动有先后顺序,且后⾏动者能够观察到先⾏动者所选择的⾏动。
这⼀章,我们来讨论关于完全信息(即参与者的收益函数是共同知识的博弈)动态博弈的问题。
在这⾥我们还将博弈分为两种:完美信息博弈:即要选择⾏动的参与者完全知道这⼀步之前所有的博弈过程。
完全但不完美信息博弈:即要选择⾏动的参与者不知道这⼀步之前的博弈过程。
进⾏这章之前先简要的解释⼀些东西:所有的动态博弈的中⼼问题都是可信任性。
下⾯给⼀个经典的⼿雷博弈的例⼦:第⼀,参与者1可以选择⽀付1000美元给参与者2或者是⼀分不给。
第⼆,参与者2观察参与者1的选择,然后决定是否引爆⼀颗⼿雷将两个⼈同炸死。
如果参与者2威胁参与者1如果他不付1000美元就引爆⼿雷,如果参与者1相信这个威胁,则最优选择是⽀付1000美元。
但参与者1却不会对这⼀威胁信以为真,因为它不可置信(参与者2不会蠢到因为1000美元⽽同归于尽,⾄于参与者1考虑参与者2是不是疯⼦的情况在第三章讨论)。
这个例⼦就是典型的完全且完美信息博弈。
在2.1节我们将在后⾯使⽤逆向归纳解,来求解这个问题。
在2.2节我们会丰富前⼀节的博弈模型使之成为完全但不完美博弈,我们会定义这种博弈的⼦博弈精炼解,它是逆向归纳法的延申。
在2.3节研究重复博弈,即多次重复⼀个给定博弈。
这⾥分析问题的中⼼使(可信的)威胁和对以后做出的承诺对当前⾏为的影响。
在2.4节中我们介绍分析⼀般的完全信息动态博弈所需要的⼯具。
不再区别信息是否是完美的。
本节和本章的重点都在语⾔,⼀个完全信息动态博弈可能会有多个纳什均衡,但其中⼀些均衡或许包含了不可置信的威胁和承诺,⼦博弈精炼纳什均衡则是通过了可信检验的均衡。
看到这⾥你可能还是⼀头雾⽔,但是⽆所谓,让我们⼀节⼀节的来讲,看到最后你在回头看前⾯的总结可能会更有利于你对本章的理解。
扩展式博弈逆向归纳法简介扩展式博弈逆向归纳法是一种用于解决博弈问题的方法,它通过逆向思维,从最终结果开始,逐步分析游戏的各种策略和决策点,最终找到最优的策略。
本文将详细介绍扩展式博弈逆向归纳法的基本原理和应用。
基本原理扩展式博弈逆向归纳法是一种数学模型,用于描述多方参与的博弈过程。
其基本原理是从最终结果开始逐步向前推导,推算每一步的最优策略。
这种逆向归纳的思维方式可以减少决策的不确定性,并找到最优解。
基本步骤扩展式博弈逆向归纳法可以分为以下几个基本步骤:1. 定义博弈的参与者和规则首先,需要明确博弈的参与者和规则。
博弈可以涉及两个或多个参与者,并存在着一定的规则和限制条件。
2. 定义博弈的终结条件和目标确定博弈的终结条件和目标。
博弈可能在某个特定的条件下终止,并存在着不同的目标,如最大化收益、最小化损失等。
3. 分析可能的决策点和策略在博弈中,存在着多个决策点和不同的策略选择。
需要系统地分析可能的决策点,并列出各个决策点中可能的策略选择。
4. 逆向归纳法推导最优策略从终结条件开始向前推导,利用逆向归纳法分析每一个决策点的最优策略。
逐步迭代,每一步都考虑所有参与者的最优策略,并根据不同的情形进行调整。
5. 检验和优化策略得出最优策略后,需要进行检验和优化。
可以进行数学模型的验证,或者通过模拟实验来检验策略的有效性。
如果策略不理想,可进行调整和优化。
应用领域扩展式博弈逆向归纳法具有广泛的应用领域,包括经济学、管理学、计算机科学等。
1. 经济学领域在经济学中,扩展式博弈逆向归纳法常常用于分析市场竞争和博弈策略。
例如,分析企业之间的定价策略,或者市场中的潜在垄断行为。
2. 管理学领域在管理学中,扩展式博弈逆向归纳法可以用于分析决策制定和资源分配问题。
例如,在制定企业的市场营销策略时,可以运用该方法来寻找最优的策略。
3. 计算机科学领域在计算机科学中,扩展式博弈逆向归纳法可以应用于人工智能算法和游戏设计中。
stackelberg博弈逆向归纳法Stackelberg博弈逆向归纳法引言:在博弈论的研究中,Stackelberg博弈是一种重要的博弈模型,它考虑的是一个领导者和一个追随者之间的策略选择问题。
在Stackelberg博弈中,领导者先行动,追随者在观察到领导者的行动后做出决策。
逆向归纳法是一种求解Stackelberg博弈的方法,本文将介绍Stackelberg博弈的基本概念和逆向归纳法的应用。
一、Stackelberg博弈的基本概念Stackelberg博弈是一种序贯博弈,由两个角色参与:领导者和追随者。
领导者先行动并选择策略,接着追随者观察到领导者的策略后做出决策。
与其他博弈模型不同的是,Stackelberg博弈中,领导者的行动对追随者的决策产生影响,而追随者的决策对领导者没有影响。
这种序贯性使得Stackelberg博弈与其他博弈模型的分析方法有所不同。
二、逆向归纳法的基本思想逆向归纳法是一种求解Stackelberg博弈的方法,它的基本思想是逆向推导追随者的最优反应函数,然后将这个反应函数代入领导者的目标函数中,从而求解出领导者的最优策略。
逆向归纳法的求解过程可以分为三个步骤:假设追随者的最优反应函数形式;代入反应函数求解领导者的最优策略;迭代求解追随者的最优反应函数。
三、逆向归纳法的应用实例为了更好地理解逆向归纳法的应用,我们以一个简单的Stackelberg博弈实例来说明。
假设某市场上只有两家公司A和B 在销售某种产品,公司A是领导者,先决定自己的销售策略,公司B是追随者,在观察到公司A的销售策略后做出决策。
我们假设公司B的最优反应函数是一个线性函数,即B的销售数量取决于A的销售数量。
接着,我们代入公司B的反应函数,求解公司A的最优销售策略。
假设公司A的目标是最大化利润,我们可以建立一个目标函数,考虑到市场需求和价格弹性等因素。
然后,我们将公司B的反应函数代入公司A的目标函数,求解出公司A的最优销售策略。
博弈行为中的演绎与归纳推理及其问题作者:潘天群文章来源:自然辩证法研究200303【内容提要】博弈逻辑(game logic)是随着博弈论的迅速发展而形成的一个新的学科,它是一行动逻辑。
博弈逻辑研究的是理性的人在互动行动中即博弈中的推理问题。
在博弈行为中存在演绎推理和归纳推理。
正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中同样存在悖论或者“问题”。
博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是否有效的问题。
【关键词】博弈逻辑/演绎推理与归纳推理/逆向归纳法悖论/归纳推理的合理性【正文】中图分类号:BS12文献标识码:A1一种新的逻辑:博弈逻辑博弈论研究人类活动中的互动行为,在经济学中得到广泛的运用。
在博弈论中,人类的所有活动,只要是互动行为,均可以看成是博弈行动。
在此基础上,一种新的逻辑“博弈逻辑”(game logic)得以兴起,它是一种特殊的行动逻辑(action logic)。
博弈论研究多个理性人在互动过程中如何选择自己的策略。
理性的人是使自己的目标或得益最大化的人,在经济活动中理性的人即是使经济目标最大化的人——经济人。
理性人如何使得自己的“得益”最大?关键是“推理”。
博弈逻辑中存在着两种研究纲领。
第一种研究纲领是结合模态逻辑系统,建立新的博弈逻辑系统。
在这方面,日本筑波大学的金子守(Mamoru Kaneko)教授是这方面的权威。
近几年,他在国际刊物上发表了大量有关博弈逻辑方面的论文。
他不仅在模态逻辑系统的基础上建立了多个博弈逻辑(game logic)系统,而且,建立了与博弈逻辑密切相关的公共知识逻辑(common knowledge logic)系统。
第二种研究纲领是研究博弈活动中的实际“推理问题”,许多博弈论专家在此方面做了大量的工作。
对博弈逻辑做整体的分析不是这里的任务,本文的目的是简要论述博弈活动中的推理问题,属于第二种研究纲领。
根据博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。
博弈行为中的演绎与归纳推理及其问题【内容撮要】博弈逻辑(game logic) 是随着博弈论的迅速进展而形成的一个新的学科,它是一步履逻辑。
博弈逻辑研究的是理性的人在互动步履中即博弈中的推理问题。
在博弈行为中存在演绎推理和归纳推理。
正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中一样存在悖论或“问题〞。
博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是不是有效的问题。
【关键词】博弈逻辑/ 演绎推理与归纳推理/ 逆向归纳法悖论/ 归纳推理的合理性【正文】1 一种新的逻辑:博弈逻辑博弈论研究人类活动中的互动行为,在经济学中取得遍及的运用。
在博弈论中,人类的所有活动,只假设是互动行为,均能够当作是博弈行动。
在此根底上,一种新的逻辑“博弈逻辑〞(game logic) 得以兴起,它是一种特殊的步履逻辑(action logic) 。
博弈论研究多个理性人在互动进程中如何选择本身的策略。
理性的人是使本身的目标或得益最大化的人,在经济活动中理性的人便是使经济目标最大化的人——经济人。
理性人如何使得本身的“得益〞最大?关键是“推理〞。
博弈逻辑中存在着两种研究纲领。
第一种研究纲领是结合模态逻辑系统,成立新的博弈逻辑系统。
在这方面,日本筑波大学的金子守(Mamoru Kaneko)传授是这方面的权威。
近几年,他在国际刊物上颁发了大量有关博弈逻辑方面的论文。
他不仅在模态逻辑系统的根底上成立了多个博弈逻辑(game logic) 系统,并且,成立了与博弈逻辑紧密相关的公共常识逻辑(common knowledge logic) 系统。
第二种研究纲领是研究博弈活动中的实际“推理问题〞,许多博弈论专家在此方面做了大量的工作。
对博弈逻辑做整体的阐发不是阿谁地址的任务,本文的目的是简要阐述博弈活动中的推理问题,属于第二种研究纲领。
依照博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。
但是,正如传统逻辑中存在着悖论〔演绎悖论和归纳悖论〕,在博弈逻辑中一样存在着悖论。
逆向归纳法
逆向归纳法(backward induction),是求解动态博弈均衡的方法,是博弈论中一个比较古老的概念,是指博弈参与人的行动存在着先后次序,并且后行动的参与人能够观察到前面的行动。
它的提出最早可以追溯到泽梅罗(1913)针对国际象棋有最优策略解的证明,后来人们将其推广到了更广泛的博弈中。
例如,在有限完美信息扩展型博弈中,就是用逆向归纳法(BI)来证明子博弈完美均衡(SPE)的存在以及求解SPE,其基本思路是从动态博弈中的最后一个阶段开始,局中人都遵循效用最大化原则选择行动,然后逐步倒推至前一个阶段,一直到博弈开始局中人的行动选择,其逻辑严密性毋庸置疑。
然而,当从终点往前推到某一决策点时,BI完全忽略了到达该决策点的以往历史行动,而这一历史行动当然会影响处于该决策点的局中人有关其对手将来如何采取行动的信念,例如,一个局中人如果观察到对手在过去没有按照BI进行行动选择,那么他就有理由相信他的对手仍会采取同样的模式进行下去,但是通过这种信念修正以后所做的选择就会与BI矛盾。
为了达到均衡解,为了能按BI进行推理求解,我们需要对局中人的信念或者说知识增加一些限制性条件,也就是说在什么样的前提下,BI是合理的,显然,仅仅要求每个局中人都理性是不够的,所有的局中人都必须知道所有的局中人都是理性的,所有的局中人都必须知道所有局中人都知道所有局中人
都是理性的……等等以至无穷,在这样的认知条件基础下,我们就不会偏离BI,即“在完美信息扩展型博弈中,理性的公共知识蕴含了BI”(Aumann1995)。