_囚徒困境_博弈的理论模型及现实思考

格式：pdf
大小：111.69 KB
文档页数：2

下载文档原格式

/ 2

博弈论论文囚徒困境的启示和思考

囚徒困境的启示和思考二、囚徒困境的解释如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。

参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。

另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。

就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是两种策略之中的支配性策略。

因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。

以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。

但根据以上假设，二人均为理性的个人，且只追求自己个人利益。

均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。

这就是“困境”所在。

实际上囚徒困境在我们的实际生活中也有很多，下面举两个进行说明三、经济学例子：关税战两个国家，在关税上可以有以两个选择:提高关税，以保护自己的商品。

（背叛）与对方达成关税协定，降低关税以利各自商品流通。

（合作）当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。

然后二国又重新达成关税协定。

囚徒困境,信任博弈,最后通牒,独裁者博弈。感想

囚徒困境,信任博弈,最后通牒,独裁者博弈。

感想在囚徒困境中，两名囚犯被关押在不同的牢房里，缺乏沟通的情况下面临做出合作或背叛的选择。

他们都知道如果两人都选择合作，那么他们的处境会比较好；但如果其中一人选择背叛而另一人选择合作，背叛者将获益而合作者将受损；如果两人都选择背叛，那么两人都会受到损失。

这个困境暗示了在没有信任和沟通的情况下，个人间的最优选择可能并不是最佳的整体结果。

信任博弈是一种涉及到信任和背叛的博弈。

在信任博弈中，两个参与者可以选择相互合作或者背叛对方。

如果两者都选择合作，他们都会受益；如果两者都选择背叛，他们都会受损；如果一个选择合作而另一个选择背叛，合作者将受到最大的损失而背叛者则获益最大。

在这种情况下，信任和合作是建立稳定关系的基础，但也存在被背叛的风险。

最后通牒是一种博弈策略，其中一方在给定时间内要求对方做出决策，否则将采取一定的行动。

这种策略常用于谈判和冲突解决中。

通过设置时间限制，最后通牒可以迫使对方在有限的时间内做出决策，以避免无休止的博弈和僵局。

独裁者博弈是一种博弈理论中的模型，描述了一个独裁者与其他个体之间的互动。

在这种博弈中，独裁者可以自行决定资源的分配方式，而其他个体只能接受独裁者的决策。

这种博弈模型中，独裁者通常会追求自己的最大利益，而其他个体则被动接受结果。

通过对囚徒困境、信任博弈、最后通牒和独裁者博弈的了解和思考，我认为在现实生活中，信任、合作和建立有效的沟通渠道非常重要。

尽管存在着各种博弈策略和困境，但通过互相理解和协商，我们可以寻求双赢的解决方案，促进社会的稳定与发展。

在处理复杂的问题时，我们应该尝试建立合作关系，避免盲目追求个人利益，以期实现更大范围的利益最大化。

现实中囚徒困境的实例

现实中囚徒困境的实例【实用版】目录1.囚徒困境的定义和概念2.囚徒困境在现实中的实例3.解决囚徒困境的方法和策略正文正文囚徒困境是博弈论中的一个经典模型，它描述了两个罪犯被捕后，警方分别与他们单独进行审讯。

如果两人都保持沉默，那么警方无法证明他们有罪，两人都将获得轻判；如果其中一个人供认，而另一个人保持沉默，那么沉默者将被判重刑，而另一个人则不被惩罚；如果两人都供认，则两人都将被判处较轻的刑期。

这个模型反映了在自私的情况下，合作可能导致更好的结果，而不合作则可能导致更差的结果。

尽管囚徒困境是一个抽象的模型，但在现实生活中，我们可以找到许多类似的实例。

例如，在商业竞争中，两家公司可能会陷入囚徒困境。

如果它们都降低价格，那么双方都将失去利润，但如果它们都保持高价，那么可能会有其他竞争者进入市场。

另一个例子是环境问题。

各国都知道减少排放将有利于全球环境，但如果其他国家不采取行动，那么单个国家采取行动将损害其经济。

这些实例都反映了在现实中，囚徒困境是一种常见的现象。

那么，如何解决囚徒困境呢？一种方法是通过合作。

在商业竞争中，如果两家公司可以达成协议，共同维持价格，那么双方都将受益。

在环境问题中，各国可以通过国际协议来共同减少排放。

然而，建立信任是合作面临的一个挑战。

在警方审讯的例子中，罪犯们很难相信对方会保持沉默。

因此，为了解决囚徒困境，我们需要找到方法来建立信任。

另一种方法是通过惩罚和奖励。

如果警方可以向罪犯们提供奖励，以鼓励他们保持沉默，或者制定严厉的惩罚措施，以阻止他们供认，那么囚徒困境就可以得到解决。

同样，在商业竞争中，如果一家公司可以向另一家公司提供奖励，以鼓励它们保持高价，或者制定严厉的惩罚措施，以阻止它们降低价格，那么囚徒困境也可以得到解决。

总的来说，囚徒困境在现实生活中很常见，而解决囚徒困境的方法包括合作和惩罚奖励。

“囚徒困境”引发的思考经济学理论论文

“囚徒困境”引发的思考经济学理论论文囚徒困境”博弈是图克（Tucker）1950年提出的一个著名的博弈模型，是完全信息静态博弈的典型例子。

一、基本模型囚徒困境博弈的基本情况如下：警察抓住了两个合伙犯罪的罪犯，但却缺乏足够的证据指证他们所犯的罪行。

如果其中至少有一人供认犯罪，就能确认罪名成立。

为了得到所需的口供，警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟，并给他们同样的选择机会；如果他们两人都拒不认罪，则他们会被以较轻的妨碍公务罪各判1年徒刑；如果两人中有一人坦白认罪，则坦白者从轻认罪，立即释放，而另一人则将重判8年徒刑；如果两人同时坦白认罪，则他们将被各判5年监禁。

如果分别用－1、－5和－8 表示罪犯被判刑1年、5年和8年的得益，用0表示罪犯被立即释放的得益，则两囚徒的得益矩阵如下：囚徒2坦白不坦白囚徒1 坦白－5，－5 0，－8不坦白－8，0 －1，－1在上图中，“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方，也就是两个罪犯；他们各自都有“不坦白”和“坦白”两种可选择的策略；因为这两个囚徒被隔离开，其中任何一人在选择策略时都不可能知道另一人的选择是什么，因此不管他们决策的时间是否真正相同，我们都可以把他们的决策看作是同时做出的。

其中矩阵中第一个数字代表决策结果后囚徒1的得益，第二个数字代表决策结果后囚徒2的得益。

博弈的结果是：由于这两个囚徒之间不能串通，并且各人都追求自己的最大利益而不会顾及同伙的利益，双方又都不敢相信或者说指望对方有合作精神，因此只能实现对他们都不理想的结果（各判5年），并且这个结果具有必然性，很难摆脱，因此这个博弈被称为“囚徒困境”。

［1］二、关于完全理性的思考囚徒困境博弈的一个假设是博弈方都是完全理性。

完全理性来源于经济学中的理性人假设，即博弈方都以个体利益最大化为目标，且有准确的判断选择能力，也不会“犯错误”。

以个体利益最大为目标被称为“个体理性”，有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。

(完整)博弈论经典模型全解析(入门级)

博弈论经典模型全解析(入门级)1。

囚徒困境这是博弈论中最最经典的案例了-—囚徒困境,非常耐人寻味。

“囚徒困境"说的是两个囚犯的故事。

这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。

在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作）.这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放，因为只要他们拒不承认，警方无法给他们定罪.但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金.而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。

当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

那么,这两个囚犯该怎么办呢？是选择互相合作还是互相背叛?从表面上看,他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。

但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子,他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。

这种想法的诱惑力实在太大了.但他也意识到,他的同伙也不是傻子，也会这样来设想他。

所以A犯的结论是，唯一理性的选择就是背叛同伙,把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。

而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。

所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

企业在信息化过程中需要与咨询企业、软件供应商打交道的。

在与这些企业打交道的过程中，我们不可避免地也会遇到类似的两难境地，这个时候需要相互之间有足够的了解与信任，没有起码的信任做基础,切不可贸然合作.在对对方有了足够的信任之后,诚意也是必不可少的，如果没有诚意或者太过贪婪，就可能闹到双方都没有好处的糟糕情况，造成企业之间的双输。

博弈论的囚徒困境模型

博弈论的囚徒困境模型引言博弈论是研究决策制定者在多方面利益冲突下进行选择的一门学科。

而囚徒困境模型是博弈论中最经典的模型之一，用于描述两个合作者之间存在利益冲突时可能出现的情况。

本文将详细介绍囚徒困境模型的基本概念、策略和解决方法，并探讨其在现实生活中的应用。

1. 囚徒困境模型的基本概念囚徒困境模型最早由美国数学家Melvin Dresher和Merrill Flood于1950年提出。

它是一个非零和博弈模型，意味着合作者之间的利益不完全一致，他们可以选择合作或背叛对方，从而获得不同的收益。

在囚徒困境模型中，通常有两名犯人被关押在不同的牢房里，无法相互沟通。

检察官给每个犯人提供了一个选择：如果两个人都保持沉默（即合作），那么他们将分别被判处较轻的刑期；如果其中一个人背叛（即不合作），而另一个人保持沉默，那么背叛者将被释放，而保持沉默者将被判处重刑；如果两个人都背叛，那么他们将各自被判处较重的刑期。

2. 囚徒困境模型的策略在囚徒困境模型中，每个犯人都有两种基本策略：合作和背叛。

根据对方的选择和自己的选择，可以得出四种不同的结果：互相合作、互相背叛、自己合作对方背叛、自己背叛对方合作。

这些结果对应着不同的收益。

为了量化这些收益，通常使用一个称为支付矩阵的工具。

支付矩阵是一个2x2的矩阵，其中每个元素表示在不同情况下每个合作者获得的收益。

在标准囚徒困境模型中，支付矩阵可以表示为：合作背叛合作R,R S,T背叛T,S P,P其中R表示互相合作时的收益，T表示自己背叛对方合作时的收益，S表示自己合作对方背叛时的收益，P表示互相背叛时的收益。

通常，R > T > P > S。

3. 囚徒困境模型的解决方法在囚徒困境模型中，每个犯人都希望获得最大的个人利益。

然而，如果两个犯人都追求个人利益，那么最终的结果将是两败俱伤。

如何选择合适的策略成为了一个关键问题。

在博弈论中，有许多不同的解决方法可以用于囚徒困境模型。

囚徒困境

信息共享：双方共享信息，提高决策的准确性
合作协议：达成合作协议，明确双方的责任和义务
惩罚机制：设立惩罚机制，对背叛行为进行惩罚
01
纳什均衡：在博弈论中，纳什均衡是指一种稳定的策略组合，使得每个参与者都不会因为改变策略而获得更好的结果。
02
合作与竞争：博弈论研究如何在合作与竞争中实现最优策略，以达到最佳结果。
03
应用领域：博弈论在政治、经济、军事、管理等领域都有广泛的应用，可以帮助人们更好地理解和解决实际问题。
04
经济学
博弈论：囚徒困境是博弈论的经典案例，研究参与者在决策过程中如何达到最优解
04
囚徒困境在市场营销中的应用：分析企业在市场竞争中的策略选择和合作竞争关系
囚徒困境在博弈论中的应用：分析博弈双方在决策过程中的策略选择
囚徒困境的破解
合作策略
建立信任：通过沟通和交流，建立双方之间的信任关系
01
信息共享：共享信息，使双方都能了解对方的意图和策略
02
制定规则：制定合作规则，确保双方都能遵守并执行
演讲人
囚徒困境
囚徒困境概述
囚徒困境的破解
囚徒困境的应用
囚徒困境概述
概念解释
囚徒困境：一种博弈论模型，描述两个囚犯在无法沟通的情况下，如何进行决策以获得最佳结果。
01
囚徒困境的决策结果：如果两个囚犯都选择合作，则两人都获得较低的刑罚；如果两个囚犯都选择背叛，则两人都获得较高的刑罚；如果一个囚犯选择合作，另一个选择背叛，则选择合作的囚犯将受到最严重的惩罚，选择背叛的囚犯将获得最轻的惩罚。
市场机制：囚徒困境可以解释市场机制中的合作与竞争关系
企业战略：囚徒困境可以指导企业在市场竞争中制定战略
公共政策：囚徒困境可以应用于公共政策制定，如环境保护、税收政策等

经济学中的囚徒困境及其应对措施

经济学中的囚徒困境及其应对措施经济学中的囚徒困境（Prisoner’s Dilemma）是博弈论中的一种典型模型，由于其简单和直观的表现形式，在经济学中一直被广泛应用。

囚徒困境模型主要讨论了类似合作与背叛的场景，在实际生活中也存在着很多类似的问题。

本文将从囚徒困境的定义、特点、解决方法等方面进行探讨。

一、囚徒困境的定义囚徒困境是博弈论中一个典型的非零和博弈模型。

在该模型中，两名囚徒被关进同一个监狱中，警察给他们分别下达交待自己罪行的指令，如果两人都交待自己的罪行，则两人都会被判处6个月的监禁。

如果其中一人交待，而另一人不交待，则交待的人将被判处1年的徒刑，而不交待的人将被判处10年的徒刑。

如果两人都不交待，则两人都将被判处3个月的徒刑。

二、囚徒困境的特点囚徒困境有以下几个特点：1. 合作与背叛之间的博弈：囚徒困境是一个两个囚犯之间的博弈，每个囚犯可以选择“合作”或“背叛”，两个人的最终结果受到对方选择的影响。

2. 零和博弈：囚徒困境是一个零和博弈模型，即囚犯们的收益和损失一直相对的，当一个囚犯获利时，另一个囚犯则会遭受损失，总收益和总损失相互抵消。

3. 完全信息博弈：囚徒困境是一种完全信息博弈，即双方都清楚地知道对方的选择和结果，不会出现信息不对称的情况。

三、囚徒困境的应对措施由于囚徒困境的特殊性质，协作往往不是两个囚犯的首选，因此我们需要一些应对措施来协调两方的行为。

1. 形成合作共赢的利益：在囚徒困境中，形成合作共赢的利益是解决问题的关键。

双方需要理解，合作是最优选择，互相信任，才能够达到最有利的结果。

因此，构建自信、信任、孕育互利的关系对双方都是有利的。

2. 及时沟通：沟通也是非常重要的一环。

囚徒困境中，双方需要传递信息，相互解析彼此的意图。

通过及时的沟通，发现问题所在，就可以很好地协调双方共同的利益。

3. 保持稳定合作：保持长期的合作也是非常重要的，而不是单纯的为了一时的利益。

在交往的过程中，需要建立习惯性的长期合作意识和文化，促进双方之间的信任。

简述囚徒困境及其结论

简述囚徒困境及其结论
囚徒困境是一个经典的博弈论案例,描述了两个囚犯被捕后被关进两个单独的牢房,无法通过通信相互帮助或寻求逃脱机会。

他们必须选择自己的行为,要么合作,要么互相背叛,以最大化自己的收益。

囚徒困境的假设是:两个人的行为都是理性的,不会考虑到道德或法律的因素;两个人的利益是一致的,他们背叛对方会导致自己受到更严厉的惩罚;他们无法找到第三方来帮助或合作。

在囚徒困境中,两个囚犯的最优策略是合作,这意味着他们应该将对方供出,从而各自获得一次逃脱的机会。

然而,如果他们选择合作,那么他们就必须同时供出对方,这将导致他们一起被判刑。

因此,两个囚犯都选择背叛,并各自获得了更高的收益,即逃脱了惩罚。

囚徒困境的结论是,在极端的情况下,两个人的行为取决于他们的理性和利益一致性,而不考虑道德或法律的因素。

在这种情况下,合作或背叛都是最优策略,但无法找到第三方来协助或合作。

囚徒困境的案例表明,在复杂的社会中,人们的行为往往受到理性和利益因素的影响,而不考虑道德和法律的因素。

这也提醒我们在决策时需要考虑多个因素,并做出理性的判断。

囚徒困境在生活中的启示

囚徒困境在生活中的启示
囚徒困境是一个经典的博弈模型，描述了两个囚徒在无法互通信息的情况下，如何做出最优策略选择，反映了个体理性与集体理性的冲突，这个模型在现实生活中有很多应用，囚徒困境在生活中的启示有以下几点：
1.合作与信任：在囚徒困境中，最理想的结果是通过双方合作来获得最佳利
益。

这启示我们在生活中要学会建立信任，通过合作来实现共赢。

2.理性思考：在面对困境时，我们需要理性地分析各种可能的结果，而不是
被情绪左右。

3.长期视角：囚徒困境告诉我们，短视的行为可能会导致长远的损失。

因
此，我们应该具备长远的眼光，考虑行为的长期影响。

4.策略思维：在处理类似困境时，我们需要制定合适的策略来平衡利益与风
险。

5.避免陷入零和博弈：囚徒困境的一个显著特点是零和博弈，即一方的收益
必然导致另一方的损失。

在生活中，我们应该努力避免陷入这种零和博弈的局面，而是通过合作实现双赢或多赢。

6.重视沟通与交流：在囚徒困境中，有效的沟通可以促进双方的合作，避免
陷入困境。

在生活中，我们也需要注重沟通与交流，以增进理解、建立信任，从而更好地解决问题。

7.培养道德与伦理：囚徒困境还提醒我们要注重道德与伦理的修养。

在面对
困境时，我们应该遵循道德原则，尊重他人的权益，以实现公平和正义。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ｎｏ．１７，２０１１

现代商贸工业ＭｏｄｅｒｎＢｕｓｉｎｅｓｓＴｒａｄｅＩｎｄｕｓｔｒｙ
现代商贸工业ＭｏｄｅｒｎＢｕｓｉｎｅｓｓＴｒａｄｅＩｎｄｕｓｔｒｙ
２０１１年第１７期
在此特假定Ｒ＝１。采用逆向归纳法，先分化问题便于分析，，阶段两囚徒的博弈策略选择这是一个完全信息条析ｔ＝Ｔ通过本文的以上分析可知，博弈的最终结件下的静态博弈，，。现在再回果会是（坦白，坦白）双方的收益为（－３，－３）到ｔ理性的博弈双方对于后一阶段的结果会＝Ｔ－１阶段，，非常清楚，双方都不愿 “ 吃亏” 的结果必然是（坦白，坦白）因此不管现阶段的博弈结果怎样，双方的收益都是在本阶此时双方的收益矩阵见表２。段收益的基础上加上－３，
２０１１年第考
宣飞查章林华德志陈磊
（）安徽大学经济学院，安徽合肥２３０６０１摘要：从剖析 “ 囚徒困境 ” 博弈的４个基本理论模型入手，深入研究导致“ 囚徒” 陷入困境的原因，再结合现实生活的实际，给出了解决 “ 囚徒困境 ” 问题的有效办法。 “ 关键词：囚徒困境 ” 博弈；理论模型；现实思考（）中图分类号：Ｃ９３文献标识码：Ａ文章编号：１６７２３１９８２０１１１７００３００２－－－对于囚徒Ａ来说，无论从表１的收益矩阵中可以看出， “ ” “ ” ， “ 囚徒选择坦白还是不坦白他的占优策略都是坦Ｂ囚徒困境是博弈论中非零和博弈的经典范例，它最早 ” ，。，白而对于囚徒来说情况也是如此因此在完全信息Ｂ是由Ｔｕｃｋｅｒ于１９５０年提出。它是建立在具有个人理性的理性的囚徒Ａ和Ｂ相互博弈的最终结果会是（坦条件下，理性人的基础上的，反映了个人最佳选择而非团体最佳选，），（，）。白坦白而并非集体理性选择结果不坦白不坦白但是现实生活中择。虽然囚徒困境本身只具有模型性质，２不完全信息的静态博弈人不为己，天诛地灭 ” ２．类似囚徒困境的例子却屡见不鲜。“ 在不完全信息条件下，两个囚徒采取行动并非是同时这句古话虽然过于极端，但揭露了人性中的理性自利一面。他们双方对彼此采取什么行动也是不清楚的。但是，在的，在很多时候，个体理性带来的却很可能是集体的不理性，如，这种条件下两个囚徒的收益情况还是与完全信息条件下，果每个人都仅按照自利的原则行事其结果往往是所有人具体如表１所示。在不完全信息的静态博弈模型中，相同，，囚徒困境” 正是对这一现象的都遭受损失。博弈论中的 “ 由于双方博弈只有一个回合，因而理性的参与者都是从自。真实写照。可谓 “ 你我谁不是囚徒，天下何处无困境 ” ，己的收益最大化来考虑的他们不存在合作的可能。一方随着经济社会的不断发展，构建和谐社会成为我国社，，面对于理性的囚徒来说他不知道囚徒Ｂ何时采取行Ａ囚徒困会发展的首要目标。面对这些生活中普遍存在的 “ ， “ 动也不知道囚徒采取的是坦白” 策略还是“ 不坦白” 策Ｂ境” 问题，需要我们深入研究囚徒困境博弈的经典理论模，， “ ” 。略为了使自己的收益达到最大化他会选择坦白策略型，结合我国现实，找到一条能够真正帮助我们走出困境的，，另一方面对于理性的囚徒来说他也不知道囚徒何时ＢＡ道路。采取行动，不知道他采取的是 “ 坦白” 策略还是“ 不坦白” 策２囚徒困境博弈的理论模型，， “ ” 略为了使自己的收益达到最大化他也会选择坦白策囚徒困境博弈模型随着博弈论的深入发展，具有很多在不完全信息条件下，参与博弈的两个囚徒都为略。所以，不同的形式，通常分为：完全信息的静态博弈、完全信息的了使自己 “ 不吃亏” 而会不约而同的采取“ 坦白” 策略，最终动态博弈、不完全信息的静态博弈和不完全信息的动态博，坦白，坦白）构成了不完全信息状态下静的博弈结果就是（弈。在讨论囚徒困境博弈的各种理论模型之前，先让我们态博弈的Ｂａｅｓ－Ｎａｓｈ均衡。ｙ看看它的基本模型的内容：警察抓住了两个合伙犯罪的罪２．３完全信息的动态博弈由于缺乏足够的证据指证他们的罪行，所以希望这两人犯，所谓动态博弈，就是指博弈的参与者之间进行的并非中至少有一人供认犯罪，就能确认罪名成立。为此警察将只是简单的一次博弈，而是不断重复进行。在现实生活中，这两个罪犯分别关押以防止他们串供，并告诉他们警方的动态博弈相较静态博弈更为常见，比如犯罪团伙会被警方。如果两人中只有一人坦白政策是 “ 坦白从宽，抗拒从严” 多次审讯，交易买卖会重复进行，国际间的战争此伏彼起等则坦白者立即释放，而另一人则将重判５年徒刑；如认罪，等。与此同时，基本博弈的重复进行也并非只是简单博弈则他们将各判３年监禁。当然罪犯果两个同时坦白认罪，的相互累加，如商业中的回头客问题。因而，为了应对生活知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍中存在的众多 “ 囚徒困境” 问题并成功走出困境，该动态博公务罪判处他们１年徒刑。弈模型就更值得我们进行深入研究。２．１完全信息的静态博弈在完全信息条件下的动态博弈，参与者们对彼此的行在完全信息条件下，两个囚徒Ａ和Ｂ对彼此的行为都动信息是完全了解的，而且双方都知道博弈持续次数较多，是完全清楚的，即他们在采取行动前会知道在自己采取这一次博弈中采取的策略会影响到以后的博弈收益，作为理项行动后对方针对自己的行为所做出的反应。那么，在上性的双方参与者，他们都不会为了获取短期的收益而牺牲表１即为两个囚徒的收益矩阵（收益向量的述模型框架下，囚徒困境” 模型来对其长远利益。我们继续以表１所示的 “ 第一个数字为囚徒Ａ的收益，收益向量的第二个数字为囚动态博弈进行探讨。。徒Ｂ的收益，下同）在现实生活中，绝大多数博弈都是在有限次内进行的，表１两个囚徒的收益矩阵很难无限制的进行下去，故在本文中只讨论有限次的动态囚徒Ａ并记Ｔ为基本博弈的重复次数。由于博弈进行的次博弈，囚坦白不坦白数较多，耗费的时间也会较长，必须把支付的时间价值考虑徒（，）（）坦白－３－３－５，０记Ｒ为时间折现因子。在有限次的博弈中，由于时间进去，Ｂ（）（）不坦白０，－５－１，－１价值对博弈参与者双方的影响程度是相同的，因而为了简
表２ｔ＝Ｔ－１阶段两个囚徒的收益矩阵
囚徒Ｂ坦白不坦白囚徒Ａ坦白不坦白（）（）－６，－６－８，－３（）（）－３，－８－４，－４
“ 坦白” 仍然是博弈双方的严格占从表２中可以看出，优策略，因而（坦白，坦白）是博弈双方在ｔ＝Ｔ－１阶段唯一每阶段“ 囚徒困境” 博弈的的纯Ｎａｓｈ均衡。以此往上类推，，结果都是博弈双方采用 “ 坦白” 所以Ｔ次重复博弈的子博弈精炼Ｎ坦白” 策略，ａｓｈ均衡是每个博弈阶段双方都采取 “ 。即每一阶段的博弈结果都是（坦白，坦白）２．４不完全信息的动态博弈在完全信息条件下，囚徒困境” 博弈的每Ｔ次重复的“ ，坦白，坦白）但是在现实生活中由于信阶段博弈结果都是（息的不对称，这种结果并非总是发生，我们常常看到屡次犯案的犯罪团伙总是百般抵赖妄想逃脱法律的惩罚。国外经济学家作试验也表明，在有限次重复博弈中合作行为也频繁出现，因此需要将不完全信息引入重复博弈。在双方参与者都是理性的情况下，依然可以采取逆向
１引言
作者简介：宣飞，安徽大学经济学院金融学专业研究生。
— ３０ —
Ｎｏ．１７，２０１１

进行博弈又怕对方背叛自己使自己的收益严重下降。在深囚徒困境 ” 博弈的４个基本模型后，如何帮助这入了解了 “ 囚徒 ” 走出困境从而解决社会中普遍存在的问题，成为些“ 。摆在笔者面前的重大问题在“ 囚徒困境 ” 博弈的理论模型中，囚徒Ａ和囚徒Ｂ之所以会不约而同的选择 “ 坦白” 策略，那是因为他们都想使各自的收益尽可能最大化，如果选择“ 不坦白” 策略则很可不坦白” 策能使得他们的收益达到最低。要想他们去选择 “ 略，则只能通过改变收益矩阵中的收益来实现，而改变收益则可以同过附加可置信威胁来实现。所谓附加可置信威是指在一博弈过程中，参与者Ａ选择一个战略后，该战胁，略会减少参与者Ｂ的收益而不会减少Ａ本身的收益，那么。采取的这个战略对来说就是可置信威胁ＡＢ还是以本文的博弈案例为模型，现附加一个前提假设：囚徒Ａ知道囚徒Ｂ曾经还做一案，若Ａ告发Ｂ则可使Ｂ多判两年，但是只有在Ａ选择 “ 不坦白” 策略而Ｂ选择“ 坦白” 策略时Ａ才会告发Ｂ，此时囚徒Ａ和Ｂ的收益矩阵见表３。