人工智能导论:第二章 蒙特卡洛搜索
- 格式:docx
- 大小:195.04 KB
- 文档页数:16
人工智能中在博弈中1. 引言人工智能(Artificial Intelligence, AI)作为一门涉及计算机科学、数学和认知心理学的交叉学科,近年来取得了巨大的发展。
在人工智能的研究领域中,博弈理论一直是一个重要的研究方向。
博弈是指在特定规则下,两个或多个参与者为了实现自己利益而进行的决策过程。
人工智能中在博弈中的研究,旨在开发出具有自主决策和战略规划能力的智能体,以应对复杂多变、具有不确定性和竞争性质的博弈环境。
2. 博弈理论与人工智能2.1 博弈理论概述博弈理论是数学和经济学领域中研究决策制定者行为及其结果的一门学科。
它通过建立数学模型来描述参与者之间相互作用、制定策略以及结果分配等问题。
博弈理论主要包括非合作博弈和合作博弈两个方向。
2.2 人工智能与非合作博弈非合作博弈是指参与者在决策过程中独立行动,追求自身利益最大化的博弈形式。
在人工智能中,非合作博弈常常被用于研究智能体之间的竞争与合作关系。
例如,人工智能在围棋、国际象棋等棋类游戏中的应用,通过搜索算法、评估函数等技术手段,使得计算机能够与人类顶尖选手进行对弈,并取得了重大突破。
2.3 人工智能与合作博弈合作博弈是指参与者通过互相合作来实现共同利益最大化的博弈形式。
在人工智能中,合作博弈常被用于研究多个智能体之间的协同决策和资源分配问题。
例如,在自动驾驶领域,多个无人车之间需要通过合作来实现交通流畅和安全。
3. 人工智能中的博弈算法3.1 极小化极大算法极小化极大(Minimax)算法是一种常用于非合作博弈中的搜索算法。
该算法通过递归地搜索游戏树来找到最优策略,并将参与者的利益最大化和最小化进行平衡。
极小化极大算法的核心思想是假设对手会做出最优决策,从而引导自己的决策。
3.2 强化学习算法强化学习是指智能体通过与环境的交互来学习最优策略的一种学习方法。
在博弈中,强化学习算法可以用于训练智能体在与对手对战中不断优化自己的决策和战略。
例如,AlphaGo利用深度强化学习算法成功击败了围棋世界冠军。
问题:指事件或事物的已知或当前状态与目标状态之间的有差异。
问题求解:指在一定的控制策略下,通过一系列的操作或运算来改变问题的状态,使之与目标状态接近或一直。
问题求解所需的知识(求解框架):叙述性知识、描述客观事物的特点及关系。
过程性知识、通常是解决问题的操作步骤和过程的知识,也称为操作性知识。
控制性知识、求解问题的方法和技巧的知识,确定解决问题的策略。
知识表示:研究在计算机中如何用最合适的形式表示问题求解过程中所需要的各种知识,包括构成问题求解框架的全部知识。
常用的知识表示形式:状态空间图,与或图,谓词逻辑,产生式,框架,语义网络盲目搜索:无向导的搜索,也称穷举搜素。
在搜索过程中,没有任何背景知识作指导,不考虑任何与解有关的信息,随机地或按预先规定的顺序(如广度优先和深度优先)机械地生成树的节点,并判断是否为解,直到找到解或证明问题无解为止。
特点:搜索效率太低,所以在实际中往往是不可行的。
启发函数:通过函数计算来评价每种选择的价值大小,用以指导搜索过程。
启发式搜索:利用问题本身的“启发性信息”不断地改变或调整搜索的方向,使搜索朝着问题本身最希望的方向进行,加速问题的求解并找到最优解。
特点:重排OPEN表,选择最有希望的节点加以扩展。
启发式搜索—全局择优算法:也叫做最好优先搜索,在启发性知识导航下的广度优先搜索,在OPEN表中保留所有已生成而为考察的节点,对其中的每个节点x计算启发函数h(x),从全部节点中选出最优节点进行扩展,而不管这个结点出现的搜索树的什么地方。
步1、把初始几点S。
放入OPEN表中,计算h(S。
);步2、若OPEN表为空,则搜索失败,退出。
步3、否则,移出OPEN表中第一节点N放入CLOSED表中,并冠以序号n;步4、若目标结点S。
=N,则搜索成功,利用CLOSED表中的返回指针找出S。
到N的路径即为所求解,退出。
步5、若N不可扩展,则转步2;步6、否则,扩展N,计算N的每个子节点x的启发函数h(x),并将N所有子节点x配以指向N的返回指针后放入OPEN表中,依据启发函数值h(x)对节点的计算,对OPEN表中所有节点按其启发函数值的大小以升序排列,转步2.局部择优:是启发性知识导航下的深度优先搜索,在OPEN表中保留所有已生成为为考察的节点,对其中新生成的每个子节点x计算启发函数h(x),从全部子节点中选出最优节点进行扩展,其选择下一个要考察的结点的范围是刚刚生成的全部子节点。
AlphaGo Zero原理一、AlphaGo Zero的背景1. AlphaGo Zero是由DeepMind团队开发的一款人工智能计算机程序,它在围棋领域达到了非常高的水平。
2. AlphaGo Zero在2017年首次被公开展示,在随后的比赛中击败了多位世界顶尖的围棋选手,引起了广泛的关注和讨论。
二、AlphaGo Zero的架构1. AlphaGo Zero是基于深度学习技术构建的,使用了神经网络和蒙特卡洛树搜索算法。
2. AlphaGo Zero的神经网络部分采用了残差网络(Residual Network)结构,具有很强的表示能力。
3. 蒙特卡洛树搜索算法是一种基于概率的搜索算法,通过模拟大量的随机样本来寻找最优解,结合了深度学习和强化学习的思想。
三、AlphaGo Zero的训练过程1. AlphaGo Zero的训练过程采用了自我对弈(self-play)的方式,即通过与自身进行大量对弈来不断提升自身的水平。
2. 在自我对弈的过程中,AlphaGo Zero不断地更新自己的策略网络和价值网络,从而不断优化自身的棋艺水平。
3. 自我对弈的方式使得AlphaGo Zero可以通过不断的学习和训练来提升自己的能力,最终达到了世界顶尖水平的围棋水平。
四、AlphaGo Zero的突破1. AlphaGo Zero在训练过程中不依赖于任何人类专家的棋谱数据,完全依靠自我对弈和深度学习,这使得它具有了更大的自主学习能力。
2. AlphaGo Zero在与人类顶尖选手对弈时,展现出了极高的棋艺水平和深厚的对弈功底,给人们带来了极大的震撼和启发。
3. AlphaGo Zero的突破引发了人们对人工智能在复杂领域的应用和发展前景的深刻思考,也推动了人类对深度学习和强化学习等技术的研究和应用。
五、AlphaGo Zero的影响1. AlphaGo Zero的问世标志着人工智能在复杂智力游戏领域取得了重大突破,为人们展示了人工智能在超越人类智慧方面的潜力。
第一章已达成成绩:分1【单项选择题】2016 年 3 月,人工智能程序 ()在韩国首尔以4:1 的比分战胜的人类围棋冠军李世石。
A、AlphaGoB、DeepMindC、DeepblueD、AlphaGo Zero我的答案: A 得分:分2【单项选择题】首个在新闻报导的翻译质量和正确率上能够比肩人工翻译的翻译系统是()。
A、苹果B、谷歌C、微软D、科大讯飞我的答案: C 得分:分3【多项选择题】属于家中的人工智能产品的有()。
A、智能音箱B、扫地机器人C、声控灯D、个人语音助手我的答案: ABD 得分:分4【多项选择题】目前外科手术领域的医用机器人的长处有()。
A、定位偏差小B、手术创口小C、不需要人类医生进行操作D、能够及时监控患者的状况E、能够帮助医生诊疗病情我的答案: AB 得分:分5【判断题】在神经网络方法以前,机器翻译主假如鉴于统计模型的翻译。
()我的答案:√得分:分6【判断题】人工智能拥有学会下棋的学习能力,是实现通用人工智能算法的基础。
()我的答案:√得分:分7【判断题】目前还没有成功进行无人自动驾驶的事例。
()我的答案:×得分:分8【判断题】智能家居应当能自动感知四周的环境,不需要人的控制。
()我的答案:√得分:分9【判断题】智能音箱实质上是音箱、智能语音交互系统、互联网、内容叠加的产物。
()我的答案:√得分:分10【判断题】鉴于句法的机器翻译是目前较为流行的翻译方法,基本达到了预期的理想。
()我的答案:×第二章已达成成绩:分1【单项选择题】被誉为计算机科学与人工智能之父的是()。
A、图灵B、费根鲍姆C、纽维尔D、西蒙我的答案: A 得分:分2【单项选择题】第一个成功应用的专家系统是()。
A、ELIZAB、DendralC、XconD、Deepblue我的答案: B 得分:分3【单项选择题】依据科学流行定义,人工智能就是和人类()相像的计算机程序。
A、思虑方式B、表达方式C、行为方式D、外观相貌我的答案: C 得分:分4【多项选择题】人工智能的基础包含()。
麻将AI算法研究麻将是一种源远流长的游戏,虽然有着很多玩家,但是也有很多人不太擅长这个游戏。
而随着现代计算机技术的发展,麻将AI算法的研究也越来越受到关注。
麻将AI的研究是为了让机器能够像人一样进行麻将游戏,从而提高游戏的趣味性和人机交互体验。
而麻将AI算法的研究主要有以下几个方面:一、手牌理论麻将AI算法的基础是手牌理论,即机器能够理解各种牌型的优劣和特征,从而做出最优的打牌和定缺决策。
目前,国内外许多麻将AI研究团队都会运用这一理论去指导AI算法的开发。
在手牌理论中,有很多的算法可以用来衡量牌型。
其中,传统的贡献值算法可以通过统计一种牌型能够贡献的基本分数来衡量牌型的价值。
但是计算公式比较简单,只考虑底分,并没有考虑到更多的情况,所以现在已经很少使用了。
相比之下,更多的麻将AI团队会采用连图算法,通过计算牌型之间的连通性,分析牌型的强弱,从而得出最优解。
二、搜索算法搜索算法也是麻将AI算法的关键。
麻将的牌型有很多种,而每种牌型都有数量上的变化,这会导致搜索空间变得非常大。
这时,怎样通过搜索算法降低搜索成本,剪枝,将搜索空间缩小到最小是非常重要的。
目前,最常用的算法是蒙特卡洛树搜索算法,该算法以人工智能计算的方式,通过对每个动作的模拟,最终确定出最优的行动方案。
而在应用此算法中时还需要考虑数值计算及每次搜索别人的行为建立模型的算法。
三、学习算法学习算法是麻将AI算法研究的一个最新成果,也是目前许多麻将AI团队正在研究的一个方向。
通过学习算法,机器可以更快速地学习麻将策略,从而更好地模拟人类思维进行游戏。
常用的学习算法有强化学习,该算法通过在游戏中模拟不同的策略,从而找出最优解。
在麻将AI研究中,强化学习算法可以通过模拟对局的方式,让电脑学习到经验和知识,最终调整出最优策略,让AI模拟人类思考和操作。
当然,麻将AI算法的研究也存在一些问题,比如如何更好地进行数据控制和智能辅助技术的开发,以及如何应用到实际游戏中去。
第7章高级搜索在第一章、第二章,我们分别介绍了深度优先、宽度优先、A*算法和AO*算法等常规的搜索算法。
深度优先、宽度优先等盲目搜索算法就不用说了,即便是A*算法,一般情况下,其算法复杂性仍然是指数时间级的。
因此,当问题的规模大到一定程度之后,这些常规的搜索算法就显得无能为力了。
本章将介绍一些相对比较新的搜索方法,如局部搜索、模拟退火和遗传算法等。
这些算法的一个共同特点是引入了随机因素,每次运行并不能保证求得问题的最优解,但经过多次运行之后,一般总能得到一个与最优解相差不太大的满意解。
以放弃每次必然找到最佳解,换取了算法时间复杂度的降低,以适合于求解大规模的优化问题。
7.1 基本概念7.1.1 组合优化问题在现实世界中,很多问题属于优化问题,或者可以转化为优化问题求解。
比如我们前面介绍过的旅行商问题(TSP),就是求解旅行商在满足给定的约束条件下的最短路径问题。
这里的约束条件是“从某个城市出发,经过n个指定的城市,每个城市只能且必须经过一次,最后再回到出发城市”。
还有皇后问题,它要求在一个n×n的国际象棋棋盘上,摆放n个皇后,使得n个皇后之间不能相互“捕捉”,即在任何一行、一列和任何一个斜线上,只能有一个皇后。
皇后问题本身并不是一个优化问题,但可以转化为优化问题来求解。
比如我们可以定义指标函数为棋盘上能够相互“捕捉”的皇后数,显然该指标函数的取值范围是一个大于等于0的整数,当棋盘上摆放了n个皇后,且其指标函数取值为最小值0时,刚好是问题的解。
因此皇后问题转变成了求解该指标函数最小的优化问题。
设x是决策变量,D是x的定义域,f(x)是指标函数,g(x)是约束条件集合。
则优化问题可以表示为,求解满足g(x)的f(x)最小值问题。
即())(|)(fxmin xg(7.1)x∈D如果在定义域D上,满足条件g(x)的解是有限的,则优化问题称为组合优化问题。
现实世界中的大量优化问题,属于组合优化问题。
alpha go原理AlphaGo是一种基于深度学习和强化学习原理的人工智能程序,它在围棋领域的突破引起了广泛的关注和讨论。
本文将从AlphaGo的原理出发,详细介绍其背后的技术和算法,并分析其对人工智能和人类思维的影响。
AlphaGo采用了深度学习技术,通过大量的训练数据来学习围棋的规则和策略。
它使用了卷积神经网络(CNN)来分析棋盘状态,并预测下一步最有可能的走法。
这种深度学习的方法使得AlphaGo能够具备较强的模式识别能力,从而更好地理解围棋的复杂性。
AlphaGo还运用了强化学习的原理,通过与自己对弈来不断提升自己的棋力。
它使用了蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)算法来选择最优的下法,并通过与预测结果的比较来优化网络模型。
这种强化学习的方法使得AlphaGo能够通过不断的实践和反馈来提高自己的棋艺,最终达到了人类顶尖职业选手的水平。
AlphaGo的突破在于它能够通过“自我对弈”来学习和进步。
在训练阶段,AlphaGo通过与自己进行大量的对弈,并从中学习和优化自己的模型。
这种自我对弈的方式使得AlphaGo能够不断挑战自己,并且从中发现新的策略和可能性。
这种“自我对弈”不仅仅是一种训练方法,更是一种思维方式。
它告诉我们,在面对困难和挑战时,我们可以通过不断地思考和实践来提高自己的能力,达到更好的结果。
AlphaGo的出现对人工智能和人类思维产生了深远的影响。
首先,它向我们展示了深度学习和强化学习在复杂问题上的强大能力。
通过大量的数据和不断的实践,AlphaGo能够超越人类的棋艺水平,这为我们在其他领域中应用人工智能提供了新的思路和方法。
AlphaGo的背后是一种新的思维方式,即“自我对弈”。
这种思维方式告诉我们,面对困难和挑战时,我们应该勇于挑战自己,不断思考和实践,找到解决问题的新方法和策略。
这种积极向上的思维方式对于我们个人的成长和发展,以及社会的进步和创新都具有重要的意义。
跳棋、象棋和围棋,深度解读人工智能的三盘棋从简单的跳棋、到复杂的象棋、直到最近热门的围棋,为何在人工智能领域,科学家们总是热衷于让AI下棋?人工智能不断挑战人类棋艺,每当人类被击败,我们也不免唏嘘和感叹,本文工知哥便跟大家一起回顾这重要的三盘棋,探讨下科学家们为何热衷研发棋类AI。
为何科学家们热衷于棋类AI?人工智能领域,科学家之所以热衷于让AI与人类下棋,不断挑战人类棋艺,主要有两个原因:1一方面,由于棋类游戏自古以来就被认为是人类智力活动的象征,模拟人类活动的AI自然要以此为目标。
成功达到甚至高于人类水平,可以吸引更多人关注并投身于人工智能的研究和应用中来;2另一方面,棋类也很适合作为新的AI算法的标(Benchmark)。
棋类游戏的规则简洁明了,输赢都在盘面,适合计算机来求解。
理论上只要在计算能力和算法上有新的突破,任何新的棋类游戏都有可能得到攻克。
在人工智能发展史上,有非常著名的三盘棋:跳棋、国际象棋和围棋。
先来看一下这三盘棋的复杂程度和难度系数:从表格可以看出,围棋的复杂度和难度系数最高,象棋次之,跳棋最低。
就象棋和围棋而言,两者博弈树复杂度相差无几,但状态空间复杂度差异很大,来通过一张动图感受下象棋和围棋的复杂度:第一盘棋:跳棋作为难度系数最低的跳棋,其空间复杂度也很低,甚至在不需要对博弈树剪枝的情况下,计算机凭借强大的计算能力便可以计算所有盘面的可能。
1952年,阿瑟·萨缪尔(Arthur Samuel,1901—1990)在IBM 公司研制了一个西洋跳棋程序,这个程序具有自学习能力,可通过对大量棋局的分析逐渐辨识出当前局面下的“好棋”和“坏棋”,从而不断提高弈棋水平,并很快就下赢了萨缪尔自己。
在1961年邀请萨缪尔提供一个该程序最好的对弈实例,于是,萨缪尔借机向康涅狄格州的跳棋冠军、当时全美排名第四的棋手发起了挑战,结果萨缪尔程序获胜,在当时引起很大的轰动。
IBM的股票一夜便暴涨了15个点。
1、在人工智能领域中,以下哪项技术主要用于处理非结构化数据?
A. 决策树算法
B. 自然语言处理(NLP)
C. 支持向量机
D. 线性回归(答案:B)
2、深度学习模型训练过程中,以下哪个步骤是为了减少模型在未见数据上的预测误差?
A. 数据增强
B. 正则化
C. 特征选择
D. 超参数调优(答案:B)
3、关于大型语言模型(如GPT系列),以下说法不正确的是?
A. 它们能够生成连贯的文本
B. 训练过程中需要大量的文本数据
C. 一旦训练完成,模型参数就不再改变
D. 可以用于多种自然语言处理任务(答案:C)
4、在卷积神经网络(CNN)中,卷积层的主要作用是?
A. 降低数据维度
B. 提取特征
C. 分类输出
D. 数据归一化(答案:B)
5、以下哪项技术不属于强化学习的范畴?
A. Q-learning
B. Deep Q-Network (DQN)
C. 蒙特卡洛树搜索
D. 梯度下降法(答案:D)
6、在生成对抗网络(GAN)中,以下哪两个部分是相互竞争的?
A. 生成器和判别器
B. 编码器和解码器
C. 损失函数和优化器
D. 特征提取器和分类器(答案:A)
7、关于Transformer模型,以下哪个描述是错误的?
A. 它采用了自注意力机制
B. 它是循环神经网络的一种
C. 它在处理长序列数据时表现出色
D. BERT是基于Transformer的预训练模型之一(答案:B)
8、在人工智能项目中,以下哪个步骤通常发生在数据预处理之后?
A. 数据收集
B. 特征工程
C. 模型评估
D. 模型部署(答案:B)。
第8章 蒙特卡罗博弈方法 计算机博弈理论的研究希望计算机能够像人一样、思维、判断和推理,并能够做出理性的决策。棋类博弈由于规则明确、竞技性高,且人类选手往往胜于计算机等原因,在计算机博弈理论的研究过程中一直受到重要关注和深入的探讨,并促进了计算机博弈理论的发展。传统的基于博弈树搜索和静态评估的博弈方法在国际象棋、中国象棋等棋类项目中获得了明显的成功,该类项目的盘面估计与博弈树搜索过程相对独立,棋子在盘面中的作用相对明确,且棋局中的专家规则相对较为容易概括和总结。 然而传统的博弈理论在计算机围棋博弈中遇到了明显的困难:围棋具有巨大的搜索空间;盘面评估与博弈树搜索紧密相关,只能通过对将来落子的可能性进行分析才能准确地确定棋子之间的关系;与此同时,高层次的围棋知识也很难归纳,归纳之后常有例外,并且在手工构建围棋知识和规则的过程中常会出现矛盾而导致不一致性。这些独特的因素为围棋及拥有类似性质的计算机博弈问题研究带来了新的挑战。 从2006年开始,计算机围棋博弈的相关研究有了跨越式的发展,基于蒙特卡罗模拟的博弈树搜索算法获得了重要的成功,并开始逐步引领计算机博弈理论研究的方向。在本章,我们将介绍蒙特卡罗博弈理论及其在围棋等棋类博弈中的应用。
8.1 基本概念 8.1.1 马尔科夫决策过程 马尔科夫决策过程是序贯决策过程的主要研究领域之一,一个序贯决策过程包括以下几点: 1. 所有的决策时刻点集; 2. 系统的所有可能的状态集合; 3. 可以采用的全体行动集合; 4. 与状态和行动相关联的既得回报或费用集合; 5. 与状态和行动相关联的转移概率的集合。 一般来讲,我们总认为决策者在开始做决策的时候这些量是已知的,在此基础上,马尔科夫决策过程是一类特殊的序贯决策问题,其特点是可采用的行动集、既得回报和转移概率只是依赖于当前的状态和选取的行动,而与过去的历史无关。一个马尔科夫决策过程的主要组成包括:决策周期、状态、行动、转移概率和报酬。作为决策者,所面对的问题根据系统的转移概率抓住特定的机会,适时的做出一系列的行动或选择,以期达到决策者心中的某种最优化目标。由于受控制的系统在持续发展,过去的决策可以通过状态的转移影响到当前的决策,一般来讲,当前一步的最优选择不一定是全局最优的决策,必须要考虑系统在将来状态上的预期机会和费用。
决策时刻与决策周期 选取行动的时间点被称为决策时刻,并用𝑇记录所有决策时刻的点集。𝑇是非负实直线上的子集,它可以是有限点集、可列无限点集或者是连续集合。在𝑇为离散的情况下,决策都是在决策时刻做出的;而在𝑇为连续集的情况下,系统可以连续的做决策,也可以在某些随机点或某些事件发生时做决策,甚至由决策者选择时机做出决策等。 对于离散时间问题,两个相邻的决策时刻被称为决策周期或者阶段,我们把有限阶段的决策时刻集记为𝑇={0,1,2,…,𝑁},而把无限阶段的决策时刻记为𝑇={0,1,2,…}。
状态与行动集 在每一个决策时刻上对系统的唯一描述符就是“状态”,记博弈系统的所有可能状态集合为𝑆,𝑆也被称为“状态空间”。如果在任一个决策时刻,决策者所观察到的状态为𝑖∈𝑆,则他可以在状态𝑖的可用行动集𝐴(𝑖)中选取行动𝑎∈𝐴(𝑖),其中𝐴(𝑖)也称为当前状态的“行动空间”。令: 𝐴=⋃𝑖∈𝑆𝐴(𝑖) 并且假设𝑆和𝐴(𝑖)都不依赖于时刻𝑡,状态集合𝑆和行动集合𝐴(𝑖)可以是任意的有限集合、可数的无限集合、有限维欧氏空间的紧致子集或者是完备可分度量空间上的博雷尔(Borel)子集,除非特别声明,我们总考虑𝑆和𝐴(𝑖)均为离散集的情况。 行动的选取可以是确定性的选取一个,也可以在多个允许的行动中随机性地选取。我们记 𝒫(𝐴(𝑖)) 为𝐴(𝑖)的博雷尔子集上的所有概率分布,记𝒫(𝐴)为𝐴的博雷尔子集上的所有概率分布,随机选取行动就是选取一个概率分布𝑃(·)∈𝒫(𝐴(𝑖)),其中,选取行动𝑎∈𝐴(𝑖)的概率是 𝑃(𝑎),如果这个分布是退化的,则为确定性地选择行动。
转移概率和报酬 对于任意一个决策时刻,在状态𝑖采取行动𝑎∈𝐴(𝑖)之后将产生两个结果,一是决策者获得报酬𝑟(𝑖,𝑎);二是下一个决策时刻系统所处的状态将由概率分布𝑃(·|𝑖,𝑎)决定。 报酬𝑟(𝑖,𝑎)是定义在𝑖∈𝑆和𝑎∈𝐴(𝑖)上的实值函数,当𝑟(𝑖,𝑎)为正值时,表示决策者所获得的收入,当其为负值时,表示决策者所付出的费用。从模型的角度来看,报酬𝑟(𝑖,𝑎)是即时的,但是在这个决策周期内它是何时或如何获得的并不重要,在选取行动后,模型只需知道它的值或期望值。实际上,报酬可以包括到下一个决策时刻的一次性收入、持续到下一阶段的累积收入,或转移到下一个状态的随机收入等。一般来讲报酬还依赖下一个决策时刻的状态𝑗,即𝑟(𝑖,𝑎,𝑗)。此时,采取行动𝑎的期望报酬值为: 𝑟(𝑖,𝑎)=∑𝑟(𝑖,𝑎,𝑗)𝑃(𝑗|𝑖,𝑎)𝑗∈𝑆 上式中非负函数𝑃(𝑗|𝑖,𝑎)是下一个决策时刻系统转移到状态𝑗的概率,函数𝑃(·
|𝑖,𝑎)被称为转移概率函数。需要注意的是,在一般的实际问题中,状态转移是可以发生在两个决策时刻的中间的,但是在不影响决策的情况下,我们的模型依然适用。通常我们假设: ∑𝑃(𝑗|𝑖,𝑎)𝑗∈𝑆=1
我们把五重组{𝑇,𝑆,𝐴(𝑖),𝑃(·|𝑖,𝑎),𝑟(𝑖,𝑎)}称为一个“马尔科夫决策过程”,其转移概率和报酬仅仅依赖于当前的状态和决策者选取的行动,而不依赖于过去的历史。这里我们把包括了最优准则的马尔科夫决策过程称为“马尔科夫决策问题”。
8.1.2 围棋落子模型 由于围棋是一种策略性二人棋类游戏,棋手在相互对弈的过程中所下的每一步棋,都是经过深思熟虑、精密决策的结果。在对弈时,棋手不仅要考虑当前所下棋子取得的效果,也要照顾到长远的利益。同时,棋手在下棋的过程中只针对当前盘面进行决策,对于同样的盘面,棋手不用去考虑其中经历的不同步骤。可以说,棋手在下定一手棋后所能获得的收益,只与当前棋盘的状态和即将选取的行动有关,而与以往的历史没有关系。所以围棋落子的过程应被看成马尔科夫决策过程。 我们知道, 马尔科夫决策过程可以用五重族{𝑇,𝑆,𝐴(𝑖),𝑃(·|𝑖,𝑎),𝑟(𝑖,𝑎)}表示,围棋落子过程也不例外: 决策时刻𝑇:显然地,围棋是一个有限阶段的决策问题,在有限步对弈后,就能看到决策的结果。设一盘棋的总行棋步数为𝑁 ,则在[1,𝑁]的时间内,黑白双方交替进行决策。由于黑方先行,所以在奇数时刻黑方进行决策,而在偶数时刻白方进行决策。 状态空间𝑆:记𝑠=(𝐵(𝑚),𝑊(𝑛))为状态,其中向量𝐵(𝑚)=(𝑝𝑏1,𝑝𝑏2,…,𝑝𝑏𝑚
)描述了到目前为止盘面上所有黑棋的位置,向量𝑊(𝑛)=(𝑝𝑤1,𝑝𝑤2,…,𝑝𝑤𝑛
)描述了到目
前为止盘面上所有白棋的位置。从前面的解释我们可以知道,围棋的状态空间𝑆是相当大的。 可用行动集𝐴(𝑠): 定义为在盘面𝑠下的所有可落子点的集合,如果无任何可落子点,则𝐴(𝑠)=∅。 转移概率𝑃(·|𝑠,𝑎):在给定状态和行动集(可落子点)下,转移概率决定了每一个行动(选择哪个落子点)被选择的概率,原则上其定义方式没有绝对限制,但是其定义与每个落子点的价值紧密相关。如前所述,围棋中每一个落子的潜在价值较为难以估计,为转移概率的定义带来了一定的难度。简单地,我们可以定义如下的等概率模型:
𝑃(·|𝑠,𝑎)={1, 如果𝐴(𝑠)=∅,即没有任何可落子点1𝑀,如果|𝐴(𝑠)|=𝑀,即有𝑀个可落子点
在该模型中,我们认为每一个可落子点被选中的概率是相等的,这样的假设前提是下棋者完全没有领域内的经验知识。实际上,经验可以指导我们以更高的概率选择更容易获胜的点作为最终的行棋。但是,由于围棋经验的好坏难以定量衡量,因此我们很难给出加入经验后各可行状态的转移概率。所以,我们在建立马尔科夫决策模型时,只简单的考虑从当前状态等概地转移到下一个可行状态的情况。 报酬:𝑅𝑏表示到目前为止黑棋所占领地域的大小,𝑅𝑤表示到目前为止白棋所占领地域的大小。围棋落子模型是一类较特殊的马尔科夫决策模型,因为在整个决策过程中所有的报酬并不累加为最后的总报酬,而只有最后一次决策后双方获得的报酬才是最后的总报酬,但这不影响决策时刻争取较高报酬的重要性。
8.2 蒙特卡罗方法及模拟评估理论 蒙特卡罗算法以及基于蒙特卡罗随机模拟的局面评估方法构成了蒙特卡罗博弈理论的基础。在本部分,我们将首先介绍蒙特卡罗算法,并以计算机围棋博弈为例介绍其在计算机博弈系统中的具体应用。
8.2.1 蒙特卡罗方法 蒙特卡罗(Monte-Carlo)方法也称为随机模拟方法,有时也称作随机抽样技术或统计试验方法。它的基本思想是,为了求解数学、物理、工程技术以及生产管理等方面的问题,首先建立一个概率模型或随机过程,使它的参数等于问题的解,然后通过对模型或过程的观察或抽样试验来计算所求参数的统计特征,最后给出所求解的近似值。 蒙特卡罗方法可以解决各种类型的问题,但总的来说,用蒙特卡罗方法处理的问题视其是否涉及随机过程的性态和结果可以分为两类: 第一类是确定性的数学问题,用蒙特卡罗方法求解这类问题的步骤是,首先建立一个与所求解有关的概率模型,使所求的解就是我们所建立模型的概率分布或数学期望,然后对这个模型进行随机抽样观察,即产生随机变量,最后用其算术平均值作为所求解的近似估计值。计算多重积分、求解逆矩阵、解线性代数方程组、解积分方程、解某些偏微分方程的边值问题和计算微分算子的特征值等都属于这一类。 第二类是随机性问题的模拟,例如中子在介质中的扩散等问题,这是因为中子在介质内部不仅受到某些确定性的影响,而且更多的是受到随机性的影响。对于这类问题,虽然有时可表示为多重积分或某些函数方程,并进而可考虑用随机抽样方法求解,然而一般情况下都不采用这种间接模拟方法,而是采用直接模拟方法,即根据实际物理情况的概率法则,用电子计算机进行抽样试验。原子核物理问题、运筹学中的库存问题、随机服务系统中的排队问题、动物的生态竞争和传染病的蔓延等都属于这一类。 在应用蒙特卡罗方法解决实际问题的过程中,往往需要重点考虑如下几个方面的内容: 1. 对求解的问题建立简单而又便于实现的概率统计模型,使所求的解恰好是所建立模型的概率分布或数学期望; 2. 根据概率统计模型的特点和计算实践的需要,尽量改进模型,以便减小方差和降低费用,提高计算效率; 3. 建立对随机变量的抽样方法,其中包括建立产生伪随机数的方法和建立对所遇到的分布产生随机变量的随机抽样方法; 4. 给出获得所求解的统计估计值及其方差或标准误差的方法。 下面,我们将通过蒙特卡罗方法的几个典型应用对其有一个更深的理解。