改进的Q学习算法在作业车间调度中的应用

格式：pdf
大小：252.60 KB
文档页数：3

下载文档原格式

基于Q学习算法的作业车间动态调度

基于Q 学习算法的作业车间动态调度①王维祺, 叶春明, 谭晓军(上海理工大学管理学院, 上海 200093)通讯作者: 王维祺, E-mail: *****************摘　要: 近年来, 在基于Q 学习算法的作业车间动态调度系统中, 状态-行动和奖励值靠人为主观设定, 导致学习效果不理想, 与已知最优解相比, 结果偏差较大. 为此, 基于作业车间调度问题的特质, 对Q 学习算法的要素进行重新设计, 并用标准算例库进行仿真测试. 将结果先与已知最优解和混合灰狼优化算法、离散布谷鸟算法和量子鲸鱼群算法在近似程度、最小值方面进行比较分析. 实验结果表明, 与国内求解作业车间调度问题的Q 学习算法相比, 该方法在最优解的近似程度上显著提升, 与群智能算法相比, 在大多数算例中, 寻优能力方面有显著提升.关键词: 智能制造; 作业车间调度; Q 学习算法引用格式: 王维祺,叶春明,谭晓军.基于Q 学习算法的作业车间动态调度.计算机系统应用,2020,29(11):218–226. /1003-3254/7579.htmlJob Shop Dynamic Scheduling Based on Q-Learning AlgorithmWANG Wei-Qi, YE Chun-Ming, TAN Xiao-Jun(College of management, University of Shanghai for Science and Technology, Shanghai 200093, China)Abstract : In recent years, in the job shop dynamic scheduling system based on Q-learning algorithm, the state action and reward value are set subjectively by human beings, which leads to the unsatisfactory learning effect. Compared with the known optimal solution, the result deviation is larger. For this reason, based on the characteristics of job shop scheduling problem, the elements of Q-learning algorithm are redesigned, and simulation test is carried out with standard case library.The results are compared with the known optimal solution, the hybrid Gray Wolf algorithm, the discrete cuckoo algorithm and the quantum whale swarm algorithm in terms of approximation and minimum. The experimental results show that compared with the Q-learning algorithm for solving the job shop scheduling problem in China, this method is significantly improved in the approximate degree of the optimal solution, and compared with the group intelligence algorithm, in most cases, the optimization ability is significantly improved.Key words : intelligent manufacturing; job shop scheduling; Q-learning algorithm2018年, 我国工业增加值在GDP 中所占百分比为33.9%, 与1952年的17.6%相比, 在66年间增加了约两倍, 这说明我国工业的总体规模完成了从小变大的历史性突破. 就目前而言, 我国制造业在生产能力利用效率方面仍然处于比较低的水平. 这是因为传统制造业的生产调度模式已无法适应供应链体系的快速变化. 因此, 要对生产车间调度模式进行深入研究, 将传统的生产车间调度模式向智能化和高效化的方向发展.智能和高效的生产调度模式不仅仅与机器和工件所处的状态有关, 还与在加工过程中所存在的多种客观因素有关. 我国正在大力支持对数字化车间的建设,解决制造设备在制造能力方面的自治问题. 如今, 国内计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: ************.cn Computer Systems & Applications,2020,29(11):218−226 [doi: 10.15888/ki.csa.007579] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 基金项目: 国家自然科学基金(71840003); 上海理工大学科技发展基金(2018KJFZ043)Foundation item: National Natural Science Foundation of China (71840003); Science and Technology Development Fund of University of Shanghai for Science and Technology (2018KJFZ043)收稿时间: 2019-12-15; 修改时间: 2020-01-21, 2020-03-03; 采用时间: 2020-03-20; csa 在线出版时间: 2020-10-29各生产加工企业以实现《智能制造2025》目标为契机, 大力推进生产调度智能化, 建立智能型工厂.本文针对车间调度问题的特点对Q学习算法的主要要素进行重新设计, 使其与求解车间调度问题相适应, 并将设计好的算法对作业车间调度问题的标准化算例进行测试, 评估该方法的合理性.1 国内外研究综述作业车间调度涉及时间和资源约束下的活动排序以满足给定的目标[1]. 由于目标冲突、资源有限以及难以准确建模模拟真实场景, 因此是一个复杂的决策活动. 在制造环境中, 调度活动映射到操作和资源到机器.调度器的目的是确定每个操作的开始时间, 以便在满足容量和技术约束的同时实现期望的性能度量. 在当今高度竞争的制造环境中, 明确需要能够在可接受的时间范围内产生良好解决方案的健壮和灵活的方法.对解空间的搜索过程以识别最优调度的算法的计算时间随着问题大小呈指数增加.近五年来, 国内外针对作业车间调度问题的研究主要聚焦在两个方向, 一是通过自适应搜索的方法对该问题进行求解. 二是使用机器学习工具来研究调度过程, 以获得任何新问题的调度.1.1 自适应搜索方法国外肯定了运用智能算法对求解作业车间生产调度(Job-shop Scheduling Problem, JSP)问题具有十分重要的作用. 其中, Kurdi等[2]在遗传算法中加入了新岛模型, 解决了目标为最大完工时间的作业车间调度问题, 但在其他优化问题中尚未验证其有效性; Asad-zadeh等[3]用并行人工蜂群算法(PABC)求解作业车间生产调度问题, 该算法收敛速度非常快, 且求解质量高; Silva等[4]用转移瓶颈程序来解决车间作业调度问题, 尽管最小化了生产时间, 但是难以在寻求全局解决办法方面实现多样化; Mudjihartono等[5]提出了将粒子群算法加入到遗传算法中, 设计出能够实现并行编程的新算法, 该算法求解效果较好, 但在非并行算法中, 由于问题大小的增加使得整个算法的求解速度大大减慢.国内关于求解JSP调度问题的主要方法同样是利用群智能优化算法. 其中, Shen等[6]将处理调度问题的处理时间不确定性考虑在内, 建立了不确定机会约束模型. 结果表明, 对于不确定性作业车间调度问题, 萤火虫优化算法可以得到比粒子群优化算法更好的结果;沈桂芳等[7]将随机均匀设计法(RUDHS)与协调搜索优化算法相结合, 对JSP典型测试用例进行了仿真, 其结果表明, RUDHS算法具有更高的效率; 杨小东等[8]对作业车间调度问题, 提出了分布式算法(TSEDA), 为了保证解决方案的可行性, 采用了编码和解码的机制;顾文斌等[9]用生物启发的方法对粒子群优化算法进行改进, 使作业车间调度的最大总处理时间最小; 施文章等[10]将模拟退火方法引入到布谷鸟搜索算法中, 并在标准车间调度问题中使用改进的作业车间调度问题; Li等[11]对传统的TLBO进行了改进, 以提高对JSP的解决方案的多样化和集约化, 计算时间有待提升;陈宇轩[12]通过区间数对不确定过程的加工时间进行表征, 研究了具有不确定加工时间特征的柔性作业车间调度问题; Zeng等[13]将区间数理论引入遗传算法的变异过程中, 用改善后的遗传算法求解柔性作业车间调度问题; 钱晓雯[14]提出一种基于可变邻域搜索的动态焰火算法, 用于求解具有最小化最大完工时间为特征的作业车间调度问题(JSP). 在标准算例集中, 该算法具有一定的鲁棒性, 提高了优化精度和收敛性; Zhang 等[15]研究了在具有动态性的制造环境中的柔性装配作业车间调度问题, 发现约束规划是解决此问题的有效方法, 其解的适应性优于混合整数线性规划以及静态和动态情况下的所有调度规则.1.2 主动调度算法与机器学习工具相结合的方法相对于作业序列优化, 近年来关于主动调度算法与机器学习工具相结合的国内外相关文献较少. 曹琛祺等[16]通过对调度队列进行变换, 将原来排序的调度问题转化为了可分类的调度问题, 构造出基于人工神经网络的分类器. 对于新的调度实例, 使用训练好的分类器来导出优先级, 然后使用优先级来获得调度序列; Tselios等[17]提出一个混合方法来处理作业车间调度问题. 该方法包括3个阶段: 第一阶段利用遗传算法产生一组初始解, 在第二阶段作为递归神经网络的输入.在第三阶段, 使用自适应学习速率和类似禁忌搜索的算法, 以改进递归神经网络返回的解; Shahrabi等[18]提出了一种基于可变邻域搜索(VNS)的调度方法. 考虑到事件驱动策略, 为了在任何重新调度点获得VNS 的适当参数, 使用Q学习算法进行强化学习; Waschneck 等[19]将谷歌的深度强化学习网络应用于作业车间生产调度, 实现了工业4.0的生产控制; Kuhnle等[20]设计了2020 年第 29 卷第 11 期计算机系统应用一种用于自适应订单调度的强化学习算法, 提出了强化学习算法在车间生产系统中的评价方法和准则.2 作业车间调度问题描述与定义JSP 问题可描述为: n 个工件在指定的m 台机器上进行加工, 工件可用一个集合workpiece (WP)表示, 机器可用一个集合machine (MC)表示. 各工件在各机器上的工序事先给定, 目标是使得某些加工性能指标达到最优. 本论文用于衡量加工性能的指标是使最大完工时间最小化.为了确保作业车间能够正常运行, 设定的约束条件有: 各工件经过其准备时间后即可开始加工; 在每个加工阶段, 有且仅有一台机器对同一个工件进行加工,每个工件也只能是由一台机器对其进行加工; 一个操作一旦开始就不允许中途间断, 整个加工过程中机器均有效; 各工件必须按事先规定的工艺路线对其进行加工; 不考虑工件的优先权; 各工件的操作需等待.Z =min(C max )(1)C ik −T ik +M (1−S ihk )≥C ih(2)C jk −C ik +M (1−X i jk )≥T jk(3)C jk ≥0(4)S ihk ,X i jk ∈{0,1}(5)i ,j ∈{1,2,···,n }(6)h ,k ∈{1,2,···,m }(7)其中, 式(1)为目标函数Z , C max 用来表示最大完工时间makespan; 第一个约束条件为式(2), 用来表示工序之间的先后约束关系, C ik 表示第i 个工件在第k 台机器上的完工时间, T ik 表示第i 个工件在第k 台机器上的加工时间, M 为一个无穷大数, S ihk 表示工件i 在机器h 和机器k 上加工的先后顺序, 若机器h 先于机器k 加工工件i , S ihk 取值为1, 否则为0, C ih 表示第i 个工件在第h 台机器上的完工时间; 第二个约束条件式(3)表示工序无抢占行为, C jk 表示第j 个工件在第k 台机器上的完工时间, X ijk 表示工件i 和工件j 在同一台机器K 上进行加工的先后顺序, 若工件i 先于工件j 在机器k 上进行加工, 则X ijk 取值为1, 否则为0, T jk 表示第j 个工件在第k 台机器上的加工时间, 第三个约束条件式(4)表示总的完工时间为非零值. 第4~6个约束条件即式(5)~式(7)是具体的取值范围.3 强化学习与Q 学习算法概述3.1 强化学习定义首先, 可将机器学习领域按学习模式划分为监督学习、无监督学习以及强化学习[19]. 强化学习(Reinforce-ment Learning, RL)是机器学习的一个分支. 其次, RL 是一种以目标为导向的学习, 智能体以“试错”的方式来进行学习, 通过与环境进行交互获得奖励指导行为[20].其目标是使智能体所获得的奖励最大化.具体而言, RL 解决的问题是, 针对一个具体问题得到一个最优的策略, 既在当前状态下采取的最佳行为, 使得在该策略下获得的长期回报能够达到最大.在RL 中, 算法将外界环境以奖励量最大化的方式展现, 该算法没有直接对智能体所应该采取的动作或行为进行指导, 而是智能体通过动作所对应的奖励值的多少来采取行动.对于智能体所选择的行为, 其不只是影响到了瞬时所获得的奖励, 而且还对接下来的行为和最终获得的奖励和产生影响.3.2 强化学习模型在当前状态下, 智能体执行了一个动作, 并与环境进行交互, 然后得到下一个轮次的奖励, 以及进入到下一个轮次的状态中去, 依此循环往复.奖励: 通常记作R t , 表示第t 个时间段的返回奖励值, 是一个标量, 回报是所有即时奖励的累积和.行为: 通常记作Action, 是来自于动作空间, 可以是连续的动作, 也可以是离散动作.状态: 是指当前智能体所处的状态.策略: 是指智能体在特定状态下的行为依据, 是从状态到动作的映射, 规定了智能体应该采取的动作的概率分布. 函数定义为a =π(s ), 即输入为状态s , 输出为行为a . 作为RL 中最为重要的内容, 策略设计的质量与智能体所采取的行动以及算法的整体性能息息相关.策略可分为确定策略和随机策略. 确定策略就是某一状态下的确定动作, 而随机策略是以概率来描述,即某一状态下执行这一动作的概率, 如式(8)所示.π(a |s )=P [A t =a |S t =s ](8)如果对状态转移矩阵不加以考虑, 智能体与环境的互动接口应包括行动、即时奖励和所属的状态.如图1所示, 智能体与环境的一个交互过程可准确的表述为: 在S t 状态下执行A t 这一动作, 然后在t +1时计算机系统应用2020 年第 29 卷第 11 期间先得到即时奖励R t +1. 每一步, 智能体工具策略选择一个行动执行, 然后感知下一个状态和即时回报, 通过经验再修改自己的策略.S tS t +1S t +2A tR t +1A t +1R t +2图1 能体与环境的交互过程3.3 Q 学习算法概述Q 学习算法(Q Learning, QL)的伪代码如下:Q (s ,a )∀s ∈A (s )·Initialize , , arbitrarily, and Q (terminal -state , )=0Repeat(for each episode):Initialize SRepeat(for each step of episode):Choose A from S using policy derived from Q Take action A , observe R , S'Q (s ,a )←Q (s ,a )+α[R +γmax a Q (s ′,a )−Q (s ,a )]s ←s ′Until s is terminal该算法中, 采样数据阶段, 为了保证一定的探索性,采用策略. 在更新Q 值时, 采用完全贪婪策略, 即直接选Q 值最大的动作, 与当前的行动策略无关[21].由于Q 学习算法并不关注智能体行动时所遵循的策略, 而仅仅是采取最好的Q 值, 其学习的规则与实行的规则不用, 因此, 这是一种异策略的学习算法. 学习流程如图2所示.开始结束初始化随机 Q 值启动情景据 ε-greedy 策略选择状态 s 下的行为 a 执行行为 a , 转移到新状态 s ′, 并获得奖励 r 是否是最终状态NY图2 QL 算法流程具体步骤如下:1)初始化Q 函数为某一任意值.2)根据ε贪婪策略, 在状态下执行某一行为, 并转移到新状态.3)根据式(9)更新规则更新上一状态的Q 值.Q (s ,a )=Q (s ,a )+α(r +γmax Q (s ′,a ′)−Q (s ,a ))(9)4)重复步骤2)和3), 直到达到最终状态.4 适用于作业车间调度问题的Q 学习算法4.1 策略的设定一般用于求解JSP 问题的Q 学习算法是将行为和需要加工的工件一一对应, 作为该算法的可选策略[22],以标准算例ft06为例, 如表1所示. 此外, 每个工件所对应的状态有两个, 即在加工状态和待加工状态, 因此,状态数为工件的2n . 这样设置的原因是一般用于求解JSP 问题的Q 学习算法所学习的对象是各个工件加工的顺序. 由于这与JSP 问题中工件实际所处的状态存在一定的偏差, 因而影响了调度性能.表1 一般Q 学习算法的策略设定动作加工的工件编号动作加工的工件编号Action11Action44Action22Action55Action33Action66本文提出的改进的Q 学习算法(Improved Q-Learning algorithm, IQL)所学习的对象不是各个工件加工的优先级, 而是策略选择的优先级, 通过不断试错,直接按不同策略所反馈的奖励值大小来选择策略, 从而间接地决定工件的加工顺序. 具体如表2所示, 设定5个基本动作分别对应5种不同的状态, 动作和所对应的状态共同构成了策略. 其中, Action1偏向于加工当前阶段落后的工作; Action2偏向于加工下一阶段耗时最短的工作; Action3偏向于加工当前阶段领先的工作;A c t i o n 4偏向于加工下一阶段耗时最长的工作;Action5该机器闲置.表2 改进的Q 学习算法的策略设定动作工件所处的状态Action1当前阶段落后Action2下一阶段耗时最短Action3当前阶段领先Action4下一阶段耗时最长Action5机器闲置4.2 智能体介入调度的选择分别对以下两种情况进行选择:第1种情况: 当前无可选进程.2020 年第 29 卷第 11 期计算机系统应用既没有空闲的机器, 或者没有处于闲置态的作业.此时不需要智能体介入调度, 各台机器只需要继续对当前工件进行当前工序的加工即可.第2种情况: 存在可选进程.既机器完成了某个工件的某道工序作业, 呈空闲状态, 且还有某些工件存在某些工序需要加工. 此时,需要智能体介入调度.4.3 智能体介入调度的选择根据作业车间调度的特点, 综合考虑了两种实际情况来对奖励制度进行设置:1)平均总的机器加工效率与奖励成正比PET=TCTS(10)如式(10)所示, 加工效率PET就是总的任务完成的时间TC与耗费时间TS的比值. 可以看出, 总的任务完成时间不变的情况下, 耗费时间越短, 加工效率越高.由于在作业车间调度问题中, 每个工件加工有给出固定的加工阶段, 即每个工件所对应的加工次序存在先后顺序, 每道工序有其固定的加工时间. 所以, 最后完成加工工作所耗费的时间肯定是大于等于固定需要的时间. 耗费时间越接近固定需要的时间, 说明浪费的时间少, 加工效率高, 得到的奖励也就越多.2)加工消耗时间与惩罚成正比这里设置了一个与加工时间成平方关系的惩罚.这是本文的关键点也是创新所在, 因为在刚开始加工时候, 需要加工的任务多, 选择多, 可以很容易把机器安排得非常紧凑, 决策显得作用并不是特别大. 但是随着加工进度推进后, 决策的难度越高, 很容易出现前面阶段调度得很好, 但是后面阶段就差了. 这里设置平方关系后, 到后面每耗费多一个时间, 扣罚是快速增长的.从而迫使智能体在加工后期也非常谨慎调度.根据奖惩制度设置的瞬间奖励更新函数如式(11)所示, 其中, JRT为剩余加工时间, 总的任务完成时间TC与剩余加工时间JRT的差值表示当前完工时间, 表示加工阶段, 当前完工时间与加工阶段的比值表示平均各阶段的完工时间, 是一个惩罚函数, 表示越是临近完工, 相应的惩罚也就越大, 调度也会变得越加谨慎.reward=reward+TC−JRTtick−0.00001×tick2(11)该奖惩制度的设置, 与一般用于求解JSP问题的Q学习算法中的奖励设置有明显的不同[23]. 通常, 在用Q学习算法求解此类问题中, 选择两种特征参数, 比如作业平均松弛时间和剩余作业的平均执行时间, 其比值的大小反映了当前的调度效率, 通过比值, 人为地将整个调度状态空间划分为一维的m个状态, 然后针对每一种状态, 指定一个具体的数值来表示奖惩. 其缺点在于忽视了车间调度规则的复杂性, 仅凭两个特征参数的比值无法对当前调度的好坏做充分的评价.JSP问题的Q学习的更新过程如式(12)所示.Q new=Q+α×[reward+TC−JRTtick−0.00001×tick2+discount factor∗Q Maxnext−Q](12) 4.4 改进的Q学习算法收敛性分析S tS t+1Q MaxS t S t+1IQL算法会创建一个Q表用来保存每个状态所对应的Q值, 由式(12)可知, 与状态所对应的Q值到得到最终值, 状态所对应的保持恒定, 否则状态的Q值就会随着状态的Q值的变化而发生改变. 由于整个过程是一个回溯的过程, 所以前面所有的动作所对应的状态都无法达到稳定值.S t+1Q new 假设下一个状态的Q值未恒定, 为了使达到稳定状态, 将式(12)进行简化, 得式(13).Q new=(1−α)Q+α×[reward+TC−JRTtick−0.00001×tick2+discount factor∗Q Maxnext](13)对式(13)进行第一次迭代, 如式(14)所示, 迭代n次后, 如式(15)所示, 收敛证明过程如式(14)~式(17)所示.Q new=(1−α)2Q+(1−α)α×[reward+TC−JRTtick−0.00001×tick2+discount factor×Q Maxnext](14)∵n→∞,(1−α)⊂(0,1)(15)∴lim n→∞(1−α)n→0(16) Q new=reward+TC−JRTtick−0.00001×tick2+discount factor×Q Maxnext=reward+TC−JRTtick−0.00001×tick2+discount factor×Q next(17)Q new此时, 收敛.计算机系统应用2020 年第 29 卷第 11 期5 结果分析选择标准算例库中的abz5、abz7、abz9、ft06、ft10、ft20、la01、la02、la03、la04、la06、la11、la16、la21、la26、la31、swv06、swv16、yn1、yn2和yn3共21个不同规模大小的算例, 对用于求解JSP问题的IQL算法进行验证, 将该算法中的参数: 学习率、折扣因子和贪婪因子, 分别设置为0.1、0.97和0.8.算法的运算环境为Windows 10专业版64位操作系统, Intel(R)Core(TM)i5-4300U CPU @2.50GHz处理器, 8 GB RAM. 算法的编程实现软件为Python 3.6版本, 用于测试和比较的算法均重复独立运行20次, 求得最小值和均值.为了能更好的与文献中提到的混合灰狼优化算法(Hybrid Gray Wolf Optimization, HGWO)[24]、离散布谷鸟算法(Discrete Cuckoo Search, DCS)[25]和量子鲸鱼群优化算法(Quantum Whale Swarm Optimization, QWSO)[26]进行比较, 各算法的参数设置与文献保持一致, 具体设置如下:1) HGWO: 种群规模设为30, 最大迭代次数为500,独立运行次数为30.2) DCS: 鸟窝的个数为30, 宿主发现外来鸟蛋的概率为0.25.3) QWSO: 所有鲸鱼个体先进行基本位置更新操作, 然后进行量子旋转操作, 迭代开始为其启动时机,启动概率为1.此外, 为了便于比较, 选择最小值误差率和平均值误差率这两个指标来衡量不同算法的求解性能. 最小值误差率为该算法所求的最小值与已知最优解的差与已知最优解之比, 用来衡量算法所能求得的最优解与已知最优解的接近程度, 该值越小, 说明算法求解的寻优质量越优. 平均值误差率为该算法所求的平均值与已知最优解的差与已知最优解之比, 用来衡量各个算法在独立运行20次后的平均值与已知最优解的接近程度, 该值越小, 表明算法求解的总体质量越优.5.1 回报函数曲线变化分析以算例ft06、ft10和ft20为例, 回报函数曲线变化如图3~图5所示, 在迭代近6000次后, 回报函数均趋于稳定状态, 且在训练过程中曲线无明显波动, 说明学习过程比较平稳, 并与数据规模无关.5.2 寻优收敛曲线分析与文献[19]进行对比, 以ft06、ft10、ft20算例为例, 如图6~图8所示, 可以看出IQL算法在收敛速度上有显著提高.与3种群智能算法进行对比, 以ft10算例为例, 寻优曲线变化如图9所示, IQL算法的收敛速度远低于群智能算法, 这说明还有进一步提高的可能性.250200150100500200040006000800010 000奖励值迭代次数图3 算例ft06的回报函数曲线变化590058005700560055000200040006000800010 000奖励值迭代次数图4 算例ft10的回报函数曲线变化620060505900575056000200040006000800010 000奖励值迭代次数图5 算例ft20的回报函数曲线变化IQL算法的收敛速度明显慢于群智能算法, 是因为此算法的求解过程是一个对策略的选择不断进行探索, 不断试错的过程, 学习的目标是使奖励值最大所对应的策略, 是间接寻优的过程. 而群智能算法则是以寻找最优解为其目标, 通过对数据进行编码, 以一定规则进行寻优后解码, 是直接寻优的过程.86787062540200040006000800010 000最大完工时间(s)迭代次数IQLQL图6 算例ft06的Q学习算法收敛对比2020 年第 29 卷第 11 期计算机系统应用105010301010990970200040006000800010 000最大完工时间 (s )迭代次数IQL QL图7 算例ft10的Q 学习算法收敛对比13211301128112611241200040006000800010 000最大完工时间 (s )迭代次数IQL QL图8 算例ft20的Q 学习算法收敛对比1480135012201090960200040006000800010 000最大完工时间 (s )迭代次数IQL QL QWSO图9 算例ft10的3种群智能算法的寻优曲线变化5.3 求解结果对比分析5.3.1 IQL 算法与已知最优解的对比分析从表3中可以看出, IQL 算法的最小值误差率(IQLmin error rate)为0的有4个算例, 在3%以内的算例有7个, 在5%以内的算例有11个, 在10%以内的算例有16个, 约占所有算例的76%. 图12为算例ft10的调度结果.5.3.2 IQL 算法与QL 算法的对比分析表4为这两种算法的最小值误差率(min error rate)、平均值误差率(avg error rate), 分别对这两种指标进行方差分析.首先, 对最小值误差率和平均值误差率进行配对样本T 检验, 结果如表5所示, 以小值误差率的检验结果为例, 均值X 约为–0.130, 标准差SD 为0.142, 成对差分均值的标准误S E 为0.031, 置信区间C I 为[–0.195, –0.065], α值小于0.05说明IQL 算法与QL 算法在求解质量上具有显著差异, 配对T 检验的t 值为负数(–4.183), 说明IQL 算法在寻优质量上显著优于QL 算法. 具体而言, 如表5所示, 求解质量提升率超过5%的有12个算例, 超过10%的有7个算例, 超过20%的有6个算例.表3 IQL 算法与已知最优解的对比实例尺寸C *IQLmin error rate(%)abz510×101234 3.08abz720×1565614.18abz920×1567910.46ft066×6550.00ft1010×10930 4.41ft2020×511657.12la0110×5666 1.35la0210×5655 4.58la0310×55978.88la0410×55900.00la0615×59260.00la1120×51222 2.29la1610×10945 2.54la2115×101110 4.32la2620×10126913.48la3130×1017847.40swv0620×15167822.23swv1650×1029240.00yn120×208889.94yn220×209099.94yn320×2089319.84表4 IQL 算法与QL 算法在误差率上的方差分析结果指标¯XSD SE t n αMin error rate –0.1300.1420.031–4.183200.000Avg error rate –0.1500.1410.031–4.857200.000同理, 从平均值误差率的配对样本T 检验结果可以看出, IQL 算法在总体性能上显著优于QL 算法.5.3.3 IQL 算法与HGWO 算法、DCS 算法和QWSO 算法的对比分析HGWO 算法、DCS 算法和QWSO 算法的最小值误差率和平均值误差率以文献[24–26]中的数据为准,与IQL 算法的结果进行配对样本T 检验, 结果如表6所示, 以最小值误差率的检验结果为例, 在与HGWO 算法的比较中, α大于0.05, t 值为1.093, 说明IQL 算法与HGWO 算法在求解结果上无显著差异; 与DCS 算法和QWSO 算法的比较中, α值均小于0.05, 说明求解结果存在着显著差异, t 值均为负数, 说明IQL 算法在求解质量上显著优于DCS 算法和QWSO 算法. 具体而言, 如表6所示, 求解质量优于HGWO 算法的有9个算例, 约占所有算例的42.86%; 求解质量优于DCS 算法的有15个算例, 约占所有算例的71.43%; 求计算机系统应用2020 年第 29 卷第 11 期。

优化算法在生产调度中的应用探讨

优化算法在生产调度中的应用探讨在当今竞争激烈的制造业环境中，高效的生产调度是企业提高生产效率、降低成本、增强市场竞争力的关键因素之一。

生产调度的目标是在满足一系列约束条件的前提下，合理分配资源，安排生产任务的顺序和时间，以实现最优的生产性能指标，如最小化生产周期、最大化设备利用率、最小化库存成本等。

为了实现这些目标，优化算法在生产调度中发挥着越来越重要的作用。

优化算法是一种能够在给定的搜索空间中寻找最优解或近似最优解的计算方法。

在生产调度领域，常见的优化算法包括遗传算法、模拟退火算法、蚁群算法、粒子群优化算法等。

这些算法具有不同的特点和适用范围，能够根据具体的生产调度问题进行选择和应用。

遗传算法是一种基于生物进化原理的优化算法，它通过模拟自然选择、交叉和变异等过程来搜索最优解。

在生产调度中，遗传算法可以将生产任务的安排编码为染色体，通过不断地进化染色体群体来找到最优的调度方案。

例如，在车间作业调度问题中，可以将每个任务的加工顺序和机器分配编码为染色体的基因，然后利用遗传算法的操作来优化这些基因的组合，以达到最小化生产周期的目标。

模拟退火算法则是基于物理中固体退火的原理，通过在搜索过程中以一定的概率接受劣解，从而避免陷入局部最优解。

在生产调度中，模拟退火算法可以用于解决复杂的多目标调度问题，如同时考虑生产周期、设备利用率和能源消耗等多个目标。

通过在解空间中进行随机搜索，并根据温度参数控制接受劣解的概率，模拟退火算法能够在一定程度上跳出局部最优，找到更优的全局解。

蚁群算法是受蚂蚁觅食行为启发而提出的一种优化算法。

蚂蚁在寻找食物的过程中会释放信息素，其他蚂蚁会根据信息素的浓度来选择路径。

在生产调度中，可以将生产任务看作是食物源，将调度方案看作是蚂蚁的路径，通过模拟蚂蚁释放和跟随信息素的过程来寻找最优的调度方案。

蚁群算法在解决具有路径选择和资源分配问题的生产调度中具有较好的效果。

粒子群优化算法是通过模拟鸟群的觅食行为来进行优化搜索。

基于改进遗传算法的柔性作业车间调度方法研究

摘要：针对柔性作业车间调度问题，提出了一种自适应的遗传机制，构造出自适应的适值函数定义方法，设计了相应的自适应选择、交叉和变异３种算子。为了解决同一工序的不同机器的负荷平衡，提出了表征机器加工能力的能力系数。通过轮换方法实现了相同工序不同机器之间的调度。仿真实验结果表明，该调度算法具有可行性。关键词：柔性作业车间调度；改进遗传算法；适值函数
Ａｂｓｔｒａｃｔ：Ａｉｍｉｎｇａｔｔｈｅｌｆｅｘｉｂｌｅｌｆｏｗ— ｓｈｏｐｓｃｈｅｄｕｌｉｎｇｐｒｏｂｌｅｍ，ａｍｏｄｉｉｆｅｄａｄａｐｔｉｖｅｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍｗａｓｇｉｖｅｎ．Ａｈｉｇｈｌｙａｄａｐｔｉｖｅ
性、计算原理上的随机性和自适应性，且鲁棒性强，适
０引言
柔性作业车间调度问题（ｌｆｅｘｉｂｌｅｌｆｏｗ－一ｓｈｏｐｓｃｈｅｄ．ｕｌｉｎｇｐｒｏｂｌｅｍ，ＦＦＳＰ）也称混合Ｆｌｏｗ－一ｓｈｏｐ调度问题，是指带有机器可选柔性的车间调度问题。该问题的主
ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００１一－４５５１．２０１４．０６．０１１
基于改进遗传算法的柔性作业车间调度方法研究水
廖珊，翟所霞，鲁玉军

改进粒子群算法求解车间作业调度问题

改进粒子群算法求解车间作业调度问题
葛晶;高广宇;王虔翔
【期刊名称】《现代计算机》
【年(卷),期】2022(28)13
【摘要】车间作业调度问题给出了一组作业和一组机器,每台机器一次最多只能处理一项工作,每个作业由一系列操作组成,每个操作都需要在给定机器上以给定长度
的不间断时间段内进行处理,目的是求解最优的加工顺序,使调度的总完工时间最小。

本文使用的方法是粒子群优化算法,思想来源于鸟类的群体觅食行为,属于群智能算
法的一种,但是该算法存在局部搜索能力差,易陷入局部极值的问题。

本文借鉴交叉
变异的思想对其进行改进,实验证明本文方法明显优于标准粒子群算法,在给定用例
取得了最优测试结果。

【总页数】7页(P39-44)
【作者】葛晶;高广宇;王虔翔
【作者单位】北京理工大学计算机学院
【正文语种】中文
【中图分类】O15
【相关文献】
1.改进粒子群算法在求解柔性作业车间调度问题中的应用*
2.改进的混合粒子群算
法求解作业车间调度问题3.改进粒子群算法在求解柔性作业车间调度问题中的应
用4.多目标粒子群算法求解混合多处理机任务作业车间调度问题研究5.混合粒子群算法求解作业车间调度问题
因版权原因，仅展示原文概要，查看原文内容请购买。

基于Q学习的任务调度问题的改进研究

调度问题的关键就在于如何将调度问题建模为ＭＤ模型。一个ＭＤＰ型可以表示如下Ｐ模
｛Ａ，Ｓ，ｆＳ＋）ｒＳ，ｆ，（，ａ）Ｓ，，Ｐ（ｆａ，ｆ１，（ｆａ）ＷＳ，ｒ；ｆ
就是图Ｇ中的一个节点；是任务前驱图中
力。而在产品生产过程中，任务的规划和分解，
子任务间的调度与优化作为协同工作的基础，就显得尤为重要。目前，有效的调度方法与优化技
近年出现的一些启发式算法为求解此类ＮＰ完全
问题提供了新的途径。其中，遗传算法以解决大空间、非线性、全局寻优等复杂问题时具有传统
７个子任务的约束关系图。对于一个任务前驱图Ｇ，Ｇ＝）（，，其中为子任务集，一个子任务
，
ｐｏｅｓＭＤＰ为基础＿，过试错机制来获得最ｒｃｓ，）ｌ通刚
优行为策略。因此，采用强化学习求解设计任务
始时间。现在的目标就是，寻找一个分配调度策略，
１问题定义
任务调度问题可以简单的描述为，由设计任务分解出的 Ⅳ个子任务要在个处理机上加工，每个子任务要在某个处理机上连续加工一段时间，调度就是将各个子任务恰当的分配给处理
其中，Ｐｅ（￣ｒｄＴ）表示的前驱节点集合，

基于改进量子进化算法的作业车间调度研究

基于改进量子进化算法的作业车间调度研究张建明【摘要】针对作业车间调度问题,以最大完工时间最小化为优化目标,提出了跳跃基因量子进化算法(JGQEA).该算法在量子进化算法的基础上引入跳跃基因算子,同时采用动态调整量子旋转角策略以提高算法的搜索能力.通过仿真实验验证了算法的有效性,结果表明JGQEA优于QEA等几种进化算法.【期刊名称】《浙江理工大学学报》【年(卷),期】2014(031)003【总页数】6页(P310-315)【关键词】作业车间调度;转换机制;量子进化;旋转角;跳跃算子【作者】张建明【作者单位】浙江理工大学理学院,310018杭州【正文语种】中文【中图分类】TP18量子算法是以量子力学原理为基础，它最本质的特点是利用量子态的相干性和叠加性，以及量子比特之间的纠缠性，与经典算法最本质的区别在于量子并行性。

因此，量子计算比经典计算在速度上会有指数级的提高。

但基于量子力学原理的量子计算机还处于研制的初级阶段，因此，将量子计算与传统智能计算相结合的量子智能计算就运用而生。

1996年Narayanan和Moore提出了量子遗传算法（quantum geneticalgorithm，QGA），并应用于解决TSP问题［1］，开创了量子智能计算研究的新方向。

2000年，由Han等［2］将量子位和量子门的概念引入进化算法，并用组合优化问题验证了算法的有效性。

2002年，Han等［3］在量子遗传算法的基础上，引入种群迁移机制，提出了量子衍生遗传算法（quantum inspired genetic algorithm，QIGA）。

目前对QGA的改进方式主要包括算法结构、进化方式以及编码方法等，比如中国科技大学杨俊安等［4］提出了一种多宇宙并行量子遗传算法，属于算法结构的改进；西南交通大学的张葛祥等［5］提出的采用量子比特相位比较法更新量子门和自适应调整搜索网格策略，与西南交通大学的陈辉等［6］提出的混沌更新旋转门转角的量子遗传算法，都属于进化策略方面的改进；在编码方法上的改进有：清华大学王凌等［7］给出的基于二进制编码的混合量子遗传算法和基于实数编码的混合量子遗传算法，李士勇等［8-9］在求解连续优化问题时提出的基于实数编码和目标函数梯度信息的双链量子遗传算法，以及基于量子位Bloch球面的量子进化算法［10］等。

基于深度强化学习的柔性作业车间调度问题

基于深度强化学习的柔性作业车间调度问题一、研究背景与意义随着全球制造业竞争的加剧，企业对生产效率和成本控制的要求越来越高。

柔性作业车间调度作为一种有效的生产管理手段，能够帮助企业实现生产资源的合理配置，提高生产效率，降低生产成本。

传统的柔性作业车间调度方法在面对复杂多变的生产环境时，往往难以满足企业的需求。

研究一种基于深度强化学习的柔性作业车间调度方法具有重要的理论和实际意义。

深度强化学习是一种结合了深度学习和强化学习的方法，通过构建神经网络模型来学习任务的状态转移概率和策略。

深度强化学习在许多领域取得了显著的成果，如游戏智能、机器人控制等。

将深度强化学习应用于柔性作业车间调度问题，可以充分发挥深度学习在处理非线性、高维、复杂问题方面的优势，提高调度算法的性能。

本研究旨在构建一种基于深度强化学习的柔性作业车间调度方法，以解决传统调度方法在面对复杂多变的生产环境时所面临的挑战。

通过对现有相关研究成果的分析和归纳，本文提出了一种适用于柔性作业车间调度问题的深度强化学习框架。

该框架包括状态表示、动作选择和价值评估三个主要部分，能够有效地处理非线性、高维、复杂的生产环境数据。

本研究还将探讨如何将深度强化学习方法与其他先进的优化算法相结合，以进一步提高调度算法的性能。

通过对实际生产数据的采集和分析，验证所提出的方法在解决实际柔性作业车间调度问题中的有效性。

本研究具有较强的理论和实际意义，对于推动柔性作业车间调度方法的发展，提高企业生产效率和降低生产成本具有重要价值。

1.1 柔性作业车间调度问题的定义和特点柔性作业车间调度问题是指在给定的生产过程中，如何在有限的时间和资源内，对多个作业任务进行有效的安排和调度，以满足生产目标和客户需求的问题。

柔性作业车间调度问题的主要特点是：任务数量多：柔性作业车间通常需要处理多个作业任务，这些任务可能涉及不同的产品类型、工艺流程或生产线。

任务之间存在相互依赖关系：在实际生产过程中，一个作业任务的完成往往依赖于其他作业任务的完成。

基于改进遗传算法的车间调度优化研究

基于改进遗传算法的车间调度优化研究车间调度优化是制造企业中非常重要的问题之一，它涉及到生产成本、交货时间、库存量等关键因素。

随着信息技术的不断发展，调度问题的求解方法也随之发展。

遗传算法是一种被广泛应用于优化问题求解的算法。

在本文中，我将探讨基于改进遗传算法的车间调度优化研究。

一、车间调度的基本概念车间调度是指通过对生产活动的安排和调度以达到生产计划目标的过程。

调度问题的目标通常是最小化制造时间、最大化生产效率、最小化停机时间等。

调度问题的主要影响因素包括任务的数量、任务的类型、任务的模型、调度技术等。

二、遗传算法的基本原理遗传算法是一种模拟自然界进化原理的计算机算法。

它是一种优化算法，它可以用于解决各种问题，包括数学优化、工程设计、学习等。

遗传算法的基本原理是模拟生物种群的遗传进化过程，通过不断地迭代、变异和选择来求解问题。

在遗传算法中，每个个体都被表示为染色体，染色体由基因组成。

每个基因都代表问题的一个特定解决方案的组成部分。

通过交叉、变异等遗传操作，随机生成一个新的染色体。

然后，通过计算适应度函数来评估每个染色体，以便更好地选择优秀个体。

最终，遗传算法通过代际交替选择，使整个个体群体更好地进化，最终找到问题的最优解。

三、遗传算法在车间调度问题中的应用在车间调度问题中，遗传算法可以被应用于优化任务的执行顺序，以实现最优的生产效率。

具体而言，遗传算法可以用于寻找最优的任务执行序列，以最小化总的生产时间并保持生产效率。

在车间调度问题中，任务的数量和类型是变化的。

对于以上问题，可以使用基于改进的遗传算法来解决。

而这种算法是可以针对目标函数进行自适应调整的。

在改进的遗传算法中，种群动态评估值是算法的核心，在每一代交叉、变异之前要重新计算。

这种自适应机制能够提高算法的收敛速度和搜索能力。

四、改进遗传算法的关键技术改进遗传算法的一个重要技术是种群多样性的保持。

种群多样性的保持是指使得染色体之间的差异尽可能大，并且算法不会收敛于局部极小值。

基于改进遗传算法的作业车间调度优化研究

基于改进遗传算法的作业车间调度优化研究随着工业化进程的不断推进，各种生产力工具得到了广泛应用。

作为其中的一个重要工具，作业车间在制造工艺中占据着举足轻重的地位。

而其中最终的合理安排和调度，对于整个工作质量和效率的提升都有着至关重要的作用。

因此，实现作业车间的调度优化，成为了一个重要的科研和应用问题。

目前，作业车间调度问题已被证明是NP困难问题，尤其是在计划决策的影响因素增加的情况下。

针对此类问题，采用遗传算法进行解决已成为一个重要的策略。

但是，传统遗传算法的搜索能力有限，易陷入局部最优解。

因此，在此基础上，发展了各种改进遗传算法，以提高搜索效率和改善搜索质量。

一种经典改进遗传算法是粒子群算法（Particle Swarm Optimization, PSO）。

PSO算法结合了动态搜索和迭代计算的特点，在实现优化目标时具有良好的表现。

同时，遗传算法和模拟退火算法也常常被用来协同搜索解决作业车间调度优化问题。

总体而言，基于改进遗传算法的作业车间调度优化研究，在实践中已取得一些显著的成果，可以应用到不同的生产线和不同类型的作业车间。

但是，仍然存在一些问题和挑战。

首先，对于搜索解的质量，仍然需要进一步优化。

虽然在不同算法的协同下，可以提高解的寻找能力，但是如何更加全面、准确、快速地寻找最优解，是该领域需要解决的一个难题。

其次，对算法的复杂度和普适性的考虑也不能忽视。

作业车间调度问题具有高度复杂性，尤其是在考虑到不同的生产条件和不同的生产流程时，需要设计适合于不同场景的算法，而这往往需要高度的智能化和专业化技术支撑。

综上所述，基于改进遗传算法的作业车间调度优化研究，是一个具有广泛应用前景和深刻理论意义的领域。

通过不断深化相关研究和探索，相信一定有办法解决前述的问题，并取得更好的成果。

基于改进遗传算法的车间调度问题的求解研究

基于改进遗传算法的车间调度问题的求解研究随着工业生产水平的不断提高，越来越多的企业开始意识到车间调度问题的重要性。

实际上，车间调度问题是现代生产中的一个关键环节，能够直接影响到企业的生产效率和经济效益。

为了更好地解决这一问题，许多学者开始尝试应用遗传算法等智能算法进行求解研究。

一、车间调度问题的定义和优化目标车间调度问题是指在限定的时间内，根据生产任务和工艺要求，最优地安排设备和人力资源的具体任务，以实现最佳的生产效率和质量。

在实际应用中，车间调度问题常常是NP难问题，因此求解起来较为困难。

针对车间调度问题的优化目标，主要包括以下几个方面：1. 最大化设备的利用率和生产效率，节约生产成本，提高经济利益。

2. 实现任务分配的均衡，确保各任务得到公平的执行，提高生产品质。

3. 最小化生产周期，缩短生产交货期，满足客户需求。

二、传统车间调度问题的解法及其不足传统的车间调度问题解法多采用确定性算法，如贪心算法、动态规划算法、分支定界算法等。

这类算法求解速度较快，但是无法充分考虑复杂生产环节的变化，无法应对复杂的车间生产调度问题。

同时，这类算法偏向于局部优化，难以满足全局优化的需求。

三、基于遗传算法的车间调度问题求解方法为了更好地解决车间调度问题，学者们开始采用基于遗传算法的智能求解方法。

遗传算法是一种模拟自然进化过程的优化算法，具有强大的全局搜索能力和自适应性，能够在寻找解空间中全局最优解的同时，应对复杂生产环节的多变性。

基于遗传算法的车间调度问题求解方法主要包括以下几个步骤：1. 将车间调度问题抽象成适合遗传算法求解的数学模型，并确定优化目标。

2. 设计适当的交叉、变异和选择算子，根据生产环境和目标的特点定制化选择算子。

3. 建立适当的适应度函数，将车间调度问题的优化目标定量化。

4. 运行遗传算法，直到满足最优解的停止准则。

基于遗传算法的车间调度问题求解方法的优点在于：1. 具有强大的全局搜索能力，能够充分考虑生产环节的多变性，寻找最优解。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

摘
要：在制造业系统中车间调度是一项关键技术，以用强化学习中的Ｑ学习实现对车间作业的动态调度。可
传统的Ｑ学习存在收敛速度慢和容易导致局部收敛的矛盾，为此提出一种改进的Ｑ学习算法。在行为动作上提出了
一
种双层动作合成的动作组，出常规数学中“ 给聚度 ” 概念来衡量在某一状态动作组选择的均匀程度，到既能加速达
一
种用强化学习方法来解决ＪＰ问题，Ｓ并且提出了一种复合
式的规则。
提出了许多最优化求解方法，由于其本身的复杂性，但至今尚
未形成系统的理论与方法。如何寻求有效可行的调度求解方
Ａｓｒｃ：ＴｅｏｈｐＰｏｌ（Ｓ）ｉａｋｙｔｈｏｇａｕａｔｒｇｓｓｍ，ａｄｔｅＱｌａｉｇｗｓｕｅｏｂｔｔｈｂＳｏｒｂｅＪＰｓｅｃｎｌｙｉｍｎｆｕｉｙｔａＪｍｅｏｎｃｎｅｎｈｅｒｎａｓｄｔｎｒａｚ．ＴｅｉｐｏｅａｉｇａｏｔａｓｇｅｔｅａｓｏｔａｉｏａａｇｒｈａｍｔｉｎｆｌｎｅｌｅｉｈｒｖｄＱｌｒｎｌｒｈｗｓｕｇｓｄｂｃｕｅｆｈｔｄｔｎｏｉｍｈｓｌｉｔｓｏｏａｄｉｔｍｅｎｇｉｍｅｅｒｉｌｌｔｉａｏｓｗ
改进的Ｑ学习算法在作业车间调度中的应用
王超郭，静包振强，
（．州工业职业技术学院电子信息工程系，１扬江苏扬州２５０；２扬州大学信息工程学院，２０９．江苏扬州２５０）２０９
（ａｇｈｏｙｉｅｕＣ）ｗｎｃａ＠ｐ．ｄ．ｇ１
收敛又能防止局部收敛的目的，能有效适应现今复杂多变的动态生产环境。实验表明，方法运用于动态车间调度该
中有较好的效；强化学习；Ｑ学习；聚度
中图分类号：Ｐ９Ｔ３１文献标志码：Ａ
ＡｐｌａｉｎｏｒｖｄＱａｎｎｌｏｉｍｏｊｂｓｏｒｂｅｐｉｔｆｍｐｏｅｌｒｉｇａｇｒｔｔｏｈｐｐｏｌｍｃｏｉｅｈ
ｐｒｉｏｓｒｇｎｙｎｔｉｌｏｉｍ，ａｃｍｐｅｃｉｎｇｏｐｗａｕｇｓｅ．Ａｎｎｆｒｔｅｒｅｆｃｉｎｃｏｃｓｗｒａｔｃｎｔｉｅｃ．Ｉｈｓａｇｒｔｌａｎｈｏｌｘａｔｒｕｓｓｇｅｔｄｏｄｕｉｍｉｄｇｅｓｏｔｈｉｅｅｅｏｙａｏ
ｍａｕａｔｒｇｅｖｒｎｎ．ＥｐｒｎａｅｕｔｈｗｉｏｄｅｆｃｎｔｅＪＰ．ｎｆｃｕｎｎｉｍｅｔｘｅｍｅｔｌｒｓｌｓｏｔｇｏｆｔｉｈＳｉｏｉｓｓｅ
ＫｅｒｓｏｈｐＰｏｌ（Ｓ）ｒｉｏｃｍｎｌｒｉｇＱｌｒｉｇｃｈｓｎｙｗｏｄ：ＪｂＳｏｒｂｅＪＰ；ｅｆｒｅｅｔｅｎｎ；ａｎｎ；ｏｅｉｍｎａｅｏ
ＷＡＮＧＣａＧＵｉｇ，ＢＯｈｎｑａｇｈｏ，ＯＪｎＡＺｅ —ｉｎ
（．ｅａｔｅｔｆＥｅｔｎｃａｄＩｏｍｔｎＥｇｎｅｉ，ＹｎｚｏｏｙｅｎｃＩｓｔｔａｇｈｕＪａｇｕ２５０，Ｃｉａ１ＤｐｒｎｌｒｉｎｎｒａｉｎｉｅｒｇａｇｈｕＰｌｃｉｎｔｕｅｍｏｃｏｆｏｎｔｈｉ，Ｙｎｚｏｉｎｓ２０９ｈｎ；２ＣｌｇｎｏｍａｉｎＥｇｎｅｉｇａｇｈｕＵｉｒｔ，Ｙｎｚｏｉｎｓ２０９ｈｎ）．ｏｌｅｆＩｒｔｅｏｆｏｎｉｒ，ＹｎｚｏｎｖｓｙａｇｈｕＪａｇｕ２５０，Ｃｉａｅｎｅｉ
ｗｉｈｄｂｏｅｉｎａｄｔｅｈｗｏｌｔｔｎｏｌｅｏｅｃｍｅｅｆｃｉｅｙＩｃｕｄｂｄｐｅｏｔｅｃｍｐｉａｅｅｇｅｙｃｈｓｏ，ｎｈｎｔｅｔｉａｉｓｃｕｄｂｖｒｏｆｔｌ．ｔｏｌｅａａｔｄｔｈｏｌｔｄｍｉｏｅｖｃ
第２８卷第１２期
２００８年１２月
文章编号：０１９８（０８１３６０１０ — ０１２０）２－２８— ３
计算机应用
ＣｏｍｐｕｅｐｉａｉｎｔｒＡｐｌｃｔｏｓ
Ｖｏ．．２１２８Ｎｏ１
Ｄｅ．２０８ｃ０
０引言
作业车问调度问题（ｏｈｐＰｏｌＪｂＳｏｒｂｅＳ）ｍ，ＪＰ是一类满足
任务配置和顺序约束要求的资源分配问题，是最困难的组合
优化问题之～。虽然对于ＪＰ的研究已经有几十年的历史，Ｓ
法来解决车问调度问题。文献［］出了一种运用Ｑ学习的４提单机器的作业分派。文献［］出了运用基于模拟退火的Ｑ５提学习算法来解决单机器的动态作业分派。文献［］提出了６也