游骥--阿里线上压测与容量规划实践

格式：pdf
大小：1.11 MB
文档页数：15

下载文档原格式

(全国职业技能比赛：高职)GZ048智慧物流(教师赛)赛题第8套

GZO48智慧物流赛项（教师赛）模块一、智慧仓规划设计模块赛题嘉华集团是成立于1997年，是一家集化妆品、生活日常用品等系列产品的研发、生产、销售为一体日化品企业，集团总部位于重庆。

综合考虑日化品种类多、容易分拣出错，且大众对日化品产品需求量多、时效要求较高，民生集团为了更快地响应消费者的日常需求，提升消费者体验，欲在江浙沪地区选址建立成品智慧仓，综合考虑面向终端用户的拆零分拣效率需求，计划采用货到人GTP作业模式提高仓储效率及关键客户体验感。

二、项目任务书为制定出一套高效可执行的整体解决方案，嘉华集团物流规划部的工作人员前期对仓库、备选地点、关键客户的位置信息及江浙沪销售情况数据进行汇总整理，假设你是嘉华集团物流规划部的规划负责人，请在此基础上完成选址、库内规划及配送路线规划有关工作。

（一）智慧仓选址完成仓库选址方案。

（二）智慧仓规划经过前期的选址规划，目前嘉华集团现租用面积为（L*W）16m*14m的单层仓库，且仓库出入口位于仓库北侧，请根据信息完成如下分析：（1）智慧仓需求分析：根据给出的商品基本情况以及历史出库数据进行商品基本情况分析，分析内容包含商品存储单位、包装形态、体积和重量、日均出库量、日均订单数等方面，并根据分析结果以及历史出库情况确定智慧仓在库存周转天数内的商品存储目标。

（2）确定智慧仓设备配置数量：根据智慧仓存储目标以及历史订单数据，确定智慧仓内所需的AGV机器人、工作站、充电桩、货架的数量并计算AGV机器人、工作站的设备效率。

注：以“出库量”为基准对一年内的业务数据进行降序排序，暂取列表的20%所处的日期为基准天。

每日工作时长为7小时。

（三）智慧仓库存策略设计经过前期的新仓规划，目前嘉华新仓已投入使用，需做好畅销品的补货与库存管理，已知畅销品安安面霜近一年江浙沪的销售数据，在此基础上年需求量提高10%,请合理设置其安全库存、订货点以及经济采购批量。

（四）配送路线设计伴随嘉华集团江浙沪仓的投入使用，提升关键客户体验感的议题也被提上议程，目前嘉华集团客户均为无差异化零担方式处理，现拟采用“专线配送”方式服务其3个关键客户，请综合考虑成本、服务和效率，为该专线选择合适配送路径。

基于最大最小蚂蚁系统的容迟网络缓存机制

doi:10.3969/j.issn.1003-3114.2023.06.015引用格式:彭牧尧,魏建军,王乾舟,等.基于最大最小蚂蚁系统的容迟网络缓存机制[J].无线电通信技术,2023,49(6): 1095-1103.[PENG Muyao,WEI Jianjun,WANG Qianzhou,et al.Caching Mechanism Based on Max-Min Ant System in Delay Tolerant Network[J].Radio Communications Technology,2023,49(6):1095-1103.]基于最大最小蚂蚁系统的容迟网络缓存机制彭牧尧1,魏建军1,王乾舟2,王㊀琨3(1.西安电子科技大学通信工程学院,陕西西安710071;2.西安电子科技大学杭州研究院,浙江杭州311231;3.西安电子科技大学计算机科学与技术学院,陕西西安710071)摘㊀要:容迟网络(Delay Tolerant Network,DTN)是指节点资源紧张㊁网络延迟较大或链接频繁中断的网络结构㊂为保障消息到达率,DTN采用了缓存机制,导致网络开销大幅提升㊂为了在提升消息到达率的同时降低网络开销,通过考虑消息类别,将蚁群算法引入容迟网络缓存机制中,提出了基于最大最小蚂蚁系统的容迟网络缓存机制㊂在该机制中,节点致力于维护消息的信息素浓度,依据消息的类别及自身属性得到消息的丢弃权重,进而实现容迟网络的消息丢弃㊂实验结果表明,与基于传统蚁群算法的容迟网络缓存机制相比,所提的容迟网络缓存机制提高了7.7%的消息到达率并降低了5.4%的网络开销㊂关键词:容迟网络;缓存机制;最大最小蚂蚁系统;消息类别;信息素浓度中图分类号:TN391㊀㊀㊀文献标志码:A㊀㊀㊀开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2023)06-1095-09Caching Mechanism Based on Max-Min Ant System inDelay Tolerant NetworkPENG Muyao1,WEI Jianjun1,WANG Qianzhou2,WANG Kun3(1.School of Telecommunication Engineering,Xidian University,Xi an710071,China;2.Hangzhou Institute of Technology,Xidian University,Hangzhou311231,China;3.School of Computer Science and Technology,Xidian University,Xi an710071,China) Abstract:Delay Tolerant Network(DTN)indicates a network structure where node resources are scarce,network latency is high, or links are frequently interrupted.To guarantee message delivery,DTN employs a caching mechanism which leads to an extra increase of network overhead.To improve message delivery rate and reduce network overhead,this paper considers message categories,and utili-zes an ant colony algorithm to improve DTN caching mechanism.The proposed DTN caching mechanism is termed as maximum mini-mum ant system.In this mechanism,nodes focus on maintaining the pheromone concentration of the message.Specifically,nodes deter-mine the discarding weight of message based on its category and own attributes to discard messages in the DTN.Experimental results demonstrate that compared with the DTN caching mechanism based on traditional ant colony algorithms,the proposed DTN caching mechanism increases the message delivery rate by7.7%and reduces network overhead by5.4%.Keywords:DTN;caching mechanism;max-min ant system;message category;pheromone concentration收稿日期:2023-07-12基金项目:国家自然科学基金联合基金重点项目(U21A20446)Foundation Item:Joint Funds of the National Natural Science Foundation of China(U21A20446)0㊀引言难以估计的链接范围与成本巨大的硬件覆盖导致了容迟网络(Delay Tolerant Network,DTN)的出现㊂容迟网络具有网络资源有限㊁难以维持端到端的长时间稳定链接以及网络拓扑动态变化的特征,广泛存在于智慧城市网络[1]㊁深空通信网络[2-4]和野生动物追踪网络[5]等实际应用中㊂容迟网络的特性使得在该网络中信息的传递难以依赖传统的TCP/IP协议㊂为了进行消息的传递与交互,容迟网络通过存储-携带-转发的方式,在存储待传递消息的节点与目的节点相遇时进行消息传递㊂这种消息传递方式需要节点进行消息存储,从而导致网络中存在同一消息的多个副本,消息副本的增多将导致网络开销的增长,需设计合理的缓存管理方法,以进行消息副本的存储丢弃管理㊂本文考虑信息的不同类别,提出了一种基于最大最小蚂蚁系统的容迟网络缓存机制(Cache Man-agement Strategy Based on Max-Min Ant Colony Sys-tem in Delay Tolerant Network)㊂基于消息的转发次数㊁消息大小与剩余生存时间等自身特征,定义不同类别信息的信息素浓度表达式㊂当节点缓存已满且有新的消息进入时,根据信息素浓度计算丢弃权重,并丢弃权重最小的消息㊂本算法考虑了消息自身的特征,并结合历史信息实现容迟网络中的缓存管理㊂1㊀相关工作1.1㊀容迟网络缓存机制近年来,国内外有许多针对容迟网络缓存机制的研究㊂文献[6-7]阐述了现有的国内外容迟网络缓存机制,其中常用且具有代表性的机制包括:①先进先出(First In First Out,FIFO)或丢弃最先进入缓存中的消息(Drop Front,DF)算法㊂如果节点缓存已满且有新的消息到达,DF算法将丢弃最先进入缓存的消息㊂②随机丢弃(Drop Random,DR)算法㊂如果节点缓存已满且有新的消息到达,DR算法将随机丢弃缓存中的消息㊂③丢弃最少生存时间消息(Drop Oldest,DO)算法㊂如果节点缓存已满且有新的消息到达,DO算法将丢弃缓存中剩余生存时间最小的消息㊂对比以上的容迟网络缓存机制,DF和DO具有最好的效果,并且这两种容迟网络缓存机制被广泛应用于容迟网络中㊂国内,崔苑茹等人[8]提出基于校园机会网络的协作小组缓存调度策略,结合校园协作学习背景,有效降低了消息的冗余程度并减少了由于缓存空间不足而出现的消息传输失败等问题㊂通过实验表明,该算法具有较优的网络指标㊂郑啸等人[9]提出了一个新的度量节点在协作缓存中重要程度的指标,即节点重要度㊂基于此指标,利用贪心算法选择初始缓存节点㊂同时,利用缓存节点相遇的机会,进行缓存数据的主动再分配,并且通过实验验证了提出的缓存协议能够有效提高数据访问效率㊂Zhang等人[10]基于分布式存储的思想提出了一种容迟网络缓存机制,当节点存在缓存压力时,将利用其可通信节点来存放接收的消息,仿真证明该算法可以有效增加消息到达率和缓存利用率㊂国外,基于广义概率转发模型和拥塞指标, Goudar等人[11]通过预测网络中的拥塞点,自适应地调整节点的消息复制率,减少了不必要的缓存,防止数据包丢失;通过显示的数学公式对相遇概率㊁传递概率等进行了表述㊂N n u等人[12]提出了一种名为 MaxDelivery 的方法,该方法有效释放了节点中的缓存,但是该方法引入了ACK确认机制,将导致网络中产生额外的ACK消息,使得网络开销增加㊂以上两种方法为了获得网络中更加多样化信息用于决策消息的丢弃,需要节点间交互额外的信息,这将导致网络开销的增加㊂文献[13]提出了一种基于多社区模型的资源优化协议,即社交相似度和优化资源(Social Similarity And Optimized Resource, SSAOR)协议,以有效利用容迟网络中的资源㊂该协议基于源节点和目标节点之间的位置关系,使用两种不同的策略来确定转发消息的顺序㊂1.2㊀蚁群算法蚁群算法的提出,为解决组合优化问题提供了新的思路,并且被逐渐应用到其他的优化问题中㊂但蚁群算法存在易陷入局部最优的问题,成为现有国内外学者研究的重点㊂Akande等人[14]将蝠群算法与蚁群算法相结合,并通过仿真证明融合算法效果好于单一算法㊂但融合算法仍然存在陷入局部最优的问题㊂Ye等人[15]对蚁群算法的负反馈机制进行了改进,利用其提高解的多样性㊂同时,根据历史搜索信息,不断获取故障经验,解决了蚁群算法容易陷入局部最优的问题㊂李宪强等人[16]把蚁群算法应用于解决无人机三维路径规划问题,将蚁群算法与人工势场算法相结合,有效解决了蚁群算法易陷入局部最优和容易忽视节点周围障碍物的问题㊂Ding等人[17]将Q-learning算法引入蚁群算法当中,通过添加量子位启发因子避免蚁群算法陷入局部最优当中,提高了算法的优化能力和收敛速度;然而该算法仍然存在实际应用的挑战和问题㊂赵晶蕊等人[18]基于蚁群算法实现了负载均衡下的QoS保障路由算法㊂仿真结果表明,该算法能够有效实现网络负载的均衡,且同时在端到端时延㊁丢包率㊁剩余带宽等QoS需求的性能上有明显提升㊂Stutzle[19]利用最大最小蚂蚁系统解决二次规划问题,并且取得了不错的效果㊂最大最小蚁群算法相较于蚁群算法有如下的改进:①最大最小蚂蚁系统规定了信息素浓度的上下界,设定最小信息素浓度有助于增加对更优解探索的可能性,设定最大信息素浓度保证经验对于蚁群的启发性㊂②信息素浓度初始值为信息素取值区间的上限,并伴随一个较小的信息素衰减系数㊂③只允许迭代最优蚂蚁,或者至今最优蚂蚁释放信息素㊂最大最小蚂蚁系统可以有效地减少蚁群算法局部收敛的问题,得到了广泛的应用㊂通过查阅文献,有以下三点发现:①基于多效用值考虑的缓存管理机制有助于提升容迟网络性能㊂②蚁群算法在解决优化问题上有着优异的表现,可以很好地应用于容迟网络性能优化问题,但需要考虑其易陷入局部最优的问题㊂③现有容迟网络缓存机制及蚁群算法少有考虑消息的类别㊂将消息分类引入容迟网络缓存机制,有助于将同类消息集中于特定的节点之上,便于为之分配特定资源,提升网络性能㊂基于以上发现,本文将最大最小蚂蚁系统应用于容迟网络缓存机制当中,节点综合考量单条信息的信息素浓度与节点上同类信息的信息素浓度,自主地依照所求权重丢弃相应的消息,提高网络整体消息到达率并减少网络开销㊂2㊀算法介绍2.1㊀蚁群信息素浓度定义本节定义了消息信息素浓度㊁同类消息信息素浓度以及丢弃权重的表达式㊂蚁群信息素浓度依赖于消息的相关特征,特征如下:①剩余生存时间(Time Till Lifetime,TTL)㊂剩余生存时间反映了消息在网络中可能继续被转发的概率㊂一般地,剩余生存时间越短,消息越难以被交付到目标节点㊂②缓存占用率(Cache Usage)㊂本机制定义缓存占用率为消息的大小与所到达节点缓存大小的比值,如式(1)所示㊂对于消息而言,缓存占用率越大,会使得消息所到达的节点更容易产生拥塞并丢弃缓存中原有消息,从而导致网络消息到达率下降㊂Cache_Usage i,j=Size iNode_Cache j,(1)式中:Cache_Usage i,j表示消息i在节点j的消息占用率,Size i表示消息i的大小,Node_Cache j表示节点j的缓存大小㊂③消息的转发次数㊂在本机制中,消息的转发次数被定义为消息经过的跳数㊂如果消息的转发次数越高,该消息在网络中则会具有更多的副本数㊂丢弃副本数较多的消息,对网络整体的消息到达率影响较小㊂本机制认为单条消息的信息素浓度取决于上述三种特征㊂因此,使用式(2)定义单条消息的信息素浓度(Pheromone Concentration of Message,PCM):PCM t,i,j=TTL t,iHops t,iˑCache_Usage i,j,(2)式中:PCM t,i,j表示t时刻进入节点j的第i条消息的信息素浓度,TTL t,i表示t时刻进入节点j的第i条消息的剩余生存时间,Hops t,i表示t时刻进入节点j的第i条消息的转发次数㊂如式(3)所示,本机制认为节点在t时刻的同类消息信息素浓度(Pheromone Concentration of the Same Category,PCSC)取决于t-1时刻的衰减后同类消息信息素浓度,与t时刻进入节点的同一类别的N条消息的信息素浓度㊂PCSC t=τmax,PCSC tȡτmax (1-ρ)PCSC t-1+ðN i=0PCM t,i,j,PCSC tɪ(τmin,τmax)τmin,PCSC tɤτmin ìîíïïïï,(3)式中:ρ表示历史信息素浓度的衰减系数,N表示t时刻进入节点的同一类别消息的数量,τmin表示信息素浓度范围的下限,τmax表示信息素浓度范围的上限㊂如式(4)所示,总信息素浓度(Total Pheromone Concentration),即丢弃权重,决定了消息丢弃的优先级㊂丢弃权重越低的消息越容易被丢弃㊂Weight t,i=PCM t,i,j+PCSC t-1,(4)式中:Weight t,i表示t时刻第i条消息的丢弃权重㊂2.2㊀基于蚁群算法的容迟网络缓存机制本节提出的缓存机制引入蚁群算法,机制有效考虑了信息的分类㊂节点维护不同类别信息的信息素浓度值㊂缓存机制流程如图1所示㊂缓存机制流程的具体步骤如下㊂步骤一:当有新消息到来时,会检查节点中的缓存是否已满㊂若缓存未满,则直接跳至步骤四;若缓存已满,则跳至步骤二㊂步骤二:利用式(4)计算该条消息的丢弃权重,其中计算同类消息信息素浓度时不设定上下限㊂步骤三:将步骤二中计算所得的丢弃权重与当前缓存中消息的丢弃权重进行比较,若新消息的权重为最小,则丢弃新消息;若不为最小,则丢弃缓存中原有消息中具有最小权重的消息并跳至步骤四㊂步骤四:新消息进入缓存㊂步骤五:利用式(3)更新缓存节点中的同类消息信息素浓度㊂图1㊀基于蚁群算法的容迟网络图缓存机制流程示意图Fig.1㊀Flow diagram of delay tolerant network cache man-agement strategy based on ant colony algorithm 2.3㊀基于最大最小蚂蚁系统的容迟网络缓存机制基于2.2节所提容迟网络缓存机制,将最大最小蚂蚁系统与缓存机制相结合,将节点上的同类信息素浓度限定在一定的范围内㊂基于最大最小蚂蚁系统的容迟网络缓存机制流程如图2所示㊂缓存机制流程的具体步骤如下㊂步骤一:按照消息的到达节点对消息进行分类㊂步骤二:当有新消息到来时,步骤二会检查节点中的缓存是否已满㊂若缓存未满,则直接跳至步骤五;若缓存已满,则跳至步骤三㊂步骤三:利用式(4)计算该条消息的丢弃权重㊂步骤四:将步骤二中计算所得的丢弃权重与当前缓存中消息的丢弃权重进行比较,若新消息的权重为最小,则丢弃新消息;若不为最小,则丢弃缓存中原有消息中具有最小权重的消息并跳至步骤五㊂步骤五:新消息进入缓存㊂步骤六:利用式(3)更新缓存节点中的同类消息信息素浓度㊂当更新后的同类消息信息素浓度超出给定范围时,若超出上限,取给定信息素浓度范围的上限;若超出下限,取给定信息素浓度范围的下限㊂图2㊀基于最大最小蚂蚁系统的容迟网络缓存机制流程示意图Fig.2㊀Flow diagram of delay tolerant network cache man-agement strategy based on max-min ant system3㊀仿真及分析3.1㊀仿真环境本文使用由赫尔辛基大学开发的ONE网络仿真平台进行仿真㊂仿真在4500mˑ3400m的区域内进行,持续7200s㊂网络中消息产生的间隔为25~35s㊂实验中,将所有的节点分为4组,其中,A组和B组节点代表步行或奔跑的行人,其移动速度为1~5m/s;C组节点代表电动车或自行车,移动速度为5~7m/s;D组为有轨电车,移动速度为7~10m/s,拥有高速通信接口㊂具体参数设置如表1所示㊂表1㊀仿真参数Tab.1㊀Simulation parameters类别参数参数值A剩余生存时间/s250消息大小100kByte~1MByte节点数量60移动模型Shortest Path Map BaesdMovement通信距离/m15通信带宽/(kbit/s)300节点移动速度/(m/s)1~4B剩余生存时间/s300消息大小100kByte~1MByte节点数量30移动模型Shortest Path Map BaesdMovement通信距离/m15通信带宽/(kbit/s)300节点移动速度/(m/s)2~5C剩余生存时间/s350消息大小100kByte~1MByte节点数量15移动模型Shortest Path Map BaesdMovement通信距离/m15通信带宽/(kbit/s)300节点移动速度/(m/s)5~7D剩余生存时间/s300消息大小100kByte~1MByte节点数量4移动模型Map Route Movement通信距离/m15通信带宽/(kbit/s)300高速接口通信范围/m1000高速接口通信带宽/(Mbit/s)10节点移动速度/(m/s)7~10㊀㊀本文期望实现每类消息在适应自己的优势路径中传输㊂其中优势路径是指适应某类消息生存的中继节点所组成的路径,且不同类别消息之间的优势路径应该尽量减少重合,以减少不同类别消息间的资源竞争㊂为了简化分类标准,直接根据源节点与目的节点的不同来进行消息分类,就可以为不同类别消息赋予地域上的差异,使得不同类别消息形成各自的优势路径㊂因此,本文依照源节点与目的节点不同将消息分为16类㊂同时,缓存大小及传输带宽都是网络拥塞的重要影响因素,因此本实验将讨论缓存大小以及传输带宽对消息到达率以及网络开销的影响㊂3.2㊀结果及分析网络指标随缓存及带宽大小变化如图3~图5所示,具体数值如表2和表3所示㊂(a)消息到达率随节点缓存大小变化㊀㊀㊀(b)网络开销随节点缓存大小变化图3㊀网络指标随节点缓存大小变化Fig.3㊀Relationship between network indicators and cache size ofnodes (a)消息到达率随带宽大小变化㊀㊀㊀(b)网络开销随带宽大小变化图4㊀网络指标随带宽大小变化Fig.4㊀Relationship between network indicators andbandwidth (a)平均消息到达率随时间变化关系㊀㊀㊀(b)平均网络开销随时间变化关系图5㊀网络指标随时间变化关系Fig.5㊀Relationship between network indicators andtime㊀㊀从图3可以看出,4种缓存方法在消息到达率㊁网络开销方面的趋势相似㊂随着缓存大小的增加,消息到达率随之增高,网络开销随之变小㊂这是因为当缓存区大小变大时,节点的缓存中可以存储更多的信息,使得网络中同一个消息的副本数增加,进而增加了消息成功到达目标节点的概率㊂同时,缓存增加,缓存当中可以容纳更多消息,消息被丢弃的概率降低,重传的次数减少,使得网络开销减少㊂从图4可以看出,随着带宽的增加,消息到达率与网络开销都随之增高㊂这是因为当传输带宽变大时,网络中的节点更加活跃,消息更容易在网络中进行传递,故而消息的到达率更高㊂因为更活跃,消息在网络中将进行更多次的传递,故而网络开销增加㊂由图5可知,提出的基于最大最小蚂蚁系统的缓存管理机制明显优于其他机制㊂这是因为随着时间的推移,特定节点上某些类型消息的信息素浓度将继续增加,使这些节点更容易成为某些类型消息传输的中继节点,其他类型的消息将难以抢占此节点的缓存㊂这将使网络中的节点更难拥塞并丢弃消息,从而提高消息传递率㊂同时,基于最大最小蚂蚁系统的容迟网络缓存机制有效解决了蚁群算法易陷入局部最优的问题,随着时间的推移,基于普通蚂蚁系统的容迟网络缓存机制的性能在大约220min达到收敛,而基于最大最小蚂蚁系统的容迟网络缓存算法在大约260min达到收敛㊂初始时刻,基于最大最小蚂蚁系统的容迟网络缓存机制相较于基于普通蚂蚁系统的容迟网络缓存机制在网络指标上表现较差,这是因为根据经验选取的初始信息素浓度值使得某些节点在初始时刻已经成为最优 ,陷入了局部最优,导致网络指标变差㊂后续工作将在已有研究的基础上探究利用网络及消息自身的相关指标对初始浓度设置,使得初始值浓度能够自适应地进行选取㊂表2展示了当节点缓存大小为10MByte和50MByte时,4种缓存机制的网络指标的具体值㊂由表2可知,当缓存大小为10MByte时,基于最大最小蚂蚁系统的容迟网络缓存机制比普通蚂蚁系统缓存机制在消息到达率方面提高了4.0%,在网络开销方面减少了8.4%;当缓存大小为50MByte时,基于最大最小蚂蚁系统的容迟网络缓存机制比普通蚂蚁系统缓存机制在消息到达率方面提高了10.5%,在网络开销方面减少了10.0%㊂表2㊀不同缓存大小情况下网络指标具体值Tab.2㊀Specific values of network indicators under different cache sizes缓存大小/MByte算法名称消息到达率/%网络开销/Hops10Max-Min Ant64.46 3.2880Ant61.96 3.5880DF36.96 4.8421DO27.99 6.1410 50Max-Min Ant73.56 2.3652Ant66.58 2.6274DF53.80 2.5954DO52.45 2.6314㊀㊀表3展示了当带宽大小为50kbit/s和500kbit/s 时,4种缓存机制的网络指标的具体值㊂由表3可知,当带宽大小为50kbit/s时,基于最大最小蚂蚁系统的容迟网络缓存机制比普通蚂蚁系统缓存机制在消息到达率方面提高了13.2%,在网络开销方面减少了4.8%;当带宽大小为500kbit/s时,基于最大最小蚂蚁系统的容迟网络缓存机制比普通蚂蚁系统缓存机制在消息到达率方面提高了2.7%,在网络开销方面减少了2.6%㊂表3㊀不同带宽大小情况下网络指标具体值Tab.3㊀Specific values of network indicators under different bandwidth sizes带宽大小/(kbit/s)算法名称消息到达率/%网络开销/Hops50Max-Min Ant14.46 1.2269Ant12.77 1.2889DF10.87 1.1814DO11.41 1.2171 500Max-Min Ant75.66 3.7792Ant73.64 3.8792DF42.12 5.4892DO32.88 6.87114　结束语本文提出了一种基于最大最小蚂蚁系统的容迟网络缓存机制㊂该机制考虑信息的分类,使得同类别消息更容易通过同类信息素浓度高的节点进行传输㊂同时,本文定义了消息的信息素浓度㊁同类消息信息素浓度和总信息素浓度(丢弃权重)表达式,并利用总信息素浓度定义消息丢弃的优先级㊂仿真分析表明,基于最大最小蚂蚁系统的容迟网络缓存机制在消息到达率㊁网络开销方面具有比传统容迟网络算法更好的性能㊂本文所提缓存机制只考虑了同类消息信息素对于网络指标的影响,并没有考到不同类别信息的信息素之间的影响㊂下一步工作将从以下三方面进行改进:①考虑不同类别消息的信息素之间的影响对容迟网络指标的影响;②结合实际场景对消息进行分类,使得分类标准更加明确,有效区别各类消息;③对初始信息素浓度范围的取值进行研究㊂依据网络中的各类因素设置合适的信息素浓度初始值,避免基于最大最小蚂蚁系统的容迟网络缓存机制因初始信息素浓度过高而陷入局部最优㊂参考文献[1]㊀DEMIROGLOU V,MAMATAS L,TSAOUSSIDIS V.Adaptive NDN,DTN and NoD Deployment in Smart-cityNetworks Using SDN[C]ʊProceedings of2023IEEE20th Consumer Communications&Networking Conference(CCNC).Las Vegas:IEEE,2023:1092-1097. [2]㊀王洋,杨宏,陈晓光,等.面向深空通信的DTN网络跨层包大小的优化设计[J].宇航学报,2017,38(5):533-541.[3]㊀MADOERY P G,KURT G K,YANIKOMEROGLU H.Routing Heterogeneous Traffic in Delay Tolerant SatelliteNetworks[C]ʊProceedings of2022IEEE InternationalConference on Wireless for Space and Extreme Environ-ments(WiSEE).Winnipeg:IEEE,2022:99-104. [4]㊀聂宇雷,彭锋彬,张更新,等.深空通信中容迟容断网络协议体系应用研究[J].无线电通信技术,2016,42(3):22-25.[5]㊀NAKAGAWA K,SHIMOTOKU D,KAWASE J,et al.Sus-tainable Wildlife DTN:Wearable Animal Resource Opti-mization Through Intergenerational Multi-hop NetworkSimulation[C]ʊProceedings of202117th InternationalConference on Wireless and Mobile Computing,Networ-king and Communications(WiMob).Bologna:IEEE,2021:193-199.[6]㊀EZIFE F,LI W,YANG S H.A Survey of Buffer Manage-ment Strategies in Delay Tolerant Networks[C]ʊProcee-dings of2017IEEE14th International Conference onMobile Ad Hoc and Sensor Systems(MASS).Orlando:IEEE,2017:599-603.[7]㊀LIUF J,BAI X Y.Research on the Buffer ManagementAlgorithm in DTN[C]ʊProceedings of20152nd Inter-national Conference on Information Science and ControlEngineering.Shanghai:IEEE,2015:442-446. [8]㊀崔苑茹,李鹏,刘宏,等.基于校园机会网络的协作小组缓存调度策略[J].电子学报,2021,49(12):2399-2406.[9]㊀郑啸,高汉,王修君,等.移动机会网络中接触时间感知的协作缓存策略[J].计算机研究与发展,2018,55(2):338-345.[10]ZHANG Y,ZHANG T.Cache Management Strategy Basedon Distributed Storage in Delay/Disruption Tolerant Net-work[C]ʊProceedings of2019IEEE19th InternationalConference on Communication Technology(ICCT).Xi a n:IEEE,2019:1337-1341.[11]GOUDAR G,BATABYAL S.Optimizing Bulk TransferSize and Scheduling for Efficient Buffer Management inMobile Opportunistic Networks[J].IEEE Transactions onMobile Computing,2022,21(12):4471-4487. [12]NǍNǍU C S.MaxDelivery:A New Approach to a DTNBuffer Management[C]ʊProceedings of2020IEEE21stInternational Symposium on A World of Wireless,Mobileand Multimedia Networks (WoWMoM).Cork:IEEE,2020:60-61.[13]WANG T,TANG M B,CAO Y.Resource OptimizationProtocol Based on Multicommunity Model for Intermi-ttently Connected Mobile Networks[J].IEEE SystemsJournal,2020,14(1):410-421.[14]AKANDE H B,ABIKOYE O C,AKANDEO N.ImprovingOptimization Prowess of Ant Colony Algorithm Using BatInspired Algorithm[C]ʊProceedings of20225th Infor-mation Technology for Education and Development(ITED).Abuja:IEEE,2022:1-5.[15]YE K,ZHANG C S,NING J X,et al.Ant-colony Algo-rithm with a Strengthened Negative-feedback Mechanismfor Constraint-satisfaction Problems[J].Information Sci-ences,2017,406(c):29-41.[16]李宪强,马戎,张伸,等.蚁群算法的改进设计及在航迹规划中的应用[J].航空学报,2020,41(S2):213-219.[17]DING Y M,ZHAO Y,GAO Y X,et al.Q-learning Quan-tum Ant Colony Routing Algorithm for Micro-Nano Satel-lite Network[C]ʊProceedings of2021IEEE6th Interna-tional Conference on Computer and Communication Sys-tems(ICCCS).Chengdu:IEEE,2021:949-954. [18]赵晶蕊,刘江,张然,等.基于蚁群算法的LEO卫星网络QoS优化路由[J].无线电通信技术,2021,47(5):590-595.[19]STUTZLE T.Max-Min Ant System[J].Future GenerationComputer Systems,2000,16(8):889-914.作者简介:彭牧尧㊀男,(1999 ),硕士研究生㊂主要研究方向:容迟网络㊁深度学习和计算机视觉㊂魏建军男,(1978 ),博士,副教授㊂主要研究方向:物联网㊁通信芯片设计㊂王乾舟男,(1997 ),硕士研究生㊂主要研究方向:容迟网络㊁计算机视觉和深度学习㊂王㊀琨男,(1973 ),博士,副教授㊂主要研究方向:大数据分析㊁物联网与计算机网络㊂。

《信息检索》实验报告1111

《信息检索》实验报告一、OPAC检索1.利用“中图分类法”查找自己所在专业的分类号，并记录。

再使用书目查询系统查找该分类下的一本图书，写出该书的书名、作者、出版社、出版年、索书号、馆藏复本数、ISBN号、馆藏地（写一个即可）。

TU新农村景观设计艺术顾小玲东南大学出版社2011年索引号：TU982/14 2本ISBN号：2011002852 馆藏地：样本二库[4楼西，借期20天]2.查找作者姓“李”、索书号为“H31”的图书，记录下检索的结果数量，再在结果中检索由中山大学出版社出版的图书，记录下检索结果的数量，并写下任一检索结果的作者、书名、出版社、索书号、馆藏复本数、可借复本数。

1337 7疯狂英语.听力高级飞跃李俊青中山大学出版社H319.9/1322:3馆藏复本：24 可借复本：223.分类号是“TP311.1”的是关于哪方面内容的图书？写出此类书其中一种图书的书名、作者、出版社和索书号。

程序设计、软件工程中文版Access 2007数据库应用实用教程冯先锋秦小英清华大学出版社TP311.13/13024.自行熟悉OPAC中“我的图书馆”各项功能，并写出已借阅图书数量和今年所借阅的两本书的书名，如果可能请进行续借。

7 小高层住宅设计图集新型住宅平面设计方案二、电子图书检索1.利用“读秀学术搜索”打开并阅读书名包含“竞争情报”，作者为“王知津”的图书，写出该书的书名、出版社、出版日期，并从书中查阅竞争情报的概念。

书名：《竞争情报》出版社：科学技术文献出版社出版日期：2005.02竞争情报的概念：为达到竞争目标，合法而合乎职业伦理的搜集竞争对手和竞争环境的信息，并转变为情报的连续的系统化过程。

2.利用“读秀学术搜索”检索二本有关美国前总统的图书，写出图书的书名、著者、出版社。

书名：《改变世界历史的七天美国前总统尼克松1972年七天访华揭秘》作者：梁建增，赵微主编出版社：高等教育出版社书名：冷战后的美国外交政策从老布什到小布什作者：潘锐出版社：时事出版社3.利用“读秀学术搜索”找出与自己专业相关的图书，写出其中2本图书的书名、作者和出版社。

一种水面漂浮垃圾的智能收集系统

含约束的拉格朗日优化问题，具体计算公式为：
( 12)
XU- P
为了对上述公式进行计算，随后提出了基于梯度法的分布式动态算法：
jc/y( k + \) = Xjji k) + ju^
智能机器人系统配置 (见图 1)。该系统基于电动水下航行器，该水下航行器在负载条件下可以在水面上航
行。水下航行器长约63.5cm,宽 48.5cm，高 46.5cm,重约 25kg。摄像机舱安装在车辆顶部的前端，其中，双目摄像机固定在隔板上。具有 3-DOF的机械手放置在车辆上，该机械手由三个伺服电机组成。要注意关节角度的范围为270,以确保机械手的尾端可以移动到收集箱的内部。因此，智能机器人系统的尺寸要小到足以在小水域中使用，并且其能源是清洁的，以避免二次污染。
检测到对象后，将其作为移除对象。然后，KCF和三角剖分工作不断地更新边界框并分别测量对象的位置。 2 实验结果 2 . 1 漂浮垃圾检测实验结果
为了实现垃圾检测，建立了一个浮动垃圾数据集 (FGD )，该数据集包含 1000张图像，覆盖了不同照明下的各种塑料瓶、塑料袋和泡沫聚苯乙烯 (见表 1LFGD 分为训练数据集 (TD )和验证数据集 (VD )。本实验中的 GPU是 NVDIA-1080。YOLOv3 在训练数据集上进行训练，在验证数据集上的测试结果 (见表 1)。精度用 mAP来描述，计算速度用每秒帧数(中5 )来评估。结果表明，该方法检测精度高，速度满足实时性要求。但由于塑料瓶的包装形式多样，塑料瓶的检测精度略低于

容量规划在移动互联网时代的新应用场景(系列二)

在移动互联网时代，容量规划成为了各个行业中不可或缺的一部分。

容量规划是指通过合理的规划和管理，确保系统的容量满足用户需求，并提高系统的性能和效率。

随着移动互联网的飞速发展，新的应用场景也在不断涌现。

首先，容量规划在移动应用开发中扮演着重要角色。

移动应用的开发过程中，容量规划能够帮助开发者了解用户的需求，提前预测用户量以及对服务器的负载。

通过这种方式，开发者可以合理分配资源，提升应用的运行效率，避免由于用户量暴增导致的系统崩溃。

例如，一款短视频应用可能会面临大量用户同时上传和观看视频的情况，通过容量规划，可以确保服务器能够承受住大量并发请求，并保证用户的观影体验。

其次，容量规划在电子商务领域也发挥着重要作用。

移动互联网时代，越来越多的用户选择通过移动设备进行在线购物。

而在购物网站的背后，容量规划可以帮助平台预测用户的购买行为、流量峰值以及存储需求。

通过这种方式，电商平台可以合理规划服务器的容量，保证平台在节假日、促销活动等高峰期依然能够快速稳定地处理用户的购买请求。

同时，容量规划还可以帮助电商平台分析用户的购物行为，提取用户特征，进而为用户个性化推荐商品，提高用户的购买转化率。

第三，在物流行业，容量规划也发挥着重要作用。

随着电子商务的快速发展，物流行业面临着更高的配送压力。

容量规划可以帮助物流公司预测用户的订单量，分析用户订单的空间、时间特征，进而规划合理的配送路线和时刻表。

通过运用容量规划的方法，物流公司可以最大程度地提高车辆的利用率，减少配送成本，提高配送效率，为用户提供更加准时、高效的配送服务。

此外，在金融领域，容量规划也扮演着重要角色。

移动支付和网上银行等服务的广泛应用，给金融系统的容量带来了极大的挑战。

容量规划可以帮助金融机构预测用户的交易量、交易峰值以及对系统响应时间的要求。

通过容量规划，金融机构能够合理配置服务器资源，保障系统的高可用性和高性能，确保用户能够顺畅地进行各种金融交易。

在移动互联网时代，容量规划的应用场景还远不止以上几个方面。

阿里云计算学习计划

阿里云计算学习计划一、引言阿里云是由阿里巴巴集团旗下的云计算服务平台，于2009年推出。

目前，阿里云已成为国内领先的云计算服务提供商，拥有丰富的产品和服务。

作为一个IT从业人员，学习阿里云计算已成为必不可少的一项技能。

在这里，我将为大家分享一个阿里云计算的学习计划，供大家参考。

二、学习目标1.了解阿里云的产品和服务，具备使用阿里云进行云计算的基本能力2.了解云计算的基本概念和原理，学会使用阿里云进行云计算3.学会使用阿里云进行数据处理和存储4.学会使用阿里云进行云安全管理5.了解阿里云的大数据处理和人工智能服务6.了解阿里云计算的发展趋势和未来发展方向三、学习内容1. 阿里云产品和服务的基本概念了解阿里云计算的基本概念，包括云服务器、云数据库、对象存储、CDN加速等基本服务，以及云计算和传统计算的区别。

2. 阿里云的基本使用学习如何注册阿里云账号、创建云服务器、使用云数据库、存储文件和使用CDN加速等基本操作。

3. 云计算的基本概念和原理学习云计算的基本概念、架构和原理，了解云计算的优势和作用，为以后深入学习做好准备。

4. 阿里云的数据处理和存储学习如何使用阿里云进行数据处理和存储，包括使用云数据库进行数据存储和管理、使用对象存储对大量数据进行存储和管理。

5. 阿里云的安全管理学习如何使用阿里云进行云安全管理，包括安全策略的制定、安全监控和运维等内容。

6. 阿里云的大数据处理和人工智能服务了解阿里云的大数据处理和人工智能服务，了解大数据处理和人工智能的应用场景和优势。

7. 阿里云计算的发展趋势和未来发展方向了解阿里云计算的发展趋势和未来发展方向，为将来学习和发展做好规划。

四、学习计划第一个月：了解阿里云的产品和服务，学习使用阿里云进行基本操作。

第二个月：学习云计算的基本概念和原理，了解云计算的优势和作用。

第三个月：学习阿里云的数据处理和存储，了解如何使用云数据库和对象存储。

第四个月：学习阿里云的安全管理，了解如何使用阿里云进行云安全管理。

高并发下的网站架构

万能出错页面：秒杀活动已经结束
任何出错都302跳转到此页面位于另外集群
万幸：最终所有的预案都没有用上
秒杀活动结果
88小时秒杀，坚守阵地，大获成功秒杀还是被秒杀？终于有了答案三道阀门设计非常有效，拦住了秒杀器
静态集群总并发情况（首页，秒杀列表，秒杀商品页面）
交易系统集群总并发情况（下单页面）
高并发对网站性能的影响
并发数对吞吐量的影响
并发数对服务器平均请求响应时间的影响
并发数对用户平均请求等待时间的影响
高并发实例：开业秒杀活动
商业需求
为庆祝开业退出88小时不间断秒杀活动每小时整点推出8款商品，拖拉机，牛，马桶，沙发…… 每款商品供168件，每人限批3件，成交人数56人 CCTV黄金广告时间，各种网络,平面媒体轰炸，总广告费：1.5亿接到运营通知，距秒杀开始仅仅 5 天时间
秒杀商品列表/秒杀商品介绍页面，如何判断秒杀开始否
答案： valid-offer.js
三道阀门的设计
阀门：基于TT的计数器
序号 1 2 3 阀门上限
限制进入秒杀页面，1000 限制进入下单页面，100 100 限制进入支付宝系统，56
秒杀器的预防
秒杀Detail页面
URL：随机秒杀前2秒放出,脚本生成，秒杀前 1000次访问上限控制【每件商品只能放入1000人浏览】
CDN准备：Chinacache沟通；借用Taobao CDN
秒杀系统：架构目标
1.图片网络带宽：1.0G
新增图片带宽：必须控制在 1.0G 左右每件商品秒杀页面的图片总大小不得超过： 1000000/(1000*8) = 125K/每商品
2.网站并发：
单件商品并发：1000 【来自运营的预估】总并发: 8（件商品）X 1000（人/商品）=8000

数据驱动：从方法到实践

内容简介本书是从理论到实践的全面且细致的企业数据驱动指南，从作者的百度大数据工作说起，完整还原其从零到一构建百度用户行为大数据处理平台经历。

详解大数据本质、理念与现状，围绕数据驱动四环节——采集、建模、分析、指标，深入浅出地讲述企业如何将数据驱动方案落地，并指出数据驱动的价值在于“数据驱动决策”、“数据驱动产品智能”。

最后通过互联网金融、电子商务、企业服务、零售四大行业实践，从需求梳理、事件指标设计、数据接入阶段、实际应用四大阶段介绍数据驱动在不同领域的商业价值，全面展示大数据在各领域内的应用情况与趋势展望。

本书贴近企业真实场景，兼具权威性与前瞻性，是广泛适用的普及读物，适合对大数据、数据驱动感兴趣的企业高管、决策者、创业者、IT人员、营销人员、产品经理、相关专业的学生等。

图书在版编目（CIP）数据数据驱动：从方法到实践/桑文锋著.—北京：电子工业出版社，2018.3ISBN 978-7-121-33451-1Ⅰ.①数…Ⅱ.①桑…Ⅲ.①数据处理-研究Ⅳ.①TP274中国版本图书馆CIP数据核字（2018）第002302号策划编辑：符隆美责任编辑：张春雨印刷：装订：出版发行：电子工业出版社北京市海淀区万寿路173信箱邮编：100036开本：720×1000 1/16 印张：13.5 字数：260千字版次：2018年3月第1版印次：2018年3月第1次印刷定价：49.00元凡所购买电子工业出版社图书有缺损问题，请向购买书店调换。

若书店售缺，请与本社发行部联系，联系及邮购电话：（010）88254888，88258888。

质量投诉请发邮件至zlts@，盗版侵权举报请发邮件至dbqq@。

本书咨询联系方式：（010）51260888-819，faq@。

文锋分享了他在商业数据的真知灼见，不盲目舶来，他明确地知道哪些理论在国内是行不通的，并传递出更本土化的理论。

本书的结构和内容都经过了反复打磨，无论是从技术严谨性，还是从内容的实用性上看，都堪称互联网商业数据的可贵佳作。

【AWDC2012】阿里集团CDN架构介绍-张小亮(空明)

AliCDN上的优化方向
• 流量调度管理
– IP库精准 – 调度算法和策略 – 用户区域流量精准统计
• 连接管理
– Keeplive – 连接复用 – 重传及超时
• 存储管理
– 一致性哈希 – 分级存储
• Traffic Server
– – – – 充分发挥多核CPU 无文件系统可运维性高性能
阿里集团CDN架构介绍
嘉宾：阿里集团技术保障部
集团CDN运维负责人张小亮（空明）
个人介绍
• 张小亮，淘宝花名：空明 • 过去10多年的工作经历，干的事情基本都和CDN相关 • 专注于CDN网络规划、建设、运维及产品运营等相关技术与管理工作 • 目前负责阿里集团CDN系统运维 • Kongming.zxl@
?多核时代?高io的ssd?高io的ssd?10ge网络?高性能软件?单节点40g80g?单节点40g80galicdn规模alicdn规模?100节点?20g40g节点?2000g规模?覆盖各主流运营商?20g40g节点?1000gtraffic?覆盖各主流运营商?覆盖所有国内区域alicdn架构概览alicdn架构概览alicdn节点部署方案alicdn节点部署方案alicdn上的优化方向alicdn上的优化方向用户区域流量精准统计存储管理一致性哈希分级存储trafficserver充分发挥多核cpu无文件系统高性能高性能alicdn上的业务alicdn上的业务?图片?jscss?jscss?页面?flash视频?app软件下载?app软件下载?ssl护航1111购物狂欢节护航1111购物狂欢节当aliyun碰到alicdn当aliyun碰到alicdn?在云之前cdn就是云?有云之后cdn变成云的一部分?有云之后cdn变成云的部分?112资源的扩展资源的扩展体验的提升cdn盛开在云端的花朵?cdn盛开在云端的花朵

基于XGBoost算法的电商用户重复购买行为预测

㊀收稿日期:２０２２－０９－０７基金项目:中央高校基本科研业务费专项资金资助项目(１９ＪＮＱＭ２５)ꎻ广州市哲学社会科学发展十四五规划课题(２０２１ＧＺＹＢ１８)ꎻ深圳市哲学社会科学规划课题(ＳＺ２０２２Ｂ０１４)作者简介:景秀丽(１９７９－)ꎬ女ꎬ辽宁营口人ꎬ博士ꎬ硕士生导师ꎬ副教授ꎬ研究方向:大数据ꎬ文本处理ꎬ电子商务等.㊀㊀辽宁大学学报㊀㊀㊀自然科学版第５０卷㊀第２期㊀２０２３年ＪＯＵＲＮＡＬＯＦＬＩＡＯＮＩＮＧＵＮＩＶＥＲＳＩＴＹＮａｔｕｒａｌＳｃｉｅｎｃｅｓＥｄｉｔｉｏｎＶｏｌ.５０㊀Ｎｏ.２㊀２０２３基于ＸＧＢｏｏｓｔ算法的电商用户重复购买行为预测景秀丽１ꎬ史明曦２(１.暨南大学深圳旅游学院ꎬ广东深圳５１８０５２ꎻ２.圣路易斯华盛顿大学奥林商学院ꎬ美国密苏里州圣路易斯６３１３０)摘㊀要:机器学习算法广泛应用于电商用户行为数据分析及商业预测.其中ꎬＸＧＢｏｏｓｔ算法作为一种常用的有监督机器学习算法ꎬ能够实现电商用户行为特征最优选择与行为模型构建㊁评估消费价值㊁预测重复购买行为概率㊁提高商业决策的精准性与可行性.本研究采用阿里云天池大数据竞赛天猫复购预测所提供的双十一电商购物节关联数据集中约４２万电商平台用户产生的５５００万条行为数据ꎬ基于促销活动情境完成特征构造ꎬ实现有监督分类学习.本研究实现了ＸＧＢｏｏｓｔ算法的参数优化与数据特征值处理过程优化ꎬ完成了促销活动后６个月内电商用户重复购买行为的预测模型演算.结果表明:优化后的ＸＧＢｏｏｓｔ算法能够比较精准地预测电商用户重复购买行为㊁评估在线用户潜在购买价值㊁实现精准营销以及真正促进促销活动的长期投资回报率提高.关键词:ＸＧＢｏｏｓｔ算法ꎻ集成学习ꎻ特征工程ꎻ重购预测ꎻ精准营销中图分类号:ＴＰ３９１㊀㊀㊀文献标志码:Ａ㊀㊀㊀文章编号:１０００－５８４６(２０２３)０２－０１３４－１２ＲｅｐｕｒｃｈａｓｅＰｒｅｄｉｃｔｉｏｎｏｆＥ￣ＣｏｍｍｅｒｃｅＵｓｅｒＢａｓｅｄｏｎＸＧＢｏｏｓｔＪＩＮＧＸｉｕ￣ｌｉ１ꎬＳＨＩＭｉｎｇ￣ｘｉ２(１.ＳｈｅｎｚｈｅｎＴｏｕｒｉｓｍＣｏｌｌｅｇｅꎬＪｉｎａｎＵｎｉｖｅｒｓｉｔｙꎬＳｈｅｎｚｈｅｎ５１８０５３ꎬＣｈｉｎａꎻ２.ＯｌｉｎＢｕｓｉｎｅｓｓＳｃｈｏｏｌꎬＷａｓｈｉｎｇｔｏｎＵｎｉｖｅｒｓｉｔｙｉｎＳｔ.ＬｏｕｉｓꎬＳｔ.Ｌｏｕｉｓ６３１３０ꎬＵ.Ｓ.Ａ)Ａｂｓｔｒａｃｔ:㊀ＭａｃｈｉｎｅｌｅａｒｎｉｎｇｉｓｗｉｄｅｌｙｕｓｅｄｉｎＥ￣ｃｏｍｍｅｒｃｅｕｓｅｒｂｅｈａｖｉｏｒａｎａｌｙｓｉｓａｎｄＥ￣ｃｏｍｍｅｒｃｅｐｌａｔｆｏｒｍｂｕｓｉｎｅｓｓｆｏｒｅｃａｓｔｓ.ＸＧＢｏｏｓｔｉｓａｃｏｍｍｏｎｌｙｕｓｅｄｓｕｐｅｒｖｉｓｅｄｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ.Ｉｔｃａｎｂｅｕｓｅｄｔｏｃｏｎｓｔｒｕｃｔｐｒｅｃｉｓｅｕｓｅｒｓᶄｂｅｈａｖｉｏｒｍｏｄｅｌｓꎬｔｈｕｓｅｖａｌｕａｔｉｎｇｃｕｓｔｏｍｅｒｖａｌｕｅꎬａｎｄｐｒｅｄｉｃｔｉｎｇｔｈｅｉｒｒｅｐｕｒｃｈａｓｅｐｒｏｂａｂｉｌｉｔｙꎬａｓｗｅｌｌａｓｉｍｐｒｏｖｉｎｇｂｕｓｉｎｅｓｓｄｅｃｉｓｉｏｎｓᶄｐｒｅｃｉｓｉｏｎａｎｄｆｅａｓｉｂｉｌｉｔｙ.ＴｈｉｓｒｅｓｅａｒｃｈａｄｏｐｔｓｔｈｅｕｓｅｒｒｅｐｕｒｃｈａｓｅｄａｔａｓｅｔｒｅｌａｔｅｄｔｏｔｈｅＤｏｕｂｌｅＥｌｅｖｅｎｓｈｏｐｐｉｎｇｅｖｅｎｔｏｆｆｅｒｅｄｂｙＡｌｉｂａｂａＴｉａｎｃｈｉꎬｗｈｉｃｈｃｏｌｌｅｃｔｓｕｐｔｏ５５ｍｉｌｌｉｏｎｂｅｈａｖｉｏｒａｌｄａｔａｇｅｎｅｒａｔｅｄｂｙ４２０ｔｈｏｕｓａｎｄｕｓｅｒｓꎬｃｏｎｓｔｒｕｃｔｓｆｅａｔｕｒｅｓｂａｓｅｄｏｎｔｈｅｐｒｏｍｏｔｉｏｎｂａｃｋｇｒｏｕｎｄａｎｄｃｏｎｄｕｃｔｓｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ.ＴｈｉｓｒｅｓｅａｒｃｈｏｐｔｉｍｉｚｅｓｔｈｅＸＧＢｏｏｓｔｐａｒａｍｅｔｅｒｔｕｎｉｎｇａｎｄｆｅａｔｕｒｅ㊀㊀ｐｒｏｃｅｓｓｉｎｇꎬａｎｄｃｏｎｓｔｒｕｃｔｓａｒｅｐｕｒｃｈａｓｅｆｏｒｅｃａｓｔｍｏｄｅｌｆｏｒｓｐｅｃｉｆｉｃｕｓｅｒ￣ｓｅｌｌｅｒｐａｉｒｓｏｎａｓｉｘ￣ｍｏｎｔｈｐｅｒｉｏｄａｆｔｅｒｔｈｅｐｒｏｍｏｔｉｏｎ.ＴｈｅｒｅｓｕｌｔｉｎｄｉｃａｔｅｓｔｈａｔｔｈｅｏｐｔｉｍｉｚｅｄａｌｇｏｒｉｔｈｍＸＧＢｏｏｓｔｃａｎｐｒｅｃｉｓｅｌｙｐｒｅｄｉｃｔＥ￣ｃｏｍｍｅｒｃｅｕｓｅｒｒｅｐｕｒｃｈａｓｅｂｅｈａｖｉｏｒａｎｄｂｅｕｓｅｄｉｎｅｖａｌｕａｔｉｎｇｕｓｅｒｓᶄｐｏｔｅｎｔｉａｌｉｎｒｅｐｕｒｃｈａｓｅꎬｉｍｐｒｏｖｉｎｇＥ￣ｃｏｍｍｅｒｃｅｐｌａｔｆｏｒｍｓᶄｐｒｅｃｉｓｉｏｎｍａｒｋｅｔｉｎｇａｎｄｔｒｕｌｙｉｍｐｒｏｖｉｎｇｔｈｅｌｏｎｇ￣ｔｅｒｍＲＯＩ(ＲｅｔｕｒｎｏｎＩｎｖｅｓｔｍｅｎｔ)ｏｆｐｒｏｍｏｔｉｏｎｅｖｅｎｔｓ.Ｋｅｙｗｏｒｄｓ:㊀ＸＧＢｏｏｓｔꎻｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇꎻｆｅａｔｕｒｅｅｎｇｉｎｅｅｒｉｎｇꎻｒｅｐｕｒｃｈａｓｅｐｒｅｄｉｃｔｉｏｎꎻｐｒｅｃｉｓｉｏｎｍａｒｋｅｔｉｎｇ０㊀引言我国电子商务行业的发展历经二十多年ꎬ在线零售市场不断创新和扩展ꎬ推动了新经济业态的成长与进步.Ｓｔａｔｉｓｔａ全球统计数据库的«２０２１年电子商务报告»显示ꎬ中国是目前世界最大和渗透率最高的电子商务市场.国内各大在线零售平台发展迅速ꎬ在激烈竞争中为了吸引用户源和争夺市场份额ꎬ积极探索促销活动形式与种类ꎬ例如天猫淘宝的双十一购物狂欢节㊁京东的６１８购物节等.多样化高频率的购物节给平台引流了大量新用户(促销活动中出现首次购买行为的用户)和短期高成交额.陈可旺[１]分析促销作为一种短期刺激性工具ꎬ虽然能够有效激发用户对特定商品服务进行立即购买的欲望ꎬ但是电商平台更需要锁定长期持续的有效收益.Ｒｏｓｅｎｂｅｒｇ等[２]提出企业重视客户留存并且开发一个新客户所需的成本是维护一个老客户所需成本的６倍.陈龙[３]研究表明电商平台及商家有必要确定哪些用户有可能转化为重复购买者ꎬ并对这些潜在忠诚用户进行精准营销ꎬ降低促销成本ꎬ提高投资回报率.蔡一凡[４]做了用户聚类和特征选择的在线购买行为研究.张李义等[５]聚焦新消费者重复购买意向的预测研究.当前对用户重复购买行为预测方法主要有两类方法ꎬ一是以Ｐａｒｅｔｏ/ＮＢＤ(Ｎｅｇａｔｉｖｅｂｉｎｏｍｉａｌｄｉｓｔｒｉｂｕｔｉｏｎ)㊁ＭＢＧ(Ｍｏｄｉｆｉｅｄｂｅｔａｇｅｏｍｅｔｒｉｃ)/ＮＢＤ为代表的概率模型ꎬ二是以决策树㊁逻辑回归㊁ＳＶＭ(Ｓｕｐｐｏｒｖｅｃｔｏｒｍａｃｈｉｎｅ)为代表的机器学习模型[６].基于海量数据的机器学习算法为电商平台精准地把握消费者偏好需求㊁预测消费者行为㊁评估客户价值提供了有效分析方法ꎬ采用数据挖掘技术能够运用多维变量进行预测ꎬ结果更加客观真实[７].电商平台用户数据对象涵盖用户信息㊁商品信息㊁商家信息ꎬ用户在网站上浏览商品时产生的一系列在线行为数据(如登录㊁点击㊁收藏㊁购买㊁评论㊁咨询客服等)ꎬ并且实时在网站日志中进行同步ꎬ构成了海量丰富的大数据集.通过对大数据集进行分析ꎬ电商平台可以提取出用户的需求㊁偏好㊁购买能力等价值信息ꎬ完成重复购买行为预测模型设计[８].消费者重复购买的预测问题转化为消费者是否将重复购买的分类问题ꎬ运用机器学习中的分类算法进行有监督训练.例如Ｒａｈｉｍ等[９]基于ＲＦＭ(Ｒｅｃｅｎｃｙꎬｆｒｅｑｕｅｎｃｙꎬｍｏｎｅｔａｒｙｖａｌｕｅ)模型研究客户重复购买行为ꎬ运用ＳＶＭ算法和决策树算法对客户进行分类ꎬ准确率超过了９７％.相比单种算法构建的预测模型ꎬ集成学习方法通过串行或并行的方式将多个弱监督模型进行组合ꎬ可以进一步提高模型预测的准确性ꎬ代表算法有随机森林算法和ＧＢＤＴ(Ｇｒａｄｉｅｎｔ￣ｂｏｏｓｔｅｄｄｅｃｉｓｉｏｎｔｒｅｅｓ)算法等ꎻ或运用多模型融合策略ꎬ将不同类型算法训练出的模型以Ｓｔａｃｋｉｎｇ㊁Ｖｏｔｉｎｇ㊁Ｂｌｅｎｄｉｎｇ㊁Ｒａｎｋｉｎｇ等方法进行５３１㊀第２期㊀㊀㊀㊀㊀㊀景秀丽ꎬ等:基于ＸＧＢｏｏｓｔ算法的电商用户重复购买行为预测㊀㊀融合ꎬ提高模型的准确率和泛化能力[１０].胡晓丽等[１１]基于集成学习对用户重购行为进行预测ꎬ引入分段下采样的方法解决类别不平衡问题ꎬ并用Ｓｔａｃｋｉｎｇ融合了ＲａｎｄｏｍＦｏｒｅｓｔ㊁ＸＧＢｏｏｓｔ㊁ＬｉｇｈｔＧＢＭ构建预测模型ꎬ结果表明ꎬＳｔａｃｋｉｎｇ方法能够带来０.４％至２％的ＡＵＣ(Ａｒｅａｕｎｄｅｒｔｈｅｒｅｃｅｉｖｅｒｏｐｅｒａｔｉｎｇｃｈａｒａｃｔｅｒｉｓｔｉｃｃｕｒｖｅ)提升.吕泽宇等[１２]使用了ＬｉｇｈｔＧＢＭ和ＸＧＢｏｏｓｔ两种方法构建模型ꎬ并用Ｈｙｐｅｒｏｐｔ进行参数搜索ꎬ证明该方法只需少量特征即可达到较好的预测效果.基于先进的机器学习算法ꎬ引入特征工程设计ꎬ也是数据挖掘的关键技术之一.机器学习算法用于解决多个领域多个方向问题ꎬ学习效果如何很大程度上依赖于特征工程中提取的特征是否真正贴合业务需要ꎬ这一过程需要结合许多研究领域的专家知识.文献研究发现ꎬ针对电商购物节后消费者重复购买行为预测研究不多ꎬ通过提取特征值ꎬ结合促销活动变量对消费者行为产生的特殊影响ꎬ可构建更精准的重复购买预测模型.此外ꎬ运用天猫大数据平台提供的公开数据集ꎬ针对促销前和促销中的用户短期行为等数据维度提取更加详细的特征值ꎬ运用ＸＧＢｏｏｓｔ集成学习算法构建电商购物节后新用户重复购买行为预测模型ꎬ提高预测能力.１㊀算法背景决策树算法在机器学习中常用于预测和分类ꎬ是一种有监督的机器学习方法.在数据复杂的情况下ꎬ使用单一决策树进行预测有时无法取得较好的效果.Ｋｅａｒｎｓ等[１３]认为可通过集成学习将弱学习算法提升为强学习算法.集成算法主要有Ｂａｇｇｉｎｇ和Ｂｏｏｓｔｉｎｇ两类.其中Ｂｏｏｓｔｉｎｇ提升算法由Ｓｃｈａｐｉｒｅ[１４]通过构造多项式级算法ꎬ率先提出验证Ｋｅａｒｎｓ弱学习算法提升的思路ꎬ其各个相互依赖的分类器串行ꎬ根据预测能力的不同ꎬ预测函数的权重也不同.陈凯等[１５]研究表明ꎬ在训练的过程中增加对分类错误样本的学习权重ꎬ在迭代中能够不断调整和持续提高准确度ꎬ将各个基学习器进行加权集成输出最终结果.ＸＧＢｏｏｓｔ算法全称ｅＸｔｒｅｍｅＧｒａｄｉｅｎｔＢｏｏｓｔꎬ由Ｃｈｅｎ等[１６]在经典Ｂｏｏｓｔｉｎｇ算法ＧＢＤＴ的基础上改进提出ꎬ在计算速度上表现优秀.ＸＧＢｏｏｓｔ的核心思想是采用向前分布算法ꎬ每轮迭代产生的弱分类器都在上一轮迭代的残差基础上继续训练ꎬ通过不断减小残差来实现回归和分类ꎬ并将ＣＡＲＴ(Ｃｌａｓｓｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎｔｒｅｅ)分类回归树作为基学习器.ＸＧＢｏｏｓｔ算法的目标函数由损失函数和复杂度函数相加而成ꎬ模型误差小ꎬ更加简单ꎬ可防止过拟合ꎬ使用梯度提升法可使目标函数最小化.其目标函数在经过泰勒二次展开后可以简化为Ｏｂｊ＝－１２ðＴｊ＝１Ｇｊ２Ｈｊ＋λ＋γＴ(１)式中:Ｔ为叶子节点数ꎻγ为学习率限制叶子节点个数ꎻλ为正则化参数限制叶子节点分数ꎻＧｊ为一阶导数ꎻＨｊ为二阶导数.在每棵树选择特征进行分裂时ꎬＸＧＢｏｏｓｔ使用的是贪心法ꎬ遍历特征计算每个节点的分裂收益ꎬ选择增益最大的特征进行分裂:Ｇａｉｎ＝１２ＧＬ２ＨＬ＋λ＋ＧＲ２ＨＲ＋λ－(ＧＬ＋ＧＲ)２ＨＬ＋ＨＲ＋λ[]－γ(２)即用分割后的目标函数值减去分割前的目标函数值ꎬ当增益大于γ阈值时ꎬ树才分裂ꎬ这样目标函数在优化的同时也实现了预剪枝.当数据量极大时贪心算法十分耗费内存ꎬ对此ＸＧＢｏｏｓｔ算法还提出了一种近似搜索方法ꎬ在难以精确搜索情况下运用全局近似或者局部近似选取候选分裂点ꎬ再从中选择最佳分裂点ꎬ结果同样具有准确性.通过调用Ｐｙｔｈｏｎ开发环境的ＸＧＢｏｏｓｔ工具包进行重复６３１㊀㊀㊀辽宁大学学报㊀㊀自然科学版２０２３年㊀㊀㊀㊀购买行为的预测.２㊀数据采集与分析２.１㊀数据集数据集来源于阿里云天池大数据平台天猫复购预测大赛的公开数据集.该数据集包含了４２４１７０名匿名用户的基本信息以及他们在双十一购物狂欢节前６个月以及双十一购物狂欢节当天的交互行为记录和购物记录ꎬ同时标记了这些用户在购物节后６个月是否有重复购买行为.数据集一共包括用户信息表用户行为日志表用户－商家消费行为表３张数据表ꎬ提供了用户编号用户年龄范围用户性别商品编号商品类别编号商品品牌编号商家编号行为时间行为类型９个属性.数据初筛发现ꎬ数据集的样本用户皆有过一次以上的购买记录ꎬ且双十一购物狂欢节期间都有首次进行消费的商家.用户信息表和用户行为表包含了所有样本用户的相关数据.为满足模型训练及测试的需求ꎬ天池大数据平台提供的数据集将样本用户分为数量相当的两部分ꎬ并分别归入电商用户行为模型的训练集和测试集之中.其中训练集中的ｌａｂｅｌ字段已经完成对用户的标签化ꎬ即标明用户在双十一购物狂欢节后是否会重复购买ꎬ用于有监督学习对模型进行分类训练ꎻ而测试集中的ｐｒｏｂ字段表示预测用户是否在促销活动后重复购买ꎬ在模型训练后对无标签对象进行预测.２.２㊀数据清洗２.２.１㊀缺失值处理原数据集用户信息表中的ａｇｅ＿ｒａｎｇｅ(用户年龄范围)字段有９２９１４条缺失值㊁ｇｅｎｄｅｒ(用户性别)字段有１０４２６条缺失值ꎬ缺失值在属性中占比较大ꎬ使用均值替换法在已有数据中寻找缺失数据的最可能值.购买同一产品的用户群体往往具有相似的年龄和性别.对应数据处理流程包括:首先ꎬ在用户信息表中获取缺失年龄或性别属性用户对应的ｕｓｅｒ＿ｉｄ(用户编号)ꎬ通过这些ｕｓｅｒ＿ｉｄ在用户行为日志表中寻找属性值缺失用户购买过的所有商品的ｉｔｅｍ＿ｉｄ(商品编号)ꎻ其次ꎬ在用户行为表中寻找购买过这些商品的其他用户的编号ꎬ通过用户信息表得到这些用户的年龄范围或性别属性ꎬ以此计算商品用户群的平均年龄范围或性别属性ꎻ最后ꎬ以所有已购商品的平均用户年龄和性别的平均值填补该用户缺失的年龄或性别属性.用户行为日志表中的ｂｒａｎｄ＿ｉｄ(商品品牌编号)字段有９１０１５个缺失值ꎬ但由于同一商家售卖同一类别的同一商品ꎬ其品牌应当是相同的ꎬ其中大部分的缺失值可以通过与ｉｔｅｍ＿ｉｄ(商品编号)ꎬｃａｔ＿ｉｄ(商品类别编号)ꎬｓｅｌｌｅｒ＿ｉｄ(商家编号)进行匹配找回.２.２.２㊀数据转换在特征构造过程中需要按照时间进行数据提取ꎬ而原字段ｔｉｍｅ＿ｓｔａｍｐ时间戳以ｍｍｄｄ标识ꎬ如５月１１日记为０５１１的ｓｔｒｉｎｇ类型数据ꎬ来记录用户在线行为发生时间ꎬ无法进行数学运算ꎬ因此在数据集成时对ｔｉｍｅ＿ｓｔａｍｐ时间戳进行转换并添加一个ｉｎｔ类型的新字段ｄａｙ ꎬ用来表示用户在线行为发生时间在从５月１１日至１１月１１日这１８５ｄ的时间周期内所处的位置ꎬ如将０５１１转化为１ ꎬ将１１１１转化为１８５ ꎬ这样就不必考虑每月天数之间的差异并可以按时间进行数据提取.３㊀特征工程特征工程即对原始数据进行一系列处理的工程ꎬ最大限度地提炼出特征ꎬ作为输入供模型和算７３１㊀第２期㊀㊀㊀㊀㊀㊀景秀丽ꎬ等:基于ＸＧＢｏｏｓｔ算法的电商用户重复购买行为预测㊀㊀法使用.特征工程是对数据进行理解㊁表示和展示的过程ꎬ其在实际过程中要求尽可能地去除原始数据里的噪声ꎬ提炼出更加高效的特征以供预测模型调用解决问题.高质量特征对于提高模型的性能和精准度有很大意义.特征工程需要结合多学科知识ꎬ首先对电商用户重复购买行为的影响因素模型进行分析.用户自身属性方面ꎬ徐鹏鹏[１７]构建结构方程模型研究用户重复购买电商品牌的影响因素ꎬ认为客户的个人特征㊁质量关注㊁感知价值㊁网购依赖及购物满意度会造成影响.商品属性方面ꎬ李海霞[１８]根据环境心理学理论和社会交换理论ꎬ认为客户面对与商家在口碑㊁技术㊁人员㊁产品等服务接触时产生的刺激ꎬ会对社会关系及经济关系进行是否满意和信任的考量ꎬ从而决定是否重复购买.在用户与商家间的交互关系上ꎬ经典的ＲＦＭ模型通过客户最近一次的消费时间㊁消费频度和消费金额对客户价值进行衡量.针对电商行业特点ꎬ李敏等[１９]在ＲＦＭ模型的基础上加入客户对商品满意度和关注度的考量ꎬ构建ＲＦＭＳＡ(Ｒｅｃｅｎｃｙꎬｆｒｅｑｕｅｎｃｙꎬｍｏｎｅｔａｒｙꎬｓｔａｔｉｓｆａｃｔｉｏｎꎬａｔｔｅｎｔｉｏｎ)模型对用户忠诚度进行分类.薛红松等[２０]验证了电商客户重购行为和商家商品销量和排名符合幂律分布ꎬ重购行为倾向于在一定时期内集中发生ꎬ且随着购买次数增加ꎬ重购周期将缩短ꎬ状态趋向稳定.由此可见ꎬ当前针对电商用户重复购买行为影响因素的研究ꎬ很多学者尚未将商家推广促销和电商平台购物节活动等纳入具体分析.促销刺激可以加速新用户与商家产生交互关系ꎬ也增加了对新用户价值判断的难度.对新老客户重复购买意愿的不同特点ꎬ卢美丽等[２１]考虑了购买强化效应ꎬ并验证受此影响顾客购买次数可呈幂律分布或广延指数分布ꎬ即可将客户分为易受促销影响的提升区顾客和已形成购物惯性的稳定区顾客.结合上述研究以及数据集提供的有限信息ꎬ本研究将在特征提取时构建４大类特征ꎬ即用户特征㊁商家特征㊁关系特征㊁促销特征.原数据集的可用特征维度较低ꎬ因此在提取原特征之外还需要通过对原属性进行分割和结合ꎬ构造出新的特征.商家特征考虑商家热度㊁口碑㊁产品对重复购买的影响ꎻ用户特征考虑其人口特征㊁网购依赖度㊁网购信任度㊁稳定忠诚度ꎻ交互特征考虑用户对商家的交互时间㊁交互频次ꎻ促销特征考虑商家的促销力度以及用户的价格敏感度.如图１所示.图１㊀特征工程设计３.１㊀用户特征用户特征是对用户个人属性和购物偏好的描述ꎬ包括人口特征㊁网购依赖度㊁网购信任度㊁稳定度ꎬ会对其是否重复购买造成影响.多数研究者会从原始数据集的用户信息表中提取用户人口特征数据ꎬ参照此方法ꎬ本研究基于所用数据集中的用户信息表提取用户年龄和性别数据ꎬ探究其对消费８３１㊀㊀㊀辽宁大学学报㊀㊀自然科学版２０２３年㊀㊀㊀㊀者的购买行为和购买偏好的影响作用ꎬ即将上述两类数据属性作为原特征进行提取[１４].网购依赖度则体现用户是否为电商平台的重度使用者ꎬ主要考虑其活跃度和使用深度.用户行为日志表中记录了用户在促销活动前和促销活动中的６个月内在平台内点击㊁加入购物车㊁购买收藏的行为.用户各类行为频次越高ꎬ登录天数越多ꎬ说明其对平台越忠实ꎬ具有更高的维护价值.因此可以从行为日志表统计出用户的点击总次数㊁加入购物车总次数㊁购买总次数㊁收藏总次数㊁登录总天数㊁购买总天数作为特征.另一方面ꎬ相较于只在平台购买小部分类别产品的用户ꎬ部分用户对平台使用程度更深ꎬ运用平台满足其大部分购物需求ꎬ有更高的重复购买可能性.可以据此统计用户购买类别总数㊁购买品牌总数㊁购买不同商品总数这几个特征.网购信任度代表用户对电商产品可靠性的认知以及对性价比的敏感度.一些用户属于冲动型消费者ꎬ在电商平台上查询到喜欢的商品之后无需多做了解就能提交订单ꎻ一些用户属于理智型消费者ꎬ在选购商品时习惯货比三家ꎬ争取最大可能以更优惠的价格买到性价比高的商品.通过用户行为日志表可以计算用户购买行为和非购买行为所有操作的比例ꎬ即购买行为占比和非购买行为占比ꎬ以及非购买行为的购买转化率ꎬ计算公式为用户操作行为占比＝用户某种操作行为总次数用户所有操作行为总次数(３)非购买行为转化率＝购买行为次数各种非购买行为总次数(４)用户稳定度说明用户转移购买的难易程度.电商平台产品质量相对难以直接判断ꎬ一些高稳定度用户在积攒购物经验ꎬ找到自己满意的商家后ꎬ会倾向于在该商家进行持续的购买以节省搜寻试错成本ꎬ有更高的重复购买可能性.此处重复购买者指的是在某商家购买天数超过两天的用户ꎬ可以对用户购买商家总数㊁用户重复购买次数㊁用户重复购买商家总数㊁重复购买率进行统计计算ꎬ公式如下:用户重复购买率＝所有重复购买过的商家所有购买过的商家(５)３.２㊀商家特征商家特征描述的是商家的形象和吸引力ꎬ商家的热度㊁口碑以及产品特征会对重复购买决策造成影响.商家热度反映商家的客户及潜在客户数量ꎬ商家的热度越高说明其吸引顾客完成订单的能力越强.可以构建出商家被点击总次数㊁被加入购物车总次数㊁被购买总次数㊁被收藏总次数等特征.商家口碑及其客户满意度是用户决定是否重复购买的关键因素.如果有更多用户在查看㊁加购㊁收藏商家商品ꎬ进行多重信息搜集和产品比较后ꎬ最终能够完成转化进行购买ꎬ说明商家在信誉㊁价格等方面能够让顾客信任ꎬ有较好的口碑ꎬ这也将增加再次购买的可能性.据此构造商家的点击购买转化率㊁加购购买转化率㊁收藏购买转化率.此外购买者总数和重复购买者总数也是商家口碑的一个重要考量因素ꎬ重复购买率越大ꎬ说明其客户满意度越高.可构建的特征有商家购买者总数㊁重复购买者总数㊁重复购买率.重复购买率的计算公式是重复购买率＝重复购买者总数购买者总数(６)商家产品类型和特点也会影响用户在店内重复购买的意向ꎬ商家的产品种类越丰富ꎬ越能吸引９３１㊀第２期㊀㊀㊀㊀㊀㊀景秀丽ꎬ等:基于ＸＧＢｏｏｓｔ算法的电商用户重复购买行为预测㊀㊀用户进行搜索.因此统计出商家种类总数㊁品牌总数㊁商品总数的特征ꎬ将商家对用户吸引力进一步量化.３.３㊀交互特征交互特征描述的是每条记录中指定用户和商家之间存在的关系ꎬ关系越强ꎬ再次购买的可能性越大.关系强度可以通过最近一次交互行为的时间㊁交互频次体现.最近一次行为发生的时间越相近ꎬ说明用户近期对商家越关注ꎬ因此要计算用户最近一次与商家发生交互行为距离双十一狂欢购物节促销活动的天数.而用户对商品进行点击㊁加入购物车㊁收藏等操作的频次越高ꎬ说明用户对商品和商家越关注ꎬ可以构造出特定用户在特定商户中的点击总次数㊁点击总天数㊁加购商家总次数㊁收藏商家总次数等相关特征.用户单次在商家内部购买的商品数量会影响消费者与商家之间的关系深度ꎬ用户对商家内的多种不同商品有购买意向会影响未来重购行为的发生概率.从用户行为日志表中可以构造出用户在商家的购买总件数㊁购买不同商品数㊁购买品牌数㊁购买类别数等特征.３.４㊀促销特征促销帮助商家吸引了更多新用户ꎬ所以有必要针对促销构建特征帮助判断新客户重复购买的可能性ꎬ主要观察商家的促销力度及用户的价格敏感度.当商家活动力度大时ꎬ可能会导致短期购买量大涨ꎬ但在活动后一段时间内客户由于反差过大而不愿再次购买.可以通过比较商家近期关注度与长期关注度进行观察ꎬ构造商家促销月被点击次数㊁被加购次数㊁被购买次数㊁被收藏次数ꎬ促销月被点击占比㊁被加购占比㊁被购买占比㊁被收藏占比特征.当用户价格敏感度高时ꎬ在促销的驱动下可能会在短期内活跃度提高ꎬ产生更多交互记录ꎬ而促销结束后可能受价格影响不选择重复购买.对此可以在用户行为日志表中构造一些趋势特征来对用户的促销敏感度进行衡量ꎬ如促销月用户点击㊁加入购物车㊁购买㊁收藏行为的次数ꎬ以及这４种行为的次数在所有对应行为次数中的占比ꎬ即用户促销月点击占比㊁加购占比㊁购买占比㊁收藏占比.最终一共提取了３类５５个特征.促销月某行为占比＝促销月(商家受到或用户进行)某行为次数(商家受到或用户进行)某行为总次数(７)通过对数据集直接分析ꎬ构造出来的特征往往在取值范围上存在着较大的落差.如果某一特征的量级过大㊁方差过大ꎬ很有可能导致该特征在模型训练时发挥主导作用ꎬ从而使得其他特征失效.为了避免这一情况发生ꎬ在模型训练之前对特征值进行均值归一化处理ꎬ使所有特征值呈服从均值为０㊁标准差为１的标准正态分布.运用Ｐｙｔｈｏｎ中ｓｋｌｅａｒｎ包的ＳｔａｎｄａｒｄＳｃａｌｅｒ完成这一操作.４㊀模型构建训练与预测４.１㊀模型构建４.１.１㊀样本划分与比例调整通过Ｐｙｔｈｏｎ程序中的ＸＧＢｏｏｓｔ包和ｓｋｌｅａｒｎ包对预测模型进行构建与训练.运用ＸＧＢｏｏｓｔ算法进行有监督训练.阿里云天池大数据平台天猫复购预测大赛数据集提供了带有用户分类标签的训练表一共包含２６０８６４条数据ꎬ数据量较为充足ꎬ可以按照标准形式将样本划分为训练集和测试集ꎬ比例为７ʒ３.样本数据中的正样本ꎬ即重复购买用户样本为１５９５２条ꎬ负样本ꎬ即非重复购买用户样０４１㊀㊀㊀辽宁大学学报㊀㊀自然科学版２０２３年㊀㊀㊀㊀本为２４４９１２条.样本数量正负样本比例约为１ʒ１５ꎬ数量差距较大ꎬ存在类别不平衡的问题.严重的类别不均衡在机器学习的过程中可能会导致模型倾向样本数量多的类别ꎬ引起过拟合问题ꎬ影响模型预测结果的准确性ꎬ因此通过一定的采样策略ꎬ保证模型训练时正负样本比例协调.Ｐｙｔｈｏｎ的ＸＧＢｏｏｓｔ包为解决数据类别不均衡的问题提供了方法.如果只考虑模型的ＲＯＣ(Ｒｅｃｅｉｖｅｒｏｐｅｒｔａｔｉｎｇｃｈａｒａｃｔｅｒｉｓｔｉｃｃｕｒｖｅ)㊁ＡＵＣ㊁召回率指标ꎬ而不关心样本为某一类别的概率大小ꎬ可以通过将Ｂｏｏｓｔｅｒ参数中的ｓｃａｌｅ＿ｐｏｓ＿ｗｅｉｇｈｔ设置为数据负样本数量/正样本数量ꎬ为比例小的样本赋予更大的权重ꎬ改变样本在训练中的贡献ꎬ减弱类别数量不平衡的影响ꎬ即将ｓｃａｌｅ＿ｐｏｓ＿ｗｅｉｇｈｔ的参数值设置为１５.４.１.２㊀参数设置Ｐｙｔｈｏｎ程序中的ＸＧＢｏｏｓｔ包对学习目标参数ｅｖａｌ＿ｍｅｔｒｉｃ设置指定分类器训练情况的输出指标ꎬ再调用ｓｋｌｅａｒｎ包中的ｍｅｔｒｉｃｓ选择整个模型需要输出的评估指标.ＸＧＢｏｏｓｔ一共有通用参数㊁Ｂｏｏｓｔｅｒ参数㊁学习目标参数３类.１)通用参数对模型宏观功能进行控制.Ｂｏｏｓｔｅｒ决定的是迭代所用的模型ꎬ有树模型和线性模型ꎬ本实验使用的是树模型ｇｂｔｒｅｅ.ｓｉｌｅｎｔ决定运行时是否输出信息ꎬ默认值０输出.ｎｔｈｒｅａｄ决定运行时使用的线程数ꎬ默认值为－１ꎬ代表自动获取最大值.２)Ｂｏｏｓｔｅｒ参数用于控制每一步Ｂｏｏｓｔｅｒ(树或回归)的生成ꎬ如表１所示.ｅｔａ即学习率ꎬ决定每次迭代的收缩步长ꎬ参数值越大越难以收敛ꎬ因此将参数值设置为偏小值０.１ꎬ提升学习过程的精细化.ｍｉｎ＿ｃｈｉｌｄ＿ｗｅｉｇｈｔ为最小叶子节点样本权重和ꎬ当一个叶子节点的样本权重总和小于该参数值时则停止分裂ꎬ取值范围为[０ꎬ＋ɕ)ꎬ取值越大越保守ꎬ可以防止过拟合ꎬ默认值为１.ｍａｘ＿ｄｅｐｔｈ为树的最大深度ꎬ该值越大模型则越复杂ꎬ越容易导致过拟合ꎬ默认值为６.ｓｕｂ＿ｓａｍｐｌｅ控制构建每棵树时采用的样本比例ꎬ可以防止过拟合ꎬ取值于(０ꎬ１]之间ꎬ此处设为值０.８.ｃｏｌｓａｍｐｌｅ＿ｂｙｔｒｅｅ控制构建每棵树时随机抽取的特征占比ꎬ取值于(０ꎬ１]之间ꎬ此处设为值０.８.ｇａｍｍａ指的是节点分裂要求的最小损失函数减少值ꎬ参数越大越能避免过拟合ꎬ默认值为０.ａｌｐｈａ为控制复杂度的权重的Ｌ１正则化项ꎬ参数值越大越能避免过拟合ꎬ可以加快高维度数据的运算速度ꎬ此处设为值１.ｓｃａｌｅ＿ｐｏｓ＿ｗｅｉｇｈｔ可在类别样本数不平衡时加快算法收敛速度ꎬ此处设为值１５.表１㊀Ｂｏｏｓｔｅｒ参数初始值设置参数名参数值ｅｔａ０.１ｍｉｎ＿ｃｈｉｌｄ＿ｗｅｉｇｈｔ１ｇａｍｍａ０ｍａｘ＿ｄｅｐｔｈ６ｓｕｂ＿ｓａｍｐｌｅ０.８ｃｏｌｓａｍｐｌｅ＿ｂｙｔｒｅｅ０.８ａｌｐｈａ１ｓｃａｌｅ＿ｐｏｓ＿ｗｅｉｇｈｔ１５３)学习目标参数ꎬ确定模型学习目标.ｏｂｊｅｃｔｉｖｅ确定需要被最小化的损失函数ꎬ由于研究的问题是二分类问题ꎬ并要求以概率的形式输出结果ꎬ因此将此参数设定为ｂｉｎａｒｙ:ｌｏｇｉｓｔｉｃꎬ即二分类回归.ｅｖａｌ＿ｍｅｔｒｉｃ定义的是分类器的评估指标ꎬ可以同时添加多种指标ꎬ此处添加常用的ａｕｃ㊁ｌｏｇｌｏｓｓ(负对数似然函数值)㊁ｅｒｒｏｒ(二分类错误率).ｓｅｅｄ为随机数种子ꎬ该参数值能使随机数据复现ꎬ此处设置为１００.４.２㊀模型训练４.２.１㊀初始参数训练ＸＧＢｏｏｓｔ包中的ＸＧＢｏｏｓｔ.ｔｒａｉｎ()用于对分类器进行训练ꎬ参数主要包括ｐａｒａｍｓ㊁ｄｔｒａｉｎ㊁ｎｕｍ＿ｂｏｏｓｔ＿ｒｏｕｎｄ㊁ｅｖａｌｓ＝()㊁ｅａｒｌｙ＿ｓｔｏｐｐｉｎｇ＿ｒｏｕｎｄｓ.ｄｔｒａｉｎ指的是被训练的数据.ｎｕｍ＿ｂｏｏｓｔ＿ｒｏｕｎｄ指的是１４１㊀第２期㊀㊀㊀㊀㊀㊀景秀丽ꎬ等:基于ＸＧＢｏｏｓｔ算法的电商用户重复购买行为预测。

阿里云大数据acp题库

阿里云大数据acp题库
阿里云大数据ACP题库是阿里云官方提供的大数据考试题库，包含了大数据领域的各类知识点和技能要求。

该题库主要面向阿里云大数据认证考试的考生，但也适用于其他对大数据领域有兴趣或需要证明自己技能的人群。

阿里云大数据ACP题库内容包括但不限于：Hadoop、Spark、Hive、Flink、Kafka、HBase、DataWorks、MaxCompute等大数据技术及其应用。

在阿里云大数据ACP考试中，考生需要对这些知识点进行掌握并能够熟练应用。

阿里云大数据ACP题库中的题目类型主要为单选题、多选题和判断题，覆盖了大数据领域的各个方面，从基础知识到实际应用均有所涉及。

除了题目本身外，题库还提供了答案解析和参考资料等辅助内容，帮助考生更好地理解和掌握知识点。

总之，阿里云大数据ACP题库是一个帮助大数据从业者和爱好者提高自身技能水平的良好资源，对于想要在大数据领域有所作为的人来说是必不可少的学习资料之一。

- 1 -。

软件测试实训报告总结(六篇)

软件测试实训报告总结(六篇)软件测试实训报告总结篇一实习第一周:主要是学习关于测试的业务、制度和知识，虽然不是重要的工作，但是对以后的工作有很大的帮助。

实习第二周:在公司的第二周，我开始了解项目的需求，以及公司的数据模板，对比测试案例和方案。

在这周里，主要了解web网站类型的《深圳书城》项目的需求，从需求中学习写测试用例。

并且还参与了该项目的用例评审。

实习第三周:熟悉《深圳书城》项目的需求，学习前辈们的用例和测试方案。

根据测试用例，测试项目。

主要负责测试系统后台的信息管理模块、发货管理模块等模块。

并提交bug到bug管理库。

实习第四周:项目经过一段时间的测试，终于快要完成了，这个星期主要是回归测试。

就是把提过bug的单，经过开发修改过后的系统再进行测试。

回归全部通过，说明系统的质量不差。

测完并且编写用户手册。

实习第五周:项目完成了，进行了一个星期的ocs项目培训，这次培训主要是学习ocs的业务流程。

所谓的ocs是指online charging system在线计费系统。

是我们平时用手机打电话、发短信、上网等业务的计费。

发现计费系统的业务逻辑性强。

你必须努力学习。

实习第六周:学习语言计费流程知识，以及熟悉ocs相关概念。

学习使用cbde工具的使用，以及测试工具idt。

idt是接口驱动工具。

原来模拟dcc，idl接口信息以及离线话单，可以直接触发业务流程，简化问题定位。

学习了这些工具就要多练习，才会熟练。

实习第七周:这周主要是练习linux命令，多点与同事的交流，这样便于解决问题。

实习第八周:由于暂时还没接到项目，所以这周的主要任务是:学习loadrunner工具为主，linux命令为辅。

我在本机上搭建一个网上商城的系统，用于做性能测试的练习，因此，使用lr工具对其进行性能的测试，以熟悉使用lr 工具。

实习第九周:这周主要熟悉《电子采购系统》的需求，了解电子采购系统的业务流程，由于我们这个系统是定制版本，在增加系统需求前是一个完整的系统。

挑战杯大学生课外学术科技作品竞赛获奖作品一览

利用结构可控的蛾翅鳞片制备微型光子器件的研究
四川大学
特大自然灾害下救灾及灾后重建中人文精神的价值与作用研究——以“汶川大地震”为例的个案分析
苏州大学
基于谐振驱动原理的微型移动机器人
苏州大学
城乡一体化进程中土地股份合作的制度演进与创新——以苏州市上林村为个案
同济大学
水质安全新卫士：一种用于水质毒性检测的多通道微生物传感器
苏州大学
新型农村合作经济组织发展道路的探索——以苏州市湖桥村为例
温州医科大学
乙型肝炎相关慢加急性肝衰竭预后预测模型的研究
浙江大学
一厢情愿到两情相悦：浙江省高校创业教育模式与发展路径
江西师范大学
信用共同体“贷”动小微企业创富梦——江西省探索小微企业走出融资困境的调查报告
南昌航空大学
新型复合光催化剂的合成及光催化降解有机染料性能研究
宁波大学
家庭农场：现代农业经营模式创新--基于宁波68个家庭农场的调查分析
宁波大学
软壳三疣梭子蟹产品开发的研究
温州医科大学
非促分裂型酸性成纤维细胞生长因子治疗脊髓损伤的研究
温州医科大学
双歧杆菌生物毒性法快速筛检食品农药残留试剂盒的研制
浙江大学
农村宅基地置换：如何成为一项好政策？——基于J市三镇的调查报告
学校名称作品名称西南大学中国古代染整技艺的初步系统研究与重现中南财经政法大学技术措施保护绩效的实证分析兼议著作权法第二次修改中的技术措施保护问题中南财经政法大学大学生信用卡市场调查分析及产品创新设计以武汉地区大学生信用卡市场为例四川大学中国农村幼儿教育危机与对策的探究安徽工业大学小型低品位热源型热泵机组电子科技大学500msps手持式示波表广州大学具有光磁功能性质的配合物的合成结构和性质河南科技大学新阶段三种扶贫模式在河南实践的调查研究以信阳周口三市为例南京理工大学用于动中通的自主稳定跟踪系统西安交通大学生物磁分离分析用高磁响应超顺磁微球基于pica方法重庆邮电大学isa100工业无线协议栈的研发及应用深圳大学食品安全中食物过敏原的基础研究及相关试剂盒的研制南方医科大学mrp14诱导thp1细胞干扰素诱导蛋白10表示的信号机制研究华中农业大学数字候选基因法及其在挖掘猪新候选基因中的应用上海财经大学农户借贷行为与二元金融联动影响关系的实证研究基于中国东部中部西部千社万户的调查中南民族大学推拉理论视角下农村剩余劳动力双向转移的制约因素及突破思路基于河南省许昌县的调查中国石油大学华新型采油化学助剂的合成与性能评价乙烯基吡咯烷酮与丙烯酰胺共聚物的合成与评价中原工学院中国农村水污染受害者社会救助调查与思考河南大学社会分化与城市底层群体的生存空间基于对开封市人力三轮车夫生存现状的调查上海工程技术大学上海城乡养老保险一体化研究基于上海市松江区的实证分析上海海洋大学基于蜘蛛网仿生结构的多功能诱捕器及新型捕虫法武汉工程大学新型节能全平衡多杆机构抽油机哈尔滨医科大学上转化纳米颗粒发光技术在肿瘤治疗中的应用研究中南林业科技大学农村基层组织财务管理规范化调研报告华南理工大学农民工市民化研究基于社会贡献与社会成本视角

信通院全链路压测优秀实践案例

信通院全链路压测优秀实践案例背景信通院作为国内领先的互联网技术研发和咨询服务机构，一直致力于为各行各业的客户提供高效、稳定、安全的互联网技术服务。

为了确保服务的稳定性和可靠性，信通院在全链路压测方面进行了深入研究和优秀实践，取得了显著成果。

全链路压测概述全链路压测是指对整个互联网服务流程进行压力测试，包括接口调用、数据传输、系统处理等多个环节。

通过全链路压测，可以全面评估服务在不同负载下的性能和稳定性，发现潜在的问题并提前进行优化。

信通院的优秀实践案例案例一：实时性能优化信通院针对某大型电商平台进行全链路压测，发现系统的响应时间在负载较高时出现了明显波动。

经过分析，发现是由于数据库响应缓慢导致的。

信通院通过优化数据库配置、采用缓存技术等手段，有效降低了响应时间，提高了系统的实时性能。

案例二：高并发场景测试某社交平台在上线新功能时遇到了高并发场景下的性能问题。

信通院对该场景进行了全链路压测，发现系统在短时间内承受了大量请求时出现了崩溃现象。

经过分析，信通院针对系统架构进行了优化，增加了缓存层、优化了数据库连接池等措施，有效提高了系统的抗并发能力。

案例三：异常情况处理测试某在线支付平台在支付过程中出现了异常情况，导致部分用户支付失败。

信通院对该场景进行了全链路压测，模拟了各种异常情况，并针对异常情况进行了提前预案和优化。

通过测试，信通院发现并解决了系统中的潜在问题，提高了异常情况下的处理能力。

总结信通院通过全链路压测优秀实践案例，展示了其在互联网技术服务领域的专业能力和优势。

通过深入研究和不断优化，信通院为各行各业的客户提供高效、稳定、安全的互联网技术服务，赢得了广泛赞誉和信任。

未来，信通院将继续关注行业发展趋势，加强技术研发和创新能力，为更多客户提供优质的服务。

淘宝性能测试白皮书 V1.0

二零零九，岁在己丑，秋末冬初，会于产品研发之测试，修性能书也，群贤毕至，少长咸集。

此地有系统框架，API 接口；又有Web 应用，无线性能，分布式各大中心，列坐其次。

虽无丝竹管弦之盛，一书一典，亦足以畅叙幽情。

是日也，天朗气清，惠风和畅。

仰观系统之大，俯察测试之盛。

所以游目骋怀，足以极性能之娱，信可乐也。

测试之相与，俯仰淘宝，或接口功能，测试一室之内；或安全性能，放浪形骸之外。

虽用例万殊，方法不同，当其欣于所遇，暂得于己，怏然自足，曾不知新人倍增；及其所之未知，能力各异，感慨系之矣。

向之所能，俯仰之间，已为陈迹，犹不能不以之兴怀。

况系统复杂，调优艰难。

马云曰：“系统之不稳。

岂不痛哉！”每览昔人性能测试成就之由，若合一契，未尝不临技能嗟叹，不能喻之于怀。

固知技术名利为虚诞，齐知识业绩为妄作。

后之视今，亦犹今之视昔。

憾夫！故列叙性能理论实践，录其指标模型策略，虽世殊事异，性能技术，其致一也。

后之览者，亦将有感于斯性能白皮书。

郭芙淘宝网测试掌门人2009 年11 月18 日于杭州序言 (2)目录 (3)引言 (5)性能测试指标 (5)Vuser虚拟用户 (5)Transaction事务 (5)TPS每秒事务数 (6)PV Page View (6)Peak PV 高峰Page View (6)Concurrency并发 (7)Scenario场景 (7)Response Time响应时间 (7)Think Time思考时间 (7)CPU资源 (8)Load负载 (9)Std. Deviation标准差 (10)性能测试模型 (10)PV计算模型 (10)PV->TPS转换模型 (12)TPS波动模型 (12)共享中心性能测试模型 (13)前端页面性能测试模型 (14)性能测试策略 (15)性能测试评估 (16)关键业务 (17)日PV量 (17)逻辑复杂度 (17)运营推广计划 (17)其它 (17)性能测试类型 (18)性能测试压力变化模型 (18)性能测试类型 (18)1. 性能测试 (18)2. 负载测试 (19)3. 压力测试 (19)4. 稳定性测试 (19)性能测试执行方法 (19)单场景 (19)混合场景 (20)性能监控 (20)监控指标 (20)监控工具 (21)监控步骤 (23)性能分析 (24)分析原则 (24)分析信息来源 (24)分析标准 (24)分析工具 (24)性能测试通过标准 (27)性能测试流程 (28)性能测试流程图 (28)性能测试流程主要活动 (29)性能测试文件模版 (30)结束语 (30)参考文献 (31)版本更新说明 (32)作者介绍 (32)引言淘宝网自创立以来，除了对功能的要求很高以外，对性能的要求也越来越高。

基于混合架构的大语言模型智能问答系统研究

基于混合架构的大语言模型智能问答系统研究
陶晓英
【期刊名称】《邮电设计技术》
【年(卷),期】2024()5
【摘要】探讨了大语言模型在企业政企营销知识智能问答方向的研究与应用。

在开发技术上,采用检索增强生成技术[1],结合大模型微调、意图识别和向量库实现问答F1值初步达到78.21%,构建闭环知识图谱体系,将问答F1值提升到92.36%。

在工程上,通过vLLM大模型加速机制提升系统性能,采取数据安全技术保障系统安全性,通过API及微服务模块化架构提升系统适配性及扩展性,并将系统应用于行业生产中,有助于加速大模型在企业中的应用落地。

【总页数】8页(P48-55)
【作者】陶晓英
【作者单位】中国联通上海分公司
【正文语种】中文
【中图分类】TP311
【相关文献】
1.大语言模型融合知识图谱的问答系统研究
2.基于大语言模型的教育问答系统研究
3.基于句粒度提示的大语言模型时序知识问答方法
4.大语言模型架构下的智能写作系统设计与实现
5.基于大语言模型的BIM正向设计问答系统研究
因版权原因，仅展示原文概要，查看原文内容请购买。

为什么要进行容量规划和性能测试

为什么要进行容量规划和性能测试进行容量规划和性能测试是保证系统顺利运行的重要步骤。

通过对系统进行容量规划，可以预测系统在不同负载下所需资源的量，为系统的正常运行提供支持。

而性能测试则是评估系统在不同负载下的性能表现，发现潜在的性能问题并进行优化。

本文将探讨为什么要进行容量规划和性能测试，并解释它们的重要性。

一、容量规划的重要性容量规划是指根据预测的业务需求，确定系统所需的硬件、软件和网络资源的过程。

进行容量规划可以帮助确保系统能够满足业务需求，并提供良好的用户体验。

以下是容量规划的几个重要原因：1. 确保系统可靠性：容量规划可以避免系统因资源不足而导致的崩溃或性能下降。

通过合理分配资源，系统可以更好地应对峰值负载和突发访问量。

2. 降低运营成本：容量规划可以帮助企业避免过度投资或资源浪费。

通过准确预测系统需求，可以避免购买过多的硬件设备或虚拟资源，并提高资源利用率。

3. 优化用户体验：容量规划可以确保系统在高负载情况下依然能够提供良好的性能和响应时间。

这对于用户体验至关重要，可以增加用户的满意度和忠诚度。

4. 应对业务增长：容量规划可以帮助企业评估系统的扩展需求，为未来的业务增长做好准备。

通过提前规划和预测资源需求，可以避免在业务增长时出现瓶颈或资源不足的情况。

二、性能测试的重要性性能测试是一种验证系统在不同负载情况下的性能表现的方法。

通过性能测试，可以评估系统的性能指标，如响应时间、吞吐量和并发用户数等。

以下是性能测试的几个重要原因：1. 发现性能瓶颈：性能测试可以帮助发现系统设计和实现中的性能瓶颈。

通过模拟真实用户场景和负载，可以确定系统在不同情况下的性能极限，并及时进行调整和优化。

2. 评估系统稳定性：性能测试可以评估系统在高负载情况下的稳定性和可靠性。

通过模拟大量并发用户和高访问量，可以验证系统的稳定性，并找出系统容易出现问题的部分。

3. 提供优化建议：性能测试可以提供有针对性的优化建议。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

上传
引擎状态机维护
内存汇总
持久化
命令収送中心（时间同步，心跳，url传输，压测准备，压测开始，qps调速，压测停止）网络层
长连接
网络层命令接收中心，
数据接收解压缩反序列化
用户中心
加载
登录
url信息中心 Qps序列基本信息
本地化用户抽叏
跨域session穿透
加载
缓冲队列
用户本地TO化P 100 CASE STUD内IES存缓存用户上下文
压测报表
TOP 100 CASE STUDIES OF THE YEAR
容量平台

全球软件案例研究
峰会
压测配置
url传输
压测控制
url抽叏
序列化
过程监控
失败重传机制
系统实现—集群压测流量平台
控制台
引擎管理
压缩
心跳収送时间同步
状态收集
心跳分析
状态提叏
4、阿里稳定性保障不验证利器（有了它，让双11来得更猛烈
些吧！）；
TOP 100 CASE STUDIES OF THE YEAR

能力 * 水位系数）
机器增减 = 理论机器数 – 实际机器数
唯一的未知发量：集群能力 <-- 压力测试
TOP 100 CASE STUDIES OF THE YEAR

全球软件案例研究峰会
压测环境选择
线下自身环境丌真实依赖服务的环境丌真实简单，可操作性好丌用数据和业务安全性
全球软件案例研究峰会
线上压测方法与场景介绍
负载均衡权重调整
相关工具： F5, LVS, SOA service registration等负载均衡控
制器；
运用场景及注意事项：
1、单机压测；
2、系统的集群调用量足以压测到单机的极限；
TOP 100 CASE STUDIES OF THE YEAR
TOP 100 CASE STUDIES OF THE YEAR
线上压测方法与场景介绍
主要特点
脏数据如何处理；测试流程如何丌影响正常流程；如何构造贴近真实的用户场景，否则难保障压测准确性；请求如何构造；可压测单机和集群；
写请求如何处理；响应如何处理；可压测单机和集群；
完全真实的请求；无法压测出集群能力，非常适合用来做单机压力测试；完全真实的请求；无法压测出集群能力，非常适合用来做单机压力测试；
1、系统是只读的或者丌需要压测写请求；
2、已做好对写请求脏数据的特殊处理（拦截或者隔离存储）；
3、新系统上线；
TOP 100 CASE STUDIES OF THE YEAR

全球软件案例研究峰会
复制请求
线上压测方法与场景介绍
相关工具： tcpcopy,btrace,nginx post_action，自定义
调用
负载均衡
调用 more
机器A 机器B 机器C
4

全球软件案例研究峰会
模拟请求
线上压测方法与场景介绍
相关工具： http_load,webbench,apache ab,jmeter, Siege，
Seaplane，自定义工具；
运用场景及注意事项：

全球软件案例研究
峰会
模拟调用者
调用
1
调用
调用者
调用
调用
3
单机或者系统集群
机器A
引流
机器B
转収
机器C
TOP 100 CASE STUDIES OF THE YEAR
线上压测方法与场景介绍
线上正常服务机器
复制真实请求
调用
单机或者系统集群
2
调调用用者
OF THE YEAR
实际qps 状态统计
収送引擎计时器 Qps算法
心跳应答版本号
劢态资源算法
状态封装
跳转实时ww调w速.top100sum超m时it.停co止m
全球软件案例研究峰会
线上压测与容量规划作用
1、阿里系统扩容或者缩容的数据依据；
2、阿里大促时期资源评估数据参考；
3、帮劣系统収现大量性能瓶颈不容量问题；
线上压测方法与场景介绍
请求引流
相关工具： apache mod_jk，mod_proxy, nginx proxy等；
运用场景及注意事项：
1、单机压测；
2、系统的集群调用量足以压测到单机的极限；
TOP 100 CASE STUDIES OF THE YEAR

全球软件案例研究峰会
压测模型
系统实现—单机压测平台
线上机器
日志回放负载均衡
Apache分流 Apache代理
Nginx分流 Nginx代理
压测控制
人工
自劢
数据采集
系统数据压测数据
性能数据业务数据
异常情况
阀值监控压
cpu
测
load
用户rt Nhomakorabea全球软件案例研究峰会
服务器
TOP 100 CASE STUDIES OF THE YEAR
线上压测与容量规划概念
如何给系统分配合理数量的服务器，既能保障系统的正常运行，又能最大限度的节约成本？
如何知道系统什么时候需要扩容、缩容、扩容多少及缩容多少服务器？
线上压测方法与场景介绍
线上自身环境真实依赖服务的环境真实；复杂性高，丌易于操作需考虑数据和业务安全性
TOP 100 CASE STUDIES OF THE YEAR

全球软件案例研究峰会
线上压测方式
压测方式
模拟请求
复制请求
引流
负载均衡权重调整
务状态是健康的
集群负荷：系统当前的调用量（Qps）
TOP 100 CASE STUDIES OF THE YEAR

全球软件案例研究峰会
线上压测与容量规划概念
系统容量公式
集群水位 = 集群负荷 / 集群能力 * 100%
理论机器数 = （实际机器数 * 集群负荷 * 集群水位）/ （集群
agent等；
运用场景及注意事项：
1、系统是只读的或者丌需要压测写请求；
2、对写请求丌存在唯一性约束，允许同一个请求多次写；
3、请求的响应已被特殊处理（丌能迒回给调用方）；
TOP 100 CASE STUDIES OF THE YEAR

全球软件案例研究峰会
如何最真实地验证系统的性能指
标？

全球软件案例研究峰会
线上压测与容量规划概念
系统容量概念定义
单机能力：单台服务器每秒能承叐的极限调用量（Qps）
集群能力：系统集群每秒能承叐的极限调用量（Qps）
水位系数：系统运行在极限qps乘以该系数的情况下都认为服
全球软件案例研究峰会
TOP 100 CASE STUDIES OF THE YEAR

全球软件案例研究峰会
阿里线上压测不容量规划实践
线上压测不容量规划概念
线上压测方法不场景介绍
系统实现
线上压测不容量规划作用
——游骥
TOP 100 CASE STUDIES OF THE YEAR