游骥--阿里线上压测与容量规划实践
- 格式:pdf
- 大小:1.11 MB
- 文档页数:15
GZO48智慧物流赛项(教师赛)模块一、智慧仓规划设计模块赛题嘉华集团是成立于1997年,是一家集化妆品、生活日常用品等系列产品的研发、生产、销售为一体日化品企业,集团总部位于重庆。
综合考虑日化品种类多、容易分拣出错,且大众对日化品产品需求量多、时效要求较高,民生集团为了更快地响应消费者的日常需求,提升消费者体验,欲在江浙沪地区选址建立成品智慧仓,综合考虑面向终端用户的拆零分拣效率需求,计划采用货到人GTP作业模式提高仓储效率及关键客户体验感。
二、项目任务书为制定出一套高效可执行的整体解决方案,嘉华集团物流规划部的工作人员前期对仓库、备选地点、关键客户的位置信息及江浙沪销售情况数据进行汇总整理,假设你是嘉华集团物流规划部的规划负责人,请在此基础上完成选址、库内规划及配送路线规划有关工作。
(一)智慧仓选址完成仓库选址方案。
(二)智慧仓规划经过前期的选址规划,目前嘉华集团现租用面积为(L*W)16m*14m的单层仓库,且仓库出入口位于仓库北侧,请根据信息完成如下分析:(1)智慧仓需求分析:根据给出的商品基本情况以及历史出库数据进行商品基本情况分析,分析内容包含商品存储单位、包装形态、体积和重量、日均出库量、日均订单数等方面,并根据分析结果以及历史出库情况确定智慧仓在库存周转天数内的商品存储目标。
(2)确定智慧仓设备配置数量:根据智慧仓存储目标以及历史订单数据,确定智慧仓内所需的AGV机器人、工作站、充电桩、货架的数量并计算AGV机器人、工作站的设备效率。
注:以“出库量”为基准对一年内的业务数据进行降序排序,暂取列表的20%所处的日期为基准天。
每日工作时长为7小时。
(三)智慧仓库存策略设计经过前期的新仓规划,目前嘉华新仓已投入使用,需做好畅销品的补货与库存管理,已知畅销品安安面霜近一年江浙沪的销售数据,在此基础上年需求量提高10%,请合理设置其安全库存、订货点以及经济采购批量。
(四)配送路线设计伴随嘉华集团江浙沪仓的投入使用,提升关键客户体验感的议题也被提上议程,目前嘉华集团客户均为无差异化零担方式处理,现拟采用“专线配送”方式服务其3个关键客户,请综合考虑成本、服务和效率,为该专线选择合适配送路径。
doi:10.3969/j.issn.1003-3114.2023.06.015引用格式:彭牧尧,魏建军,王乾舟,等.基于最大最小蚂蚁系统的容迟网络缓存机制[J].无线电通信技术,2023,49(6): 1095-1103.[PENG Muyao,WEI Jianjun,WANG Qianzhou,et al.Caching Mechanism Based on Max-Min Ant System in Delay Tolerant Network[J].Radio Communications Technology,2023,49(6):1095-1103.]基于最大最小蚂蚁系统的容迟网络缓存机制彭牧尧1,魏建军1,王乾舟2,王㊀琨3(1.西安电子科技大学通信工程学院,陕西西安710071;2.西安电子科技大学杭州研究院,浙江杭州311231;3.西安电子科技大学计算机科学与技术学院,陕西西安710071)摘㊀要:容迟网络(Delay Tolerant Network,DTN)是指节点资源紧张㊁网络延迟较大或链接频繁中断的网络结构㊂为保障消息到达率,DTN采用了缓存机制,导致网络开销大幅提升㊂为了在提升消息到达率的同时降低网络开销,通过考虑消息类别,将蚁群算法引入容迟网络缓存机制中,提出了基于最大最小蚂蚁系统的容迟网络缓存机制㊂在该机制中,节点致力于维护消息的信息素浓度,依据消息的类别及自身属性得到消息的丢弃权重,进而实现容迟网络的消息丢弃㊂实验结果表明,与基于传统蚁群算法的容迟网络缓存机制相比,所提的容迟网络缓存机制提高了7.7%的消息到达率并降低了5.4%的网络开销㊂关键词:容迟网络;缓存机制;最大最小蚂蚁系统;消息类别;信息素浓度中图分类号:TN391㊀㊀㊀文献标志码:A㊀㊀㊀开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2023)06-1095-09Caching Mechanism Based on Max-Min Ant System inDelay Tolerant NetworkPENG Muyao1,WEI Jianjun1,WANG Qianzhou2,WANG Kun3(1.School of Telecommunication Engineering,Xidian University,Xi an710071,China;2.Hangzhou Institute of Technology,Xidian University,Hangzhou311231,China;3.School of Computer Science and Technology,Xidian University,Xi an710071,China) Abstract:Delay Tolerant Network(DTN)indicates a network structure where node resources are scarce,network latency is high, or links are frequently interrupted.To guarantee message delivery,DTN employs a caching mechanism which leads to an extra increase of network overhead.To improve message delivery rate and reduce network overhead,this paper considers message categories,and utili-zes an ant colony algorithm to improve DTN caching mechanism.The proposed DTN caching mechanism is termed as maximum mini-mum ant system.In this mechanism,nodes focus on maintaining the pheromone concentration of the message.Specifically,nodes deter-mine the discarding weight of message based on its category and own attributes to discard messages in the DTN.Experimental results demonstrate that compared with the DTN caching mechanism based on traditional ant colony algorithms,the proposed DTN caching mechanism increases the message delivery rate by7.7%and reduces network overhead by5.4%.Keywords:DTN;caching mechanism;max-min ant system;message category;pheromone concentration收稿日期:2023-07-12基金项目:国家自然科学基金联合基金重点项目(U21A20446)Foundation Item:Joint Funds of the National Natural Science Foundation of China(U21A20446)0㊀引言难以估计的链接范围与成本巨大的硬件覆盖导致了容迟网络(Delay Tolerant Network,DTN)的出现㊂容迟网络具有网络资源有限㊁难以维持端到端的长时间稳定链接以及网络拓扑动态变化的特征,广泛存在于智慧城市网络[1]㊁深空通信网络[2-4]和野生动物追踪网络[5]等实际应用中㊂容迟网络的特性使得在该网络中信息的传递难以依赖传统的TCP/IP协议㊂为了进行消息的传递与交互,容迟网络通过 存储-携带-转发 的方式,在存储待传递消息的节点与目的节点相遇时进行消息传递㊂这种消息传递方式需要节点进行消息存储,从而导致网络中存在同一消息的多个副本,消息副本的增多将导致网络开销的增长,需设计合理的缓存管理方法,以进行消息副本的存储丢弃管理㊂本文考虑信息的不同类别,提出了一种基于最大最小蚂蚁系统的容迟网络缓存机制(Cache Man-agement Strategy Based on Max-Min Ant Colony Sys-tem in Delay Tolerant Network)㊂基于消息的转发次数㊁消息大小与剩余生存时间等自身特征,定义不同类别信息的信息素浓度表达式㊂当节点缓存已满且有新的消息进入时,根据信息素浓度计算丢弃权重,并丢弃权重最小的消息㊂本算法考虑了消息自身的特征,并结合历史信息实现容迟网络中的缓存管理㊂1㊀相关工作1.1㊀容迟网络缓存机制近年来,国内外有许多针对容迟网络缓存机制的研究㊂文献[6-7]阐述了现有的国内外容迟网络缓存机制,其中常用且具有代表性的机制包括:①先进先出(First In First Out,FIFO)或丢弃最先进入缓存中的消息(Drop Front,DF)算法㊂如果节点缓存已满且有新的消息到达,DF算法将丢弃最先进入缓存的消息㊂②随机丢弃(Drop Random,DR)算法㊂如果节点缓存已满且有新的消息到达,DR算法将随机丢弃缓存中的消息㊂③丢弃最少生存时间消息(Drop Oldest,DO)算法㊂如果节点缓存已满且有新的消息到达,DO算法将丢弃缓存中剩余生存时间最小的消息㊂对比以上的容迟网络缓存机制,DF和DO具有最好的效果,并且这两种容迟网络缓存机制被广泛应用于容迟网络中㊂国内,崔苑茹等人[8]提出基于校园机会网络的协作小组缓存调度策略,结合校园协作学习背景,有效降低了消息的冗余程度并减少了由于缓存空间不足而出现的消息传输失败等问题㊂通过实验表明,该算法具有较优的网络指标㊂郑啸等人[9]提出了一个新的度量节点在协作缓存中重要程度的指标,即节点重要度㊂基于此指标,利用贪心算法选择初始缓存节点㊂同时,利用缓存节点相遇的机会,进行缓存数据的主动再分配,并且通过实验验证了提出的缓存协议能够有效提高数据访问效率㊂Zhang等人[10]基于分布式存储的思想提出了一种容迟网络缓存机制,当节点存在缓存压力时,将利用其可通信节点来存放接收的消息,仿真证明该算法可以有效增加消息到达率和缓存利用率㊂国外,基于广义概率转发模型和拥塞指标, Goudar等人[11]通过预测网络中的拥塞点,自适应地调整节点的消息复制率,减少了不必要的缓存,防止数据包丢失;通过显示的数学公式对相遇概率㊁传递概率等进行了表述㊂N n u等人[12]提出了一种名为 MaxDelivery 的方法,该方法有效释放了节点中的缓存,但是该方法引入了ACK确认机制,将导致网络中产生额外的ACK消息,使得网络开销增加㊂以上两种方法为了获得网络中更加多样化信息用于决策消息的丢弃,需要节点间交互额外的信息,这将导致网络开销的增加㊂文献[13]提出了一种基于多社区模型的资源优化协议,即社交相似度和优化资源(Social Similarity And Optimized Resource, SSAOR)协议,以有效利用容迟网络中的资源㊂该协议基于源节点和目标节点之间的位置关系,使用两种不同的策略来确定转发消息的顺序㊂1.2㊀蚁群算法蚁群算法的提出,为解决组合优化问题提供了新的思路,并且被逐渐应用到其他的优化问题中㊂但蚁群算法存在易陷入局部最优的问题,成为现有国内外学者研究的重点㊂Akande等人[14]将蝠群算法与蚁群算法相结合,并通过仿真证明融合算法效果好于单一算法㊂但融合算法仍然存在陷入局部最优的问题㊂Ye等人[15]对蚁群算法的负反馈机制进行了改进,利用其提高解的多样性㊂同时,根据历史搜索信息,不断获取故障经验,解决了蚁群算法容易陷入局部最优的问题㊂李宪强等人[16]把蚁群算法应用于解决无人机三维路径规划问题,将蚁群算法与人工势场算法相结合,有效解决了蚁群算法易陷入局部最优和容易忽视节点周围障碍物的问题㊂Ding等人[17]将Q-learning算法引入蚁群算法当中,通过添加量子位启发因子避免蚁群算法陷入局部最优当中,提高了算法的优化能力和收敛速度;然而该算法仍然存在实际应用的挑战和问题㊂赵晶蕊等人[18]基于蚁群算法实现了负载均衡下的QoS保障路由算法㊂仿真结果表明,该算法能够有效实现网络负载的均衡,且同时在端到端时延㊁丢包率㊁剩余带宽等QoS需求的性能上有明显提升㊂Stutzle[19]利用最大最小蚂蚁系统解决二次规划问题,并且取得了不错的效果㊂最大最小蚁群算法相较于蚁群算法有如下的改进:①最大最小蚂蚁系统规定了信息素浓度的上下界,设定最小信息素浓度有助于增加对更优解探索的可能性,设定最大信息素浓度保证经验对于蚁群的启发性㊂②信息素浓度初始值为信息素取值区间的上限,并伴随一个较小的信息素衰减系数㊂③只允许迭代最优蚂蚁,或者至今最优蚂蚁释放信息素㊂最大最小蚂蚁系统可以有效地减少蚁群算法局部收敛的问题,得到了广泛的应用㊂通过查阅文献,有以下三点发现:①基于多效用值考虑的缓存管理机制有助于提升容迟网络性能㊂②蚁群算法在解决优化问题上有着优异的表现,可以很好地应用于容迟网络性能优化问题,但需要考虑其易陷入局部最优的问题㊂③现有容迟网络缓存机制及蚁群算法少有考虑消息的类别㊂将消息分类引入容迟网络缓存机制,有助于将同类消息集中于特定的节点之上,便于为之分配特定资源,提升网络性能㊂基于以上发现,本文将最大最小蚂蚁系统应用于容迟网络缓存机制当中,节点综合考量单条信息的信息素浓度与节点上同类信息的信息素浓度,自主地依照所求权重丢弃相应的消息,提高网络整体消息到达率并减少网络开销㊂2㊀算法介绍2.1㊀蚁群信息素浓度定义本节定义了消息信息素浓度㊁同类消息信息素浓度以及丢弃权重的表达式㊂蚁群信息素浓度依赖于消息的相关特征,特征如下:①剩余生存时间(Time Till Lifetime,TTL)㊂剩余生存时间反映了消息在网络中可能继续被转发的概率㊂一般地,剩余生存时间越短,消息越难以被交付到目标节点㊂②缓存占用率(Cache Usage)㊂本机制定义缓存占用率为消息的大小与所到达节点缓存大小的比值,如式(1)所示㊂对于消息而言,缓存占用率越大,会使得消息所到达的节点更容易产生拥塞并丢弃缓存中原有消息,从而导致网络消息到达率下降㊂Cache_Usage i,j=Size iNode_Cache j,(1)式中:Cache_Usage i,j表示消息i在节点j的消息占用率,Size i表示消息i的大小,Node_Cache j表示节点j的缓存大小㊂③消息的转发次数㊂在本机制中,消息的转发次数被定义为消息经过的跳数㊂如果消息的转发次数越高,该消息在网络中则会具有更多的副本数㊂丢弃副本数较多的消息,对网络整体的消息到达率影响较小㊂本机制认为单条消息的信息素浓度取决于上述三种特征㊂因此,使用式(2)定义单条消息的信息素浓度(Pheromone Concentration of Message,PCM):PCM t,i,j=TTL t,iHops t,iˑCache_Usage i,j,(2)式中:PCM t,i,j表示t时刻进入节点j的第i条消息的信息素浓度,TTL t,i表示t时刻进入节点j的第i条消息的剩余生存时间,Hops t,i表示t时刻进入节点j的第i条消息的转发次数㊂如式(3)所示,本机制认为节点在t时刻的同类消息信息素浓度(Pheromone Concentration of the Same Category,PCSC)取决于t-1时刻的衰减后同类消息信息素浓度,与t时刻进入节点的同一类别的N条消息的信息素浓度㊂PCSC t=τmax,PCSC tȡτmax (1-ρ)PCSC t-1+ðN i=0PCM t,i,j,PCSC tɪ(τmin,τmax)τmin,PCSC tɤτmin ìîíïïïï,(3)式中:ρ表示历史信息素浓度的衰减系数,N表示t时刻进入节点的同一类别消息的数量,τmin表示信息素浓度范围的下限,τmax表示信息素浓度范围的上限㊂如式(4)所示,总信息素浓度(Total Pheromone Concentration),即丢弃权重,决定了消息丢弃的优先级㊂丢弃权重越低的消息越容易被丢弃㊂Weight t,i=PCM t,i,j+PCSC t-1,(4)式中:Weight t,i表示t时刻第i条消息的丢弃权重㊂2.2㊀基于蚁群算法的容迟网络缓存机制本节提出的缓存机制引入蚁群算法,机制有效考虑了信息的分类㊂节点维护不同类别信息的信息素浓度值㊂缓存机制流程如图1所示㊂缓存机制流程的具体步骤如下㊂步骤一:当有新消息到来时,会检查节点中的缓存是否已满㊂若缓存未满,则直接跳至步骤四;若缓存已满,则跳至步骤二㊂步骤二:利用式(4)计算该条消息的丢弃权重,其中计算同类消息信息素浓度时不设定上下限㊂步骤三:将步骤二中计算所得的丢弃权重与当前缓存中消息的丢弃权重进行比较,若新消息的权重为最小,则丢弃新消息;若不为最小,则丢弃缓存中原有消息中具有最小权重的消息并跳至步骤四㊂步骤四:新消息进入缓存㊂步骤五:利用式(3)更新缓存节点中的同类消息信息素浓度㊂图1㊀基于蚁群算法的容迟网络图缓存机制流程示意图Fig.1㊀Flow diagram of delay tolerant network cache man-agement strategy based on ant colony algorithm 2.3㊀基于最大最小蚂蚁系统的容迟网络缓存机制基于2.2节所提容迟网络缓存机制,将最大最小蚂蚁系统与缓存机制相结合,将节点上的同类信息素浓度限定在一定的范围内㊂基于最大最小蚂蚁系统的容迟网络缓存机制流程如图2所示㊂缓存机制流程的具体步骤如下㊂步骤一:按照消息的到达节点对消息进行分类㊂步骤二:当有新消息到来时,步骤二会检查节点中的缓存是否已满㊂若缓存未满,则直接跳至步骤五;若缓存已满,则跳至步骤三㊂步骤三:利用式(4)计算该条消息的丢弃权重㊂步骤四:将步骤二中计算所得的丢弃权重与当前缓存中消息的丢弃权重进行比较,若新消息的权重为最小,则丢弃新消息;若不为最小,则丢弃缓存中原有消息中具有最小权重的消息并跳至步骤五㊂步骤五:新消息进入缓存㊂步骤六:利用式(3)更新缓存节点中的同类消息信息素浓度㊂当更新后的同类消息信息素浓度超出给定范围时,若超出上限,取给定信息素浓度范围的上限;若超出下限,取给定信息素浓度范围的下限㊂图2㊀基于最大最小蚂蚁系统的容迟网络缓存机制流程示意图Fig.2㊀Flow diagram of delay tolerant network cache man-agement strategy based on max-min ant system3㊀仿真及分析3.1㊀仿真环境本文使用由赫尔辛基大学开发的ONE网络仿真平台进行仿真㊂仿真在4500mˑ3400m的区域内进行,持续7200s㊂网络中消息产生的间隔为25~35s㊂实验中,将所有的节点分为4组,其中,A组和B组节点代表步行或奔跑的行人,其移动速度为1~5m/s;C组节点代表电动车或自行车,移动速度为5~7m/s;D组为有轨电车,移动速度为7~10m/s,拥有高速通信接口㊂具体参数设置如表1所示㊂表1㊀仿真参数Tab.1㊀Simulation parameters类别参数参数值A剩余生存时间/s250消息大小100kByte~1MByte节点数量60移动模型Shortest Path Map BaesdMovement通信距离/m15通信带宽/(kbit/s)300节点移动速度/(m/s)1~4B剩余生存时间/s300消息大小100kByte~1MByte节点数量30移动模型Shortest Path Map BaesdMovement通信距离/m15通信带宽/(kbit/s)300节点移动速度/(m/s)2~5C剩余生存时间/s350消息大小100kByte~1MByte节点数量15移动模型Shortest Path Map BaesdMovement通信距离/m15通信带宽/(kbit/s)300节点移动速度/(m/s)5~7D剩余生存时间/s300消息大小100kByte~1MByte节点数量4移动模型Map Route Movement通信距离/m15通信带宽/(kbit/s)300高速接口通信范围/m1000高速接口通信带宽/(Mbit/s)10节点移动速度/(m/s)7~10㊀㊀本文期望实现每类消息在适应自己的优势路径中传输㊂其中优势路径是指适应某类消息生存的中继节点所组成的路径,且不同类别消息之间的优势路径应该尽量减少重合,以减少不同类别消息间的资源竞争㊂为了简化分类标准,直接根据源节点与目的节点的不同来进行消息分类,就可以为不同类别消息赋予地域上的差异,使得不同类别消息形成各自的优势路径㊂因此,本文依照源节点与目的节点不同将消息分为16类㊂同时,缓存大小及传输带宽都是网络拥塞的重要影响因素,因此本实验将讨论缓存大小以及传输带宽对消息到达率以及网络开销的影响㊂3.2㊀结果及分析网络指标随缓存及带宽大小变化如图3~图5所示,具体数值如表2和表3所示㊂(a)消息到达率随节点缓存大小变化㊀㊀㊀(b)网络开销随节点缓存大小变化图3㊀网络指标随节点缓存大小变化Fig.3㊀Relationship between network indicators and cache size ofnodes (a)消息到达率随带宽大小变化㊀㊀㊀(b)网络开销随带宽大小变化图4㊀网络指标随带宽大小变化Fig.4㊀Relationship between network indicators andbandwidth (a)平均消息到达率随时间变化关系㊀㊀㊀(b)平均网络开销随时间变化关系图5㊀网络指标随时间变化关系Fig.5㊀Relationship between network indicators andtime㊀㊀从图3可以看出,4种缓存方法在消息到达率㊁网络开销方面的趋势相似㊂随着缓存大小的增加,消息到达率随之增高,网络开销随之变小㊂这是因为当缓存区大小变大时,节点的缓存中可以存储更多的信息,使得网络中同一个消息的副本数增加,进而增加了消息成功到达目标节点的概率㊂同时,缓存增加,缓存当中可以容纳更多消息,消息被丢弃的概率降低,重传的次数减少,使得网络开销减少㊂从图4可以看出,随着带宽的增加,消息到达率与网络开销都随之增高㊂这是因为当传输带宽变大时,网络中的节点更加活跃,消息更容易在网络中进行传递,故而消息的到达率更高㊂因为更活跃,消息在网络中将进行更多次的传递,故而网络开销增加㊂由图5可知,提出的基于最大最小蚂蚁系统的缓存管理机制明显优于其他机制㊂这是因为随着时间的推移,特定节点上某些类型消息的信息素浓度将继续增加,使这些节点更容易成为某些类型消息传输的中继节点,其他类型的消息将难以抢占此节点的缓存㊂这将使网络中的节点更难拥塞并丢弃消息,从而提高消息传递率㊂同时,基于最大最小蚂蚁系统的容迟网络缓存机制有效解决了蚁群算法易陷入局部最优的问题,随着时间的推移,基于普通蚂蚁系统的容迟网络缓存机制的性能在大约220min达到收敛,而基于最大最小蚂蚁系统的容迟网络缓存算法在大约260min达到收敛㊂初始时刻,基于最大最小蚂蚁系统的容迟网络缓存机制相较于基于普通蚂蚁系统的容迟网络缓存机制在网络指标上表现较差,这是因为根据经验选取的初始信息素浓度值使得某些节点在初始时刻已经成为 最优 ,陷入了局部最优,导致网络指标变差㊂后续工作将在已有研究的基础上探究利用网络及消息自身的相关指标对初始浓度设置,使得初始值浓度能够自适应地进行选取㊂表2展示了当节点缓存大小为10MByte和50MByte时,4种缓存机制的网络指标的具体值㊂由表2可知,当缓存大小为10MByte时,基于最大最小蚂蚁系统的容迟网络缓存机制比普通蚂蚁系统缓存机制在消息到达率方面提高了4.0%,在网络开销方面减少了8.4%;当缓存大小为50MByte时,基于最大最小蚂蚁系统的容迟网络缓存机制比普通蚂蚁系统缓存机制在消息到达率方面提高了10.5%,在网络开销方面减少了10.0%㊂表2㊀不同缓存大小情况下网络指标具体值Tab.2㊀Specific values of network indicators under different cache sizes缓存大小/MByte算法名称消息到达率/%网络开销/Hops10Max-Min Ant64.46 3.2880Ant61.96 3.5880DF36.96 4.8421DO27.99 6.1410 50Max-Min Ant73.56 2.3652Ant66.58 2.6274DF53.80 2.5954DO52.45 2.6314㊀㊀表3展示了当带宽大小为50kbit/s和500kbit/s 时,4种缓存机制的网络指标的具体值㊂由表3可知,当带宽大小为50kbit/s时,基于最大最小蚂蚁系统的容迟网络缓存机制比普通蚂蚁系统缓存机制在消息到达率方面提高了13.2%,在网络开销方面减少了4.8%;当带宽大小为500kbit/s时,基于最大最小蚂蚁系统的容迟网络缓存机制比普通蚂蚁系统缓存机制在消息到达率方面提高了2.7%,在网络开销方面减少了2.6%㊂表3㊀不同带宽大小情况下网络指标具体值Tab.3㊀Specific values of network indicators under different bandwidth sizes带宽大小/(kbit/s)算法名称消息到达率/%网络开销/Hops50Max-Min Ant14.46 1.2269Ant12.77 1.2889DF10.87 1.1814DO11.41 1.2171 500Max-Min Ant75.66 3.7792Ant73.64 3.8792DF42.12 5.4892DO32.88 6.87114 结束语本文提出了一种基于最大最小蚂蚁系统的容迟网络缓存机制㊂该机制考虑信息的分类,使得同类别消息更容易通过同类信息素浓度高的节点进行传输㊂同时,本文定义了消息的信息素浓度㊁同类消息信息素浓度和总信息素浓度(丢弃权重)表达式,并利用总信息素浓度定义消息丢弃的优先级㊂仿真分析表明,基于最大最小蚂蚁系统的容迟网络缓存机制在消息到达率㊁网络开销方面具有比传统容迟网络算法更好的性能㊂本文所提缓存机制只考虑了同类消息信息素对于网络指标的影响,并没有考到不同类别信息的信息素之间的影响㊂下一步工作将从以下三方面进行改进:①考虑不同类别消息的信息素之间的影响对容迟网络指标的影响;②结合实际场景对消息进行分类,使得分类标准更加明确,有效区别各类消息;③对初始信息素浓度范围的取值进行研究㊂依据网络中的各类因素设置合适的信息素浓度初始值,避免基于最大最小蚂蚁系统的容迟网络缓存机制因初始信息素浓度过高而陷入局部最优㊂参考文献[1]㊀DEMIROGLOU V,MAMATAS L,TSAOUSSIDIS V.Adaptive NDN,DTN and NoD Deployment in Smart-cityNetworks Using SDN[C]ʊProceedings of2023IEEE20th Consumer Communications&Networking Conference(CCNC).Las Vegas:IEEE,2023:1092-1097. [2]㊀王洋,杨宏,陈晓光,等.面向深空通信的DTN网络跨层包大小的优化设计[J].宇航学报,2017,38(5):533-541.[3]㊀MADOERY P G,KURT G K,YANIKOMEROGLU H.Routing Heterogeneous Traffic in Delay Tolerant SatelliteNetworks[C]ʊProceedings of2022IEEE InternationalConference on Wireless for Space and Extreme Environ-ments(WiSEE).Winnipeg:IEEE,2022:99-104. [4]㊀聂宇雷,彭锋彬,张更新,等.深空通信中容迟容断网络协议体系应用研究[J].无线电通信技术,2016,42(3):22-25.[5]㊀NAKAGAWA K,SHIMOTOKU D,KAWASE J,et al.Sus-tainable Wildlife DTN:Wearable Animal Resource Opti-mization Through Intergenerational Multi-hop NetworkSimulation[C]ʊProceedings of202117th InternationalConference on Wireless and Mobile Computing,Networ-king and Communications(WiMob).Bologna:IEEE,2021:193-199.[6]㊀EZIFE F,LI W,YANG S H.A Survey of Buffer Manage-ment Strategies in Delay Tolerant Networks[C]ʊProcee-dings of2017IEEE14th International Conference onMobile Ad Hoc and Sensor Systems(MASS).Orlando:IEEE,2017:599-603.[7]㊀LIUF J,BAI X Y.Research on the Buffer ManagementAlgorithm in DTN[C]ʊProceedings of20152nd Inter-national Conference on Information Science and ControlEngineering.Shanghai:IEEE,2015:442-446. [8]㊀崔苑茹,李鹏,刘宏,等.基于校园机会网络的协作小组缓存调度策略[J].电子学报,2021,49(12):2399-2406.[9]㊀郑啸,高汉,王修君,等.移动机会网络中接触时间感知的协作缓存策略[J].计算机研究与发展,2018,55(2):338-345.[10]ZHANG Y,ZHANG T.Cache Management Strategy Basedon Distributed Storage in Delay/Disruption Tolerant Net-work[C]ʊProceedings of2019IEEE19th InternationalConference on Communication Technology(ICCT).Xi a n:IEEE,2019:1337-1341.[11]GOUDAR G,BATABYAL S.Optimizing Bulk TransferSize and Scheduling for Efficient Buffer Management inMobile Opportunistic Networks[J].IEEE Transactions onMobile Computing,2022,21(12):4471-4487. [12]NǍNǍU C S.MaxDelivery:A New Approach to a DTNBuffer Management[C]ʊProceedings of2020IEEE21stInternational Symposium on A World of Wireless,Mobileand Multimedia Networks (WoWMoM).Cork:IEEE,2020:60-61.[13]WANG T,TANG M B,CAO Y.Resource OptimizationProtocol Based on Multicommunity Model for Intermi-ttently Connected Mobile Networks[J].IEEE SystemsJournal,2020,14(1):410-421.[14]AKANDE H B,ABIKOYE O C,AKANDEO N.ImprovingOptimization Prowess of Ant Colony Algorithm Using BatInspired Algorithm[C]ʊProceedings of20225th Infor-mation Technology for Education and Development(ITED).Abuja:IEEE,2022:1-5.[15]YE K,ZHANG C S,NING J X,et al.Ant-colony Algo-rithm with a Strengthened Negative-feedback Mechanismfor Constraint-satisfaction Problems[J].Information Sci-ences,2017,406(c):29-41.[16]李宪强,马戎,张伸,等.蚁群算法的改进设计及在航迹规划中的应用[J].航空学报,2020,41(S2):213-219.[17]DING Y M,ZHAO Y,GAO Y X,et al.Q-learning Quan-tum Ant Colony Routing Algorithm for Micro-Nano Satel-lite Network[C]ʊProceedings of2021IEEE6th Interna-tional Conference on Computer and Communication Sys-tems(ICCCS).Chengdu:IEEE,2021:949-954. [18]赵晶蕊,刘江,张然,等.基于蚁群算法的LEO卫星网络QoS优化路由[J].无线电通信技术,2021,47(5):590-595.[19]STUTZLE T.Max-Min Ant System[J].Future GenerationComputer Systems,2000,16(8):889-914.作者简介:彭牧尧㊀男,(1999 ),硕士研究生㊂主要研究方向:容迟网络㊁深度学习和计算机视觉㊂魏建军男,(1978 ),博士,副教授㊂主要研究方向:物联网㊁通信芯片设计㊂王乾舟男,(1997 ),硕士研究生㊂主要研究方向:容迟网络㊁计算机视觉和深度学习㊂王㊀琨男,(1973 ),博士,副教授㊂主要研究方向:大数据分析㊁物联网与计算机网络㊂。
《信息检索》实验报告一、OPAC检索1.利用“中图分类法”查找自己所在专业的分类号,并记录。
再使用书目查询系统查找该分类下的一本图书,写出该书的书名、作者、出版社、出版年、索书号、馆藏复本数、ISBN号、馆藏地(写一个即可)。
TU新农村景观设计艺术顾小玲东南大学出版社2011年索引号:TU982/14 2本ISBN号:2011002852 馆藏地:样本二库[4楼西,借期20天]2.查找作者姓“李”、索书号为“H31”的图书,记录下检索的结果数量,再在结果中检索由中山大学出版社出版的图书,记录下检索结果的数量,并写下任一检索结果的作者、书名、出版社、索书号、馆藏复本数、可借复本数。
1337 7疯狂英语.听力高级飞跃李俊青中山大学出版社H319.9/1322:3馆藏复本:24 可借复本:223.分类号是“TP311.1”的是关于哪方面内容的图书?写出此类书其中一种图书的书名、作者、出版社和索书号。
程序设计、软件工程中文版Access 2007数据库应用实用教程冯先锋秦小英清华大学出版社TP311.13/13024.自行熟悉OPAC中“我的图书馆”各项功能,并写出已借阅图书数量和今年所借阅的两本书的书名,如果可能请进行续借。
7 小高层住宅设计图集新型住宅平面设计方案二、电子图书检索1.利用“读秀学术搜索”打开并阅读书名包含“竞争情报”,作者为“王知津”的图书,写出该书的书名、出版社、出版日期,并从书中查阅竞争情报的概念。
书名:《竞争情报》出版社:科学技术文献出版社出版日期:2005.02竞争情报的概念:为达到竞争目标,合法而合乎职业伦理的搜集竞争对手和竞争环境的信息,并转变为情报的连续的系统化过程。
2.利用“读秀学术搜索”检索二本有关美国前总统的图书,写出图书的书名、著者、出版社。
书名:《改变世界历史的七天美国前总统尼克松1972年七天访华揭秘》作者:梁建增,赵微主编出版社:高等教育出版社书名:冷战后的美国外交政策从老布什到小布什作者:潘锐出版社:时事出版社3.利用“读秀学术搜索”找出与自己专业相关的图书,写出其中2本图书的书名、作者和出版社。
在移动互联网时代,容量规划成为了各个行业中不可或缺的一部分。
容量规划是指通过合理的规划和管理,确保系统的容量满足用户需求,并提高系统的性能和效率。
随着移动互联网的飞速发展,新的应用场景也在不断涌现。
首先,容量规划在移动应用开发中扮演着重要角色。
移动应用的开发过程中,容量规划能够帮助开发者了解用户的需求,提前预测用户量以及对服务器的负载。
通过这种方式,开发者可以合理分配资源,提升应用的运行效率,避免由于用户量暴增导致的系统崩溃。
例如,一款短视频应用可能会面临大量用户同时上传和观看视频的情况,通过容量规划,可以确保服务器能够承受住大量并发请求,并保证用户的观影体验。
其次,容量规划在电子商务领域也发挥着重要作用。
移动互联网时代,越来越多的用户选择通过移动设备进行在线购物。
而在购物网站的背后,容量规划可以帮助平台预测用户的购买行为、流量峰值以及存储需求。
通过这种方式,电商平台可以合理规划服务器的容量,保证平台在节假日、促销活动等高峰期依然能够快速稳定地处理用户的购买请求。
同时,容量规划还可以帮助电商平台分析用户的购物行为,提取用户特征,进而为用户个性化推荐商品,提高用户的购买转化率。
第三,在物流行业,容量规划也发挥着重要作用。
随着电子商务的快速发展,物流行业面临着更高的配送压力。
容量规划可以帮助物流公司预测用户的订单量,分析用户订单的空间、时间特征,进而规划合理的配送路线和时刻表。
通过运用容量规划的方法,物流公司可以最大程度地提高车辆的利用率,减少配送成本,提高配送效率,为用户提供更加准时、高效的配送服务。
此外,在金融领域,容量规划也扮演着重要角色。
移动支付和网上银行等服务的广泛应用,给金融系统的容量带来了极大的挑战。
容量规划可以帮助金融机构预测用户的交易量、交易峰值以及对系统响应时间的要求。
通过容量规划,金融机构能够合理配置服务器资源,保障系统的高可用性和高性能,确保用户能够顺畅地进行各种金融交易。
在移动互联网时代,容量规划的应用场景还远不止以上几个方面。
阿里云计算学习计划一、引言阿里云是由阿里巴巴集团旗下的云计算服务平台,于2009年推出。
目前,阿里云已成为国内领先的云计算服务提供商,拥有丰富的产品和服务。
作为一个IT从业人员,学习阿里云计算已成为必不可少的一项技能。
在这里,我将为大家分享一个阿里云计算的学习计划,供大家参考。
二、学习目标1.了解阿里云的产品和服务,具备使用阿里云进行云计算的基本能力2.了解云计算的基本概念和原理,学会使用阿里云进行云计算3.学会使用阿里云进行数据处理和存储4.学会使用阿里云进行云安全管理5.了解阿里云的大数据处理和人工智能服务6.了解阿里云计算的发展趋势和未来发展方向三、学习内容1. 阿里云产品和服务的基本概念了解阿里云计算的基本概念,包括云服务器、云数据库、对象存储、CDN加速等基本服务,以及云计算和传统计算的区别。
2. 阿里云的基本使用学习如何注册阿里云账号、创建云服务器、使用云数据库、存储文件和使用CDN加速等基本操作。
3. 云计算的基本概念和原理学习云计算的基本概念、架构和原理,了解云计算的优势和作用,为以后深入学习做好准备。
4. 阿里云的数据处理和存储学习如何使用阿里云进行数据处理和存储,包括使用云数据库进行数据存储和管理、使用对象存储对大量数据进行存储和管理。
5. 阿里云的安全管理学习如何使用阿里云进行云安全管理,包括安全策略的制定、安全监控和运维等内容。
6. 阿里云的大数据处理和人工智能服务了解阿里云的大数据处理和人工智能服务,了解大数据处理和人工智能的应用场景和优势。
7. 阿里云计算的发展趋势和未来发展方向了解阿里云计算的发展趋势和未来发展方向,为将来学习和发展做好规划。
四、学习计划第一个月:了解阿里云的产品和服务,学习使用阿里云进行基本操作。
第二个月:学习云计算的基本概念和原理,了解云计算的优势和作用。
第三个月:学习阿里云的数据处理和存储,了解如何使用云数据库和对象存储。
第四个月:学习阿里云的安全管理,了解如何使用阿里云进行云安全管理。
内容简介本书是从理论到实践的全面且细致的企业数据驱动指南,从作者的百度大数据工作说起,完整还原其从零到一构建百度用户行为大数据处理平台经历。
详解大数据本质、理念与现状,围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何将数据驱动方案落地,并指出数据驱动的价值在于“数据驱动决策”、“数据驱动产品智能”。
最后通过互联网金融、电子商务、企业服务、零售四大行业实践,从需求梳理、事件指标设计、数据接入阶段、实际应用四大阶段介绍数据驱动在不同领域的商业价值,全面展示大数据在各领域内的应用情况与趋势展望。
本书贴近企业真实场景,兼具权威性与前瞻性,是广泛适用的普及读物,适合对大数据、数据驱动感兴趣的企业高管、决策者、创业者、IT人员、营销人员、产品经理、相关专业的学生等。
图书在版编目(CIP)数据数据驱动:从方法到实践/桑文锋著.—北京:电子工业出版社,2018.3ISBN 978-7-121-33451-1Ⅰ.①数…Ⅱ.①桑…Ⅲ.①数据处理-研究Ⅳ.①TP274中国版本图书馆CIP数据核字(2018)第002302号策划编辑:符隆美责任编辑:张春雨印刷:装订:出版发行:电子工业出版社北京市海淀区万寿路173信箱 邮编:100036开本:720×1000 1/16 印张:13.5 字数:260千字版次:2018年3月第1版印次:2018年3月第1次印刷定价:49.00元凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。
若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。
质量投诉请发邮件至zlts@,盗版侵权举报请发邮件至dbqq@。
本书咨询联系方式:(010)51260888-819,faq@。
文锋分享了他在商业数据的真知灼见,不盲目舶来,他明确地知道哪些理论在国内是行不通的,并传递出更本土化的理论。
本书的结构和内容都经过了反复打磨,无论是从技术严谨性,还是从内容的实用性上看,都堪称互联网商业数据的可贵佳作。
㊀收稿日期:2022-09-07基金项目:中央高校基本科研业务费专项资金资助项目(19JNQM25)ꎻ广州市哲学社会科学发展 十四五 规划课题(2021GZYB18)ꎻ深圳市哲学社会科学规划课题(SZ2022B014)作者简介:景秀丽(1979-)ꎬ女ꎬ辽宁营口人ꎬ博士ꎬ硕士生导师ꎬ副教授ꎬ研究方向:大数据ꎬ文本处理ꎬ电子商务等.㊀㊀辽宁大学学报㊀㊀㊀自然科学版第50卷㊀第2期㊀2023年JOURNALOFLIAONINGUNIVERSITYNaturalSciencesEditionVol.50㊀No.2㊀2023基于XGBoost算法的电商用户重复购买行为预测景秀丽1ꎬ史明曦2(1.暨南大学深圳旅游学院ꎬ广东深圳518052ꎻ2.圣路易斯华盛顿大学奥林商学院ꎬ美国密苏里州圣路易斯63130)摘㊀要:机器学习算法广泛应用于电商用户行为数据分析及商业预测.其中ꎬXGBoost算法作为一种常用的有监督机器学习算法ꎬ能够实现电商用户行为特征最优选择与行为模型构建㊁评估消费价值㊁预测重复购买行为概率㊁提高商业决策的精准性与可行性.本研究采用阿里云天池大数据竞赛 天猫复购预测 所提供的 双十一 电商购物节关联数据集中约42万电商平台用户产生的5500万条行为数据ꎬ基于促销活动情境完成特征构造ꎬ实现有监督分类学习.本研究实现了XGBoost算法的参数优化与数据特征值处理过程优化ꎬ完成了促销活动后6个月内电商用户重复购买行为的预测模型演算.结果表明:优化后的XGBoost算法能够比较精准地预测电商用户重复购买行为㊁评估在线用户潜在购买价值㊁实现精准营销以及真正促进促销活动的长期投资回报率提高.关键词:XGBoost算法ꎻ集成学习ꎻ特征工程ꎻ重购预测ꎻ精准营销中图分类号:TP391㊀㊀㊀文献标志码:A㊀㊀㊀文章编号:1000-5846(2023)02-0134-12RepurchasePredictionofE ̄CommerceUserBasedonXGBoostJINGXiu ̄li1ꎬSHIMing ̄xi2(1.ShenzhenTourismCollegeꎬJinanUniversityꎬShenzhen518053ꎬChinaꎻ2.OlinBusinessSchoolꎬWashingtonUniversityinSt.LouisꎬSt.Louis63130ꎬU.S.A)Abstract:㊀MachinelearningiswidelyusedinE ̄commerceuserbehavioranalysisandE ̄commerceplatformbusinessforecasts.XGBoostisacommonlyusedsupervisedensemblelearningalgorithm.Itcanbeusedtoconstructpreciseusersᶄbehaviormodelsꎬthusevaluatingcustomervalueꎬandpredictingtheirrepurchaseprobabilityꎬaswellasimprovingbusinessdecisionsᶄprecisionandfeasibility.Thisresearchadoptstheuserrepurchasedatasetrelatedtothe DoubleEleven shoppingeventofferedbyAlibabaTianchiꎬwhichcollectsupto55millionbehavioraldatageneratedby420thousandusersꎬconstructsfeaturesbasedonthepromotionbackgroundandconductssupervisedlearning.ThisresearchoptimizestheXGBoostparametertuningandfeature㊀㊀processingꎬandconstructsarepurchaseforecastmodelforspecificuser ̄sellerpairsonasix ̄monthperiodafterthepromotion.TheresultindicatesthattheoptimizedalgorithmXGBoostcanpreciselypredictE ̄commerceuserrepurchasebehaviorandbeusedinevaluatingusersᶄpotentialinrepurchaseꎬimprovingE ̄commerceplatformsᶄprecisionmarketingandtrulyimprovingthelong ̄termROI(ReturnonInvestment)ofpromotionevents.Keywords:㊀XGBoostꎻensemblelearningꎻfeatureengineeringꎻrepurchasepredictionꎻprecisionmarketing0㊀引言我国电子商务行业的发展历经二十多年ꎬ在线零售市场不断创新和扩展ꎬ推动了新经济业态的成长与进步.Statista全球统计数据库的«2021年电子商务报告»显示ꎬ中国是目前世界最大和渗透率最高的电子商务市场.国内各大在线零售平台发展迅速ꎬ在激烈竞争中为了吸引用户源和争夺市场份额ꎬ积极探索促销活动形式与种类ꎬ例如天猫淘宝的 双十一购物狂欢节 ㊁京东的 618 购物节等.多样化高频率的购物节给平台引流了大量新用户(促销活动中出现首次购买行为的用户)和短期高成交额.陈可旺[1]分析促销作为一种短期刺激性工具ꎬ虽然能够有效激发用户对特定商品服务进行立即购买的欲望ꎬ但是电商平台更需要锁定长期持续的有效收益.Rosenberg等[2]提出企业重视客户留存并且开发一个新客户所需的成本是维护一个老客户所需成本的6倍.陈龙[3]研究表明电商平台及商家有必要确定哪些用户有可能转化为重复购买者ꎬ并对这些潜在忠诚用户进行精准营销ꎬ降低促销成本ꎬ提高投资回报率.蔡一凡[4]做了用户聚类和特征选择的在线购买行为研究.张李义等[5]聚焦新消费者重复购买意向的预测研究.当前对用户重复购买行为预测方法主要有两类方法ꎬ一是以Pareto/NBD(Negativebinomialdistribution)㊁MBG(Modifiedbetageometric)/NBD为代表的概率模型ꎬ二是以决策树㊁逻辑回归㊁SVM(Supporvectormachine)为代表的机器学习模型[6].基于海量数据的机器学习算法为电商平台精准地把握消费者偏好需求㊁预测消费者行为㊁评估客户价值提供了有效分析方法ꎬ采用数据挖掘技术能够运用多维变量进行预测ꎬ结果更加客观真实[7].电商平台用户数据对象涵盖用户信息㊁商品信息㊁商家信息ꎬ用户在网站上浏览商品时产生的一系列在线行为数据(如登录㊁点击㊁收藏㊁购买㊁评论㊁咨询客服等)ꎬ并且实时在网站日志中进行同步ꎬ构成了海量丰富的大数据集.通过对大数据集进行分析ꎬ电商平台可以提取出用户的需求㊁偏好㊁购买能力等价值信息ꎬ完成重复购买行为预测模型设计[8].消费者重复购买的预测问题转化为消费者是否将重复购买的分类问题ꎬ运用机器学习中的分类算法进行有监督训练.例如Rahim等[9]基于RFM(Recencyꎬfrequencyꎬmonetaryvalue)模型研究客户重复购买行为ꎬ运用SVM算法和决策树算法对客户进行分类ꎬ准确率超过了97%.相比单种算法构建的预测模型ꎬ集成学习方法通过串行或并行的方式将多个弱监督模型进行组合ꎬ可以进一步提高模型预测的准确性ꎬ代表算法有随机森林算法和GBDT(Gradient ̄boosteddecisiontrees)算法等ꎻ或运用多模型融合策略ꎬ将不同类型算法训练出的模型以Stacking㊁Voting㊁Blending㊁Ranking等方法进行531㊀第2期㊀㊀㊀㊀㊀㊀景秀丽ꎬ等:基于XGBoost算法的电商用户重复购买行为预测㊀㊀融合ꎬ提高模型的准确率和泛化能力[10].胡晓丽等[11]基于集成学习对用户重购行为进行预测ꎬ引入 分段下采样 的方法解决类别不平衡问题ꎬ并用Stacking融合了RandomForest㊁XGBoost㊁LightGBM构建预测模型ꎬ结果表明ꎬStacking方法能够带来0.4%至2%的AUC(Areaunderthereceiveroperatingcharacteristiccurve)提升.吕泽宇等[12]使用了LightGBM和XGBoost两种方法构建模型ꎬ并用Hyperopt进行参数搜索ꎬ证明该方法只需少量特征即可达到较好的预测效果.基于先进的机器学习算法ꎬ引入特征工程设计ꎬ也是数据挖掘的关键技术之一.机器学习算法用于解决多个领域多个方向问题ꎬ学习效果如何很大程度上依赖于特征工程中提取的特征是否真正贴合业务需要ꎬ这一过程需要结合许多研究领域的专家知识.文献研究发现ꎬ针对电商购物节后消费者重复购买行为预测研究不多ꎬ通过提取特征值ꎬ结合促销活动变量对消费者行为产生的特殊影响ꎬ可构建更精准的重复购买预测模型.此外ꎬ运用天猫大数据平台提供的公开数据集ꎬ针对促销前和促销中的用户短期行为等数据维度提取更加详细的特征值ꎬ运用XGBoost集成学习算法构建电商购物节后新用户重复购买行为预测模型ꎬ提高预测能力.1㊀算法背景决策树算法在机器学习中常用于预测和分类ꎬ是一种有监督的机器学习方法.在数据复杂的情况下ꎬ使用单一决策树进行预测有时无法取得较好的效果.Kearns等[13]认为可通过集成学习将弱学习算法提升为强学习算法.集成算法主要有Bagging和Boosting两类.其中Boosting提升算法由Schapire[14]通过构造多项式级算法ꎬ率先提出验证Kearns弱学习算法提升的思路ꎬ其各个相互依赖的分类器串行ꎬ根据预测能力的不同ꎬ预测函数的权重也不同.陈凯等[15]研究表明ꎬ在训练的过程中增加对分类错误样本的学习权重ꎬ在迭代中能够不断调整和持续提高准确度ꎬ将各个基学习器进行加权集成输出最终结果.XGBoost算法全称eXtremeGradientBoostꎬ由Chen等[16]在经典Boosting算法GBDT的基础上改进提出ꎬ在计算速度上表现优秀.XGBoost的核心思想是采用向前分布算法ꎬ每轮迭代产生的弱分类器都在上一轮迭代的残差基础上继续训练ꎬ通过不断减小残差来实现回归和分类ꎬ并将CART(Classficationandregressiontree)分类回归树作为基学习器.XGBoost算法的目标函数由损失函数和复杂度函数相加而成ꎬ模型误差小ꎬ更加简单ꎬ可防止过拟合ꎬ使用梯度提升法可使目标函数最小化.其目标函数在经过泰勒二次展开后可以简化为Obj=-12ðTj=1Gj2Hj+λ+γT(1)式中:T为叶子节点数ꎻγ为学习率限制叶子节点个数ꎻλ为正则化参数限制叶子节点分数ꎻGj为一阶导数ꎻHj为二阶导数.在每棵树选择特征进行分裂时ꎬXGBoost使用的是贪心法ꎬ遍历特征计算每个节点的分裂收益ꎬ选择增益最大的特征进行分裂:Gain=12GL2HL+λ+GR2HR+λ-(GL+GR)2HL+HR+λ[]-γ(2)即用分割后的目标函数值减去分割前的目标函数值ꎬ当增益大于γ阈值时ꎬ树才分裂ꎬ这样目标函数在优化的同时也实现了预剪枝.当数据量极大时贪心算法十分耗费内存ꎬ对此XGBoost算法还提出了一种近似搜索方法ꎬ在难以精确搜索情况下运用全局近似或者局部近似选取候选分裂点ꎬ再从中选择最佳分裂点ꎬ结果同样具有准确性.通过调用Python开发环境的XGBoost工具包进行重复631㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀㊀㊀购买行为的预测.2㊀数据采集与分析2.1㊀数据集数据集来源于阿里云天池大数据平台 天猫复购预测大赛 的公开数据集.该数据集包含了424170名匿名用户的基本信息以及他们在 双十一购物狂欢节 前6个月以及 双十一购物狂欢节 当天的交互行为记录和购物记录ꎬ同时标记了这些用户在购物节后6个月是否有重复购买行为.数据集一共包括 用户信息表 用户行为日志表 用户-商家消费行为表 3张数据表ꎬ提供了 用户编号 用户年龄范围 用户性别 商品编号 商品类别编号 商品品牌编号 商家编号 行为时间 行为类型 9个属性.数据初筛发现ꎬ数据集的样本用户皆有过一次以上的购买记录ꎬ且 双十一购物狂欢节 期间都有首次进行消费的商家.用户信息表和用户行为表包含了所有样本用户的相关数据.为满足模型训练及测试的需求ꎬ天池大数据平台提供的数据集将样本用户分为数量相当的两部分ꎬ并分别归入电商用户行为模型的训练集和测试集之中.其中训练集中的label字段已经完成对用户的标签化ꎬ即标明用户在 双十一购物狂欢节 后是否会重复购买ꎬ用于有监督学习对模型进行分类训练ꎻ而测试集中的prob字段表示预测用户是否在促销活动后重复购买ꎬ在模型训练后对无标签对象进行预测.2.2㊀数据清洗2.2.1㊀缺失值处理原数据集用户信息表中的age_range(用户年龄范围)字段有92914条缺失值㊁gender(用户性别)字段有10426条缺失值ꎬ缺失值在属性中占比较大ꎬ使用均值替换法在已有数据中寻找缺失数据的最可能值.购买同一产品的用户群体往往具有相似的年龄和性别.对应数据处理流程包括:首先ꎬ在用户信息表中获取缺失年龄或性别属性用户对应的user_id(用户编号)ꎬ通过这些user_id在用户行为日志表中寻找属性值缺失用户购买过的所有商品的item_id(商品编号)ꎻ其次ꎬ在用户行为表中寻找购买过这些商品的其他用户的编号ꎬ通过用户信息表得到这些用户的年龄范围或性别属性ꎬ以此计算商品用户群的平均年龄范围或性别属性ꎻ最后ꎬ以所有已购商品的平均用户年龄和性别的平均值填补该用户缺失的年龄或性别属性.用户行为日志表中的brand_id(商品品牌编号)字段有91015个缺失值ꎬ但由于同一商家售卖同一类别的同一商品ꎬ其品牌应当是相同的ꎬ其中大部分的缺失值可以通过与item_id(商品编号)ꎬcat_id(商品类别编号)ꎬseller_id(商家编号)进行匹配找回.2.2.2㊀数据转换在特征构造过程中需要按照时间进行数据提取ꎬ而原字段 time_stamp 时间戳以mmdd标识ꎬ如5月11日记为 0511 的string类型数据ꎬ来记录用户在线行为发生时间ꎬ无法进行数学运算ꎬ因此在数据集成时对 time_stamp 时间戳进行转换并添加一个int类型的新字段 day ꎬ用来表示用户在线行为发生时间在从5月11日至11月11日这185d的时间周期内所处的位置ꎬ如将 0511 转化为 1 ꎬ将 1111 转化为 185 ꎬ这样就不必考虑每月天数之间的差异并可以按时间进行数据提取.3㊀特征工程特征工程即对原始数据进行一系列处理的工程ꎬ最大限度地提炼出特征ꎬ作为输入供模型和算731㊀第2期㊀㊀㊀㊀㊀㊀景秀丽ꎬ等:基于XGBoost算法的电商用户重复购买行为预测㊀㊀法使用.特征工程是对数据进行理解㊁表示和展示的过程ꎬ其在实际过程中要求尽可能地去除原始数据里的噪声ꎬ提炼出更加高效的特征以供预测模型调用解决问题.高质量特征对于提高模型的性能和精准度有很大意义.特征工程需要结合多学科知识ꎬ首先对电商用户重复购买行为的影响因素模型进行分析.用户自身属性方面ꎬ徐鹏鹏[17]构建结构方程模型研究用户重复购买电商品牌的影响因素ꎬ认为客户的个人特征㊁质量关注㊁感知价值㊁网购依赖及购物满意度会造成影响.商品属性方面ꎬ李海霞[18]根据环境心理学理论和社会交换理论ꎬ认为客户面对与商家在口碑㊁技术㊁人员㊁产品等服务接触时产生的刺激ꎬ会对社会关系及经济关系进行是否满意和信任的考量ꎬ从而决定是否重复购买.在用户与商家间的交互关系上ꎬ经典的RFM模型通过客户最近一次的消费时间㊁消费频度和消费金额对客户价值进行衡量.针对电商行业特点ꎬ李敏等[19]在RFM模型的基础上加入客户对商品满意度和关注度的考量ꎬ构建RFMSA(Recencyꎬfrequencyꎬmonetaryꎬstatisfactionꎬattention)模型对用户忠诚度进行分类.薛红松等[20]验证了电商客户重购行为和商家商品销量和排名符合幂律分布ꎬ重购行为倾向于在一定时期内集中发生ꎬ且随着购买次数增加ꎬ重购周期将缩短ꎬ状态趋向稳定.由此可见ꎬ当前针对电商用户重复购买行为影响因素的研究ꎬ很多学者尚未将商家推广促销和电商平台购物节活动等纳入具体分析.促销刺激可以加速新用户与商家产生交互关系ꎬ也增加了对新用户价值判断的难度.对新老客户重复购买意愿的不同特点ꎬ卢美丽等[21]考虑了购买强化效应ꎬ并验证受此影响顾客购买次数可呈幂律分布或广延指数分布ꎬ即可将客户分为易受促销影响的提升区顾客和已形成购物惯性的稳定区顾客.结合上述研究以及数据集提供的有限信息ꎬ本研究将在特征提取时构建4大类特征ꎬ即用户特征㊁商家特征㊁关系特征㊁促销特征.原数据集的可用特征维度较低ꎬ因此在提取原特征之外还需要通过对原属性进行分割和结合ꎬ构造出新的特征.商家特征考虑商家热度㊁口碑㊁产品对重复购买的影响ꎻ用户特征考虑其人口特征㊁网购依赖度㊁网购信任度㊁稳定忠诚度ꎻ交互特征考虑用户对商家的交互时间㊁交互频次ꎻ促销特征考虑商家的促销力度以及用户的价格敏感度.如图1所示.图1㊀特征工程设计3.1㊀用户特征用户特征是对用户个人属性和购物偏好的描述ꎬ包括人口特征㊁网购依赖度㊁网购信任度㊁稳定度ꎬ会对其是否重复购买造成影响.多数研究者会从原始数据集的用户信息表中提取用户人口特征数据ꎬ参照此方法ꎬ本研究基于所用数据集中的用户信息表提取用户年龄和性别数据ꎬ探究其对消费831㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀㊀㊀者的购买行为和购买偏好的影响作用ꎬ即将上述两类数据属性作为原特征进行提取[14].网购依赖度则体现用户是否为电商平台的重度使用者ꎬ主要考虑其活跃度和使用深度.用户行为日志表中记录了用户在促销活动前和促销活动中的6个月内在平台内点击㊁加入购物车㊁购买收藏的行为.用户各类行为频次越高ꎬ登录天数越多ꎬ说明其对平台越忠实ꎬ具有更高的维护价值.因此可以从行为日志表统计出用户的点击总次数㊁加入购物车总次数㊁购买总次数㊁收藏总次数㊁登录总天数㊁购买总天数作为特征.另一方面ꎬ相较于只在平台购买小部分类别产品的用户ꎬ部分用户对平台使用程度更深ꎬ运用平台满足其大部分购物需求ꎬ有更高的重复购买可能性.可以据此统计用户购买类别总数㊁购买品牌总数㊁购买不同商品总数这几个特征.网购信任度代表用户对电商产品可靠性的认知以及对性价比的敏感度.一些用户属于冲动型消费者ꎬ在电商平台上查询到喜欢的商品之后无需多做了解就能提交订单ꎻ一些用户属于理智型消费者ꎬ在选购商品时习惯货比三家ꎬ争取最大可能以更优惠的价格买到性价比高的商品.通过用户行为日志表可以计算用户购买行为和非购买行为所有操作的比例ꎬ即购买行为占比和非购买行为占比ꎬ以及非购买行为的购买转化率ꎬ计算公式为用户操作行为占比=用户某种操作行为总次数用户所有操作行为总次数(3)非购买行为转化率=购买行为次数各种非购买行为总次数(4)用户稳定度说明用户转移购买的难易程度.电商平台产品质量相对难以直接判断ꎬ一些高稳定度用户在积攒购物经验ꎬ找到自己满意的商家后ꎬ会倾向于在该商家进行持续的购买以节省搜寻试错成本ꎬ有更高的重复购买可能性.此处重复购买者指的是在某商家购买天数超过两天的用户ꎬ可以对用户购买商家总数㊁用户重复购买次数㊁用户重复购买商家总数㊁重复购买率进行统计计算ꎬ公式如下:用户重复购买率=所有重复购买过的商家所有购买过的商家(5)3.2㊀商家特征商家特征描述的是商家的形象和吸引力ꎬ商家的热度㊁口碑以及产品特征会对重复购买决策造成影响.商家热度反映商家的客户及潜在客户数量ꎬ商家的热度越高说明其吸引顾客完成订单的能力越强.可以构建出商家被点击总次数㊁被加入购物车总次数㊁被购买总次数㊁被收藏总次数等特征.商家口碑及其客户满意度是用户决定是否重复购买的关键因素.如果有更多用户在查看㊁加购㊁收藏商家商品ꎬ进行多重信息搜集和产品比较后ꎬ最终能够完成转化进行购买ꎬ说明商家在信誉㊁价格等方面能够让顾客信任ꎬ有较好的口碑ꎬ这也将增加再次购买的可能性.据此构造商家的点击购买转化率㊁加购购买转化率㊁收藏购买转化率.此外购买者总数和重复购买者总数也是商家口碑的一个重要考量因素ꎬ重复购买率越大ꎬ说明其客户满意度越高.可构建的特征有商家购买者总数㊁重复购买者总数㊁重复购买率.重复购买率的计算公式是重复购买率=重复购买者总数购买者总数(6)商家产品类型和特点也会影响用户在店内重复购买的意向ꎬ商家的产品种类越丰富ꎬ越能吸引931㊀第2期㊀㊀㊀㊀㊀㊀景秀丽ꎬ等:基于XGBoost算法的电商用户重复购买行为预测㊀㊀用户进行搜索.因此统计出商家种类总数㊁品牌总数㊁商品总数的特征ꎬ将商家对用户吸引力进一步量化.3.3㊀交互特征交互特征描述的是每条记录中指定用户和商家之间存在的关系ꎬ关系越强ꎬ再次购买的可能性越大.关系强度可以通过最近一次交互行为的时间㊁交互频次体现.最近一次行为发生的时间越相近ꎬ说明用户近期对商家越关注ꎬ因此要计算用户最近一次与商家发生交互行为距离 双十一狂欢购物节 促销活动的天数.而用户对商品进行点击㊁加入购物车㊁收藏等操作的频次越高ꎬ说明用户对商品和商家越关注ꎬ可以构造出特定用户在特定商户中的点击总次数㊁点击总天数㊁加购商家总次数㊁收藏商家总次数等相关特征.用户单次在商家内部购买的商品数量会影响消费者与商家之间的关系深度ꎬ用户对商家内的多种不同商品有购买意向会影响未来重购行为的发生概率.从用户行为日志表中可以构造出用户在商家的购买总件数㊁购买不同商品数㊁购买品牌数㊁购买类别数等特征.3.4㊀促销特征促销帮助商家吸引了更多新用户ꎬ所以有必要针对促销构建特征帮助判断新客户重复购买的可能性ꎬ主要观察商家的促销力度及用户的价格敏感度.当商家活动力度大时ꎬ可能会导致短期购买量大涨ꎬ但在活动后一段时间内客户由于反差过大而不愿再次购买.可以通过比较商家近期关注度与长期关注度进行观察ꎬ构造商家促销月被点击次数㊁被加购次数㊁被购买次数㊁被收藏次数ꎬ促销月被点击占比㊁被加购占比㊁被购买占比㊁被收藏占比特征.当用户价格敏感度高时ꎬ在促销的驱动下可能会在短期内活跃度提高ꎬ产生更多交互记录ꎬ而促销结束后可能受价格影响不选择重复购买.对此可以在用户行为日志表中构造一些趋势特征来对用户的促销敏感度进行衡量ꎬ如促销月用户点击㊁加入购物车㊁购买㊁收藏行为的次数ꎬ以及这4种行为的次数在所有对应行为次数中的占比ꎬ即用户促销月点击占比㊁加购占比㊁购买占比㊁收藏占比.最终一共提取了3类55个特征.促销月某行为占比=促销月(商家受到或用户进行)某行为次数(商家受到或用户进行)某行为总次数(7)通过对数据集直接分析ꎬ构造出来的特征往往在取值范围上存在着较大的落差.如果某一特征的量级过大㊁方差过大ꎬ很有可能导致该特征在模型训练时发挥主导作用ꎬ从而使得其他特征失效.为了避免这一情况发生ꎬ在模型训练之前对特征值进行均值归一化处理ꎬ使所有特征值呈服从均值为0㊁标准差为1的标准正态分布.运用Python中sklearn包的StandardScaler完成这一操作.4㊀模型构建训练与预测4.1㊀模型构建4.1.1㊀样本划分与比例调整通过Python程序中的XGBoost包和sklearn包对预测模型进行构建与训练.运用XGBoost算法进行有监督训练.阿里云天池大数据平台 天猫复购预测大赛 数据集提供了带有用户分类标签的训练表一共包含260864条数据ꎬ数据量较为充足ꎬ可以按照标准形式将样本划分为训练集和测试集ꎬ比例为7ʒ3.样本数据中的正样本ꎬ即重复购买用户样本为15952条ꎬ负样本ꎬ即非重复购买用户样041㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀㊀㊀本为244912条.样本数量正负样本比例约为1ʒ15ꎬ数量差距较大ꎬ存在类别不平衡的问题.严重的类别不均衡在机器学习的过程中可能会导致模型倾向样本数量多的类别ꎬ引起过拟合问题ꎬ影响模型预测结果的准确性ꎬ因此通过一定的采样策略ꎬ保证模型训练时正负样本比例协调.Python的XGBoost包为解决数据类别不均衡的问题提供了方法.如果只考虑模型的ROC(Receiveropertatingcharacteristiccurve)㊁AUC㊁召回率指标ꎬ而不关心样本为某一类别的概率大小ꎬ可以通过将Booster参数中的 scale_pos_weight 设置为数据负样本数量/正样本数量ꎬ为比例小的样本赋予更大的权重ꎬ改变样本在训练中的贡献ꎬ减弱类别数量不平衡的影响ꎬ即将 scale_pos_weight 的参数值设置为15.4.1.2㊀参数设置Python程序中的XGBoost包对学习目标参数eval_metric设置指定分类器训练情况的输出指标ꎬ再调用sklearn包中的metrics选择整个模型需要输出的评估指标.XGBoost一共有通用参数㊁Booster参数㊁学习目标参数3类.1)通用参数对模型宏观功能进行控制.Booster决定的是迭代所用的模型ꎬ有树模型和线性模型ꎬ本实验使用的是树模型gbtree.silent决定运行时是否输出信息ꎬ默认值0输出.nthread决定运行时使用的线程数ꎬ默认值为-1ꎬ代表自动获取最大值.2)Booster参数用于控制每一步Booster(树或回归)的生成ꎬ如表1所示.eta即学习率ꎬ决定每次迭代的收缩步长ꎬ参数值越大越难以收敛ꎬ因此将参数值设置为偏小值0.1ꎬ提升学习过程的精细化.min_child_weight为最小叶子节点样本权重和ꎬ当一个叶子节点的样本权重总和小于该参数值时则停止分裂ꎬ取值范围为[0ꎬ+ɕ)ꎬ取值越大越保守ꎬ可以防止过拟合ꎬ默认值为1.max_depth为树的最大深度ꎬ该值越大模型则越复杂ꎬ越容易导致过拟合ꎬ默认值为6.sub_sample控制构建每棵树时采用的样本比例ꎬ可以防止过拟合ꎬ取值于(0ꎬ1]之间ꎬ此处设为值0.8.colsample_bytree控制构建每棵树时随机抽取的特征占比ꎬ取值于(0ꎬ1]之间ꎬ此处设为值0.8.gamma指的是节点分裂要求的最小损失函数减少值ꎬ参数越大越能避免过拟合ꎬ默认值为0.alpha为控制复杂度的权重的L1正则化项ꎬ参数值越大越能避免过拟合ꎬ可以加快高维度数据的运算速度ꎬ此处设为值1.scale_pos_weight可在类别样本数不平衡时加快算法收敛速度ꎬ此处设为值15.表1㊀Booster参数初始值设置参数名参数值eta0.1min_child_weight1gamma0max_depth6sub_sample0.8colsample_bytree0.8alpha1scale_pos_weight153)学习目标参数ꎬ确定模型学习目标.objective确定需要被最小化的损失函数ꎬ由于研究的问题是二分类问题ꎬ并要求以概率的形式输出结果ꎬ因此将此参数设定为binary:logisticꎬ即二分类回归.eval_metric定义的是分类器的评估指标ꎬ可以同时添加多种指标ꎬ此处添加常用的auc㊁logloss(负对数似然函数值)㊁error(二分类错误率).seed为随机数种子ꎬ该参数值能使随机数据复现ꎬ此处设置为100.4.2㊀模型训练4.2.1㊀初始参数训练XGBoost包中的XGBoost.train()用于对分类器进行训练ꎬ参数主要包括params㊁dtrain㊁num_boost_round㊁evals=()㊁early_stopping_rounds.dtrain指的是被训练的数据.num_boost_round指的是141㊀第2期㊀㊀㊀㊀㊀㊀景秀丽ꎬ等:基于XGBoost算法的电商用户重复购买行为预测。