基于Lightgbm算法的隐式反馈数据中购买行为识别模型设计及应用
- 格式:doc
- 大小:79.00 KB
- 文档页数:4
基于隐式反馈的推荐算法研究随着互联网技术的不断发展,人们的信息获取途径也越来越多元化,其中推荐系统已经成为了人们获取信息的重要途径之一。
推荐系统的实现需要依赖推荐算法,而基于隐式反馈的推荐算法是目前比较热门的推荐算法之一。
一、什么是隐式反馈?隐式反馈是指用户的行为数据中不明显的行为信息。
如用户对某个商品没有评价或购买记录,但是经常访问该商品的页面,这种行为就会被视为隐式反馈。
相比于显式反馈,隐式反馈不需要用户特意进行操作,更符合用户习惯,因此获取的信息更加真实可靠。
二、隐式反馈在推荐系统中的应用隐式反馈已经成为推荐系统中重要的数据来源之一。
一方面,许多用户对商品的评价并不愿意花费时间和精力去完成,从而限制了推荐算法的精确度。
另一方面,隐式反馈数据更广泛,更符合用户习惯,更能有效反应用户兴趣爱好。
因此,隐式反馈在推荐系统中的应用可以有效提升算法的准确度。
三、基于隐式反馈的推荐算法1.协同过滤算法协同过滤算法是目前常用的推荐算法之一,它可以通过分析用户与物品之间的关系,找到用户可能感兴趣的物品。
在基于隐式反馈的协同过滤算法中,用户的浏览、点击和购买等行为被视为关于物品的喜爱程度。
通过对用户行为进行聚类和分类,为用户推荐最符合他们兴趣的商品。
2.概率统计模型概率统计模型是基于隐式反馈进行推荐的另一种常用算法。
该算法通过对用户与物品的关系进行建模,预测用户对一个物品的评分概率。
该算法适用于缺乏明确评级数据的场景,例如用户浏览、收藏、评论、打赏、分享等行为数据。
3.神经网络算法神经网络算法是目前热门的机器学习算法之一,也可以用于基于隐式反馈的推荐算法中。
在这种算法中,神经网络将用户与物品之间的关系进行学习和建模,通过隐藏层和激活函数对用户的兴趣进行建模,最终为用户推荐最符合他们兴趣的商品。
四、基于隐式反馈的推荐算法的应用与挑战基于隐式反馈的推荐算法在不同领域都有广泛的应用,例如电子商务、社交媒体和新闻推荐等。
基于LightGBM的广告商品平台推荐系统设计与应用
杨正成;刘浩
【期刊名称】《科技创新与应用》
【年(卷),期】2022(12)30
【摘要】字节跳动旗下的广告创意定制平台,是为广告主提供广告商品创意定制服务的撮合平台,该文旨在为该平台搭建基于LightGBM算法的商品推荐系统,以提升平台商品服务的点击率(CTR)与下单转化率。
该文对软件体系架构进行优化设计,包括构建个性化CTR预估模型、优化推荐排序策略,即采用LightGBM算法的精排模型对商品平台中的服务进行个性化排序推荐。
经过实际的线上验证,设计的推荐系统能够帮助平台有效提升流量转化数据,其中广告商品CTR上涨10.52%,下单转化率增长79.3%。
因此,该推荐系统可在商业应用中为广告主减少广告商品选购的决策成本,并为平台带来增量营收。
【总页数】6页(P1-6)
【作者】杨正成;刘浩
【作者单位】东华大学信息科学与技术学院
【正文语种】中文
【中图分类】TP312
【相关文献】
1.基于商品分类的电子商务推荐系统设计
2.基于大数据分析与挖掘平台的个性化商品推荐研究及应用
3.基于热销推荐的商品展示系统设计与实现
4.基于关联规则算法的电子商务商品推荐系统设计与实现
5.新零售平台商品分类及推荐系统设计
因版权原因,仅展示原文概要,查看原文内容请购买。
文章编号:1007-1423(2020)21-0027-06DOI:10.3969/j.issn.1007-1423.2020.21.006客户购买行为建模分析预测朱珏樟(浙大城市学院计算机系,杭州310000)摘要:基于阿里巴巴天池大数据比赛的真实客户购买记录数据,通过分析客户以往的购买记录,预测未来客户对哪些商品会有行为。
采用先召回部分商品、再进行模型预测排序的策略来提高预测效率。
在召回过程中,对传统的根据商品类别召回商品的方法加以改进,加入对用户行为时间顺序的考虑,排序过程中采用XGBoost、LightGBM、CatBoost等boosting算法进行排序,从而有效预测未来用户会对哪些商品有所行为。
关键词:客户行为预测;机器学习;XGBoost;LightGBM;CatBoost0引言近年来,随着电商行业的不断发展,网上购物的用户不断增加,用户的行为数据相比以前网络不普及,电商平台不成熟的时候要多得多。
电商行业的蓬勃发展使各个商家希望运用计算机分析方法从大量的商品数据、客户数据、客户购买行为数据中找到某些规律并根据规律来进一步预测客户的购买行为,从而来减小营销成本并提升收益,更好的留住用户。
虽然目前已经有了很多成熟的算法,例如协同过滤,可以利用兴趣相同或有相似行为的用户历史数据,来推荐或者预测未来用户可能会对哪些商品有行为。
但是由于现实场景中的用户数据量、商品数据量、用户购买行为数据量巨大,直接使用算法会导致计算效率低而且无法运用于实际场景中。
本文想要从大量的商品中,挑选出部分商品,再结合用户的历史购买行为从这部分商品中选出用户未来最有可能对其有购买行为的商品,这种方法可以更好地应用到实际中。
1研究背景通过查阅相关内容的文献和研究发现,国内外学者对用户的行为预测主要可以分为,通过电商平台所获得的真实用户行为数据记录,发现用户所感兴趣的商品,并根据推荐算法来为用户推荐可能感兴趣的商品的方法,还有一种是通过机器学习算法,分析用户行为记录来找到用户行为的某些规律来预测用户的行为,两种方式。
基于LightGBM算法的电信用户满意度预测摘要:在高速迭代的信息化时代,用户对运营商的服务提出更高的要求,运营商想要更好赢得竞争优势,就必须充分了解和及时解决目前用户在感知体验中存在的问题。
本文通过对电信用户数据进行预处理分析、特征工程,使用LightGBM算法建立用户满意度预测模型,从综合感知、业务感知、网络感知、服务感知四个维度进行分析并针对性进行策略维系,从而提高用户满意度。
关键词:机器学习、满意度预测、客户感知、特征工程、集成学习引言随着信息化时代的高速发展,通信领域技术成果已成为人民生活的重要组成部分,根据工信部发布的电信服务质量通告,数据显示全国电信用户申诉率为14.8人次/百万用户,在三大电信运营商竞争日益激烈的情况下,要更好赢得竞争优势,就必须充分了解和解决目前用户在感知体验中存在的问题。
在用户满意度预测方面,文献[1]结合电商平台数据进行实证研究,将K折交叉验证和网格搜索法相结合并对随机森林算法作改进,准确、高效地预测顾客满意度。
文献[2]使用xgboost模型将用户的满意度与用户标签建立联系建立模型,并对关键网络因素针对性优化。
在算法研究上,LightGBM算法现已广泛应用于多领域预测分析,文献[3]以银行账户数据为研究基础,通过有监督训练及LightGBM算法不断学习,在完成变量选择的同时择优输出针对欺诈风险的概率预测。
文献[4],使用LightGBM 和KDE方法,设计了一种用户级短期负荷概率预测模型框架和预测方法,利用核密度估计方法计算用户未来短期负荷的概率密度及预测区间。
在算法与应用相结合中,文献[5]建立了基于LightGBM算法的家宽用户满意度分类预测模型,融合多系统数据,可快速输出用户满意度预测值和网络质量强相关因子,为后续网络质量优化提供有力支撑。
本文在已有研究的基础之上,通过对电信用户满意度、投诉数据等进行分析,使用LightGBM建立预测模型,对用户进行综合、业务、网络、服务多维度进行满意度预测,提出有效的分析预警、发现问题、解决问题的方法。
第41卷第5期2023年10月沈阳师范大学学报(自然科学版)J o u r n a l o f S h e n y a n g N o r m a lU n i v e r s i t y(N a t u r a l S c i e n c eE d i t i o n)V o l.41N o.5O c t.2023文章编号:16735862(2023)05046405基于S V M-L i g h t G B M算法的上市公司财务数据异常识别模型邵永运,张立莹(沈阳师范大学软件学院,沈阳110034)摘要:上市公司是否依法准确披露财务数据对资本市场的稳定发展有重要影响㊂建立财务数据异常识别模型,对规范财务数据报表和避免财务数据造假具有十分重要的意义㊂运用机器学习相关技术,将上市公司财务报表数据按照行业予以划分并使用特征工程完成各行业财务异常指标的选取,然后使用支持向量机算法和轻量级梯度提升算法,建立双层财务数据异常识别的混合模型,对2667家上市公司财务数据进行了实证研究㊂结果表明,在财务异常识别方面,与其他模型相比,该模型的准确率等指标均有较大提高㊂关键词:财务造假;机器学习;支持向量机算法;轻量级梯度提升算法中图分类号:T P181;F275;F832文献标志码:Ad o i:10.3969/j.i s s n.16735862.2023.05.015F i n a n c i a ld a t aa n o m a l y r e c o g n i t i o n m o d e lo f l i s t e dc o m p a n i e sb a s e do nS V M-L i g h t G B MS HA OY o n g y u n,Z HA N GL i y i n g(S o f t w a r eC o l l e g e,S h e n y a n g N o r m a lU n i v e r s i t y,S h e n y a n g110034,C h i n a)A b s t r a c t:W h e t h e r l i s t e dc o m p a n i e sd i s c l o s e f i n a n c i a ld a t aa c c u r a t e l y a c c o r d i n g t ol a w p l a y sa ni m p o r t a n t r o l ei nt h es t a b l ed e v e l o p m e n to ft h ec a p i t a l m a r k e t.H o w t o m i n ea n di d e n t i f y t h ea b n o r m a lr i s k o f f i n a n c i a l d a t a f r o m t h e f i n a n c i a l d a t a r e p o r t a n d e s t a b l i s h t h e a b n o r m a li d e n t i f i c a t i o nm o d e l o f f i n a n c i a l d a t a a r e o f g r e a t s i g n i f i c a n c e t o s t a n d a r d i z e t h e f i n a n c i a l d a t a r e p o r ta n da v o i d t h e f r a u d o f f i n a n c i a l d a t a.B y u s i n g m a c h i n e l e a r n i n g t e c h n o l o g y,t h e f i n a n c i a l s t a t e m e n td a t ao fl i s te d c o m p a n i e sa r e d i v i d e d a c c o r d i n g t oi n d u s t r y a n df e a t u r ee ng i n e e r i n g i s u s e dt oc o m p l e t et h es e l e c t i o n o ff i n a n c i a la n o m a l y i nd i c a t o r si ne a c hi n d u s t r y.T h e n,s u p p o r tv e c t o rm a c h i n e a n d l i g h t g r a d i e n tb o o s t i n g m a c h i n ea r eu s e dt oe s t a b l i s had u a l-l a y e rh y b r i d m o d e l f o ra n o m a l y i d e n t i f i c a t i o no f f i n a n c i a l d a t a,a n de m p i r i c a l r e s e a r c h i s c o n d u c t e do n t h e f i n a n c i a l d a t a o f2667l i s t e d c o m p a n i e s.T h e r e s u l t s s h o wt h a t c o m p a r e dw i t ho t h e rm o d e l s,t h e a c c u r a c y a n do t h e ri n d i c a t o r s o f t h i sm o d e l a r e g r e a t l y i m p r o v e d.K e y w o r d s:f i n a n c i a l f r a u d;m a c h i n e l e a r n i n g;s u p p o r t v e c t o r m a c h i n e;l i g h t g r a d i e n tb o o s t i n g m ac h i n e随着国内经济的高速发展,国内上市公司数量稳步上升㊂从1991年初到2021年底,国内A股上市公司的数量从13家飞速增长至4682家[1]㊂国内上市公司的数量虽不及企业总数的万分之一,但截至2021年末,上市公司总市值占国内总市值的84.40%,总市值规模稳居世界第二[2]㊂由此可见,上市收稿日期:20221209基金项目:辽宁省社会科学规划基金资助项目(L16WT B022)㊂作者简介:邵永运(1971 ),男,辽宁大连人,沈阳师范大学教授,博士㊂公司是国家实体经济发展的主要力量㊂然而,少数上市公司却采取财务造假等不正当手段来谋求资本市场所带来的高获利回报,对资本市场和投资者产生伤害的同时扰乱了金融市场的秩序㊂财务造假是指企业违反国家法律㊁法规,对内部账务状况运用不合规的欺诈手段进行伪造和隐瞒,以掩盖企业真实的运营状况[3]㊂财务造假的发生必然伴随着财务数据异常,对财务报表进行人工核实的传统手段费时费力,难以精准识别异常数据㊂随着大数据技术的不断发展,通过机器学习算法,建立科学有效㊁精准识别的财务数据异常识别模型对企业的财务造假行为进行判别具有重要价值㊂1 模型建立与模型重构1.1 支持向量机算法支持向量机(s u p po r t v e c t o rm a c h i n e ,S VM )算法的基本思想是在当前的数据分布中找到一个超平面来达到数据分类的目的,这个超平面要使分类误差尽量小,特别是减少未知数据集的泛化误差㊂故S VM 算法的分类原理就是找出边际最大的决策边界,也就是让损失函数取得最小值[4]㊂因此,损失函数表达式包括需要进行最小化处理的函数及求解后需要满足的约束条件2个部分㊂可以使用拉格朗日乘数将损失函数改写为考虑约束条件的形式,于是,对任意样本(x i ,y i),都有L (ω,b ,a )=12ω2-ðni =1αi (y i (ωx i +b )-1),αi ȡ0(1)此处:ω为参数向量;x 为特征向量;b 为超平面与原点之间距离的截距㊂训练样本x i 通过函数ϕ映射到高维空间,最终得到如下超平面的判定函数[5],其中s i g n (h )是在h >0时返回1,h <0时返回-1的符号函数㊂于是有f (x )=s ig n ðni =1αi y i (ϕ(x )㊃ϕ(x i ))+()b (2) 非线性训练样本具有线性不可分的性质,对这种样本往往需要将原始的数据空间向高维数据空间进行映射,从而使数据变得可分㊂为解决这一问题,可以利用S VM 算法引入核函数进行处理㊂核函数使用数据原始空间中的向量计算来表示升维后空间中的点积结果,即通过引入核函数将基于内积运算的线性算法非线性化[6]㊂样本(x i ,x j )映射到高维特征空间的内积为ϕ(x i )Tϕ(x j ),此时可以通过核函数计算不同的内积㊂不同的核函数可以解决不同数据分布下寻找超平面及决策边界的问题㊂在S VM算法中,核函数的选择由参数k e r n e l 控制[7]㊂k e r n e l 参数的取值与表达式见表1㊂表1 核函数参数释义T a b l e1 D e f i n i t i o no f k e r n e l f u n c t i o n p a r a m e t e r s可选核函数核函数含义适用范围核函数表达式l i n e a r 线性核线性K (x ,y )=x T y =x ㊃y p o l y多项式核偏线性K (x ,y )=(γ(x ㊃y )+r )dr b f 高斯径向基偏非线性K (x ,y )=e -γ|x -y2,γ>0s i gm o i d 双面正切核非线性K (x ,y )=t a n h (γ(x ㊃y )+r ) S VM 算法计算的核函数可以进行非线性指标处理,泛化能力较强㊂但也正由于这点,S VM 算法对非线性数据没有通用的解决方案,在计算时间和内存需求方面需要通过选择核函数进行优化[8]㊂1.2 L i gh t G B M 算法轻量级梯度提升(l i g h t g r a d i e n tb o o s t i n g m a c h i n e ,L i gh t G B M )算法与极速梯度提升(e x t r e m e g r a d i e n t b o o s t i n g ,X G B o o s t )算法是基于梯度提升决策树(g r a d i e n tb o o s t i n g de c i s i o nt r e e ,G B D T )算法衍生出的算法模型㊂L i g h t G B M 算法可以看作X G B o o s t 算法的改进版本,该算法使用部分样本计算信息增益的同时使用内置的特征降维技术降低计算每次信息增益的成本㊂L i g h t B GM 算法使用在当前叶子节点中找出分裂增益最大的叶子结点进行分裂的l e af -w i s e 生长策略,在相同的分裂次数条件下提供了更好的精度[9]㊂同时,影响X G B o o s t 算法寻找最优分割点复杂度的原因为分裂点㊁样本与特征数量过多㊂为解决这些问题,L i gh t G B M 算法在X G B o o s t 算法基础上引入直方图算法㊁基于梯度的单边采样(g r a d i e n t -b a s e do n e -s i d e s a m p l i n g ,G O S S )算法及互斥特征捆绑(e x c l u s i v e f e a t u r e b u n d l i n g ,E F B )564第5期 邵永运,等:基于S VM -L i g h t G B M 算法的上市公司财务数据异常识别模型664沈阳师范大学学报(自然科学版)第41卷算法[10]㊂L i g h t G B M模型的算法流程如图1所示㊂图1L i g h t G B M算法流程F i g.1A l g o r i t h m p r o c e s s o f L i g h tG B ML i g h t G B M算法将损失函数当前负梯度的值当作残差的近似值,利用该值逐步拟合出回归树[11],然后依次递进,在决策过程中生成下一棵树,最后将运行结果按照权重加权求和得出最终结果㊂L i g h t G B M算法模型每次迭代都是根据上一次的结果进行权重的调整,这导致误差变得越来越小的同时偏差也在降低,因而对数据噪声较为敏感㊂1.3S V M-L i g h t G B M模型的建立目前,财务数据异常识别往往基于全行业数据使用单一算法进行建模识别,识别的结果难以表明不同行业财务数据上的差异㊂事实上,通过对财务数据的分析不难得出,不同行业财务数据异常在不同指标的敏感性表现上存在明显不同,从而导致模型效果无法进一步精进㊂因此,有必要建立将财务数据进行分行业处理的财务数据异常识别混合模型㊂对来源数据按照行业分类分析发现,制造业㊁信息技术服务业与批发和零售业历年财务造假次数分别为91,19和14次,其余行业(以下统称为其他行业)的财务造假次数均低于10次㊂通过特征选择提取出以上4个行业的财务异常特征,并基于全行业财务数据提取出全行业共通异常特征用于模型构建㊂财务数据异常识别模型构建的具体过程为使用各行业的财务异常指标分别利用随机森林(r a n d o m f o r e s t,R F)算法㊁S VM算法和逻辑回归(l o g i s t i c r e g r e s s i o n,L R)算法选取各个行业最适合的模型进行调参处理,以此构建出模型的第1层㊂由于第1层仅输出概率值,对总体数据量来说特征数量过少,容易造成模型泛化能力不足,降低了模型结果的准确性与真实性,故将第1层的输出与全行业共通的异常财务指标体系进行拼接作为模型第2层的输入㊂在第2层使用L i g h t G B M算法再次进行财务异常识别㊂L i g h t G B M集成算法相较于以往集成算法运行时占用内存空间更小㊁运行速度更快,并且暂时未在财务数据异常的侦查方面大规模使用,具有很好的应用前景㊂财务数据异常识别模型流程如图2所示㊂图2S V M-L G B M财务异常识别模型流程F i g.2F i n a n c i a l a n o m a l y i d e n t i f i c a t i o nm o d e l p r o c e s s o f S V M-LG B M2 实证分析2.1 数据处理本文数据来源于第九届 泰迪杯 数据挖掘挑战赛A 题的上市公司财务数据㊂该数据文件包含2667家上市公司近6年来的22213条数据,数据字段共363个㊂通过数据预处理方法[12]得到用于分析的数据,包括252个财务特征和1个用来区分是否发生财务造假的特征标签㊂2.2 特征选择使用F i l t e r 过滤法与E m b e d d e d 嵌入法对各行业进行特征选择,按照特征对结果的贡献程度降序输出,最终分别选取各行业指标重要性排名前20的特征及全行业前10的特征㊂全行业财务异常指标选择结果及相关名词释义见表2㊂表2 最终特征选择结果T a b l e2 F i n a l f e a t u r es e l e c t i o n r e s u l t特 征 名 称特征中文名称特 征 释 义C I P在建工程企业资产的尚未完工的工程支出I N V E N T O R I E S存货企业在日常活动中持有以备出售的产品O T H _C A其他流动资产除货币资金等流动资产以外的流动资产R E T A I N E D _E A R N I N G S 未分配利润企业留到以后年度分配或待分配的利润C A S H _C _E Q U I V货币资金企业拥有的以货币形式存在的资产C _P A I D _D I V _P R O F _I N T分配股利㊁利润或偿付利息支付的现金分配股利或利润产生的现金流量I N V E S T _R E A L _E S T A T E 投资性房地产为赚取租金或资本升值的房地产L T _E Q U I T Y _I N V E S T 长期股权投资通过投资取得被投资单位的股份T _E Q U I T Y _A T T R _P 归属于母公司所有者权益合计所有者权益中归属于母公司的部分O T H _P A Y A B L E其他应付款与主营业务没有直接款项2.3 模型验证本文针对各行业特征数据,比较各行业在不同模型上的准确率㊁召回率与受试者特征曲线(r e c e i v e ro p e r a t i n g ch a r a c t e r i s t i c c u r v e ,R O C )下方的面积(a r e a u n d e r t h e c u r v e o fR O C ,A U C )发现,S VM 算法在各行业的不同指标上均表现良好㊂由于行业指标数据不同,S VM 算法在不同行业有不同的参数取值㊂其中:参数核函数K e r n e l 表示数据分布的差异;参数C 代表S VM 算法的惩罚系数,即调节间隔大小和分类准确度的权重,也可以理解为对误差的容忍度;参数g a mm a 决定了数据映射到新特征空间的分布㊂最终各个行业的模型选择与模型参数调节情况见表3㊂表3 各行业参数选择结果T a b l e3 S e l e c t i o n r e s u l t s o f pa r a m e t e r s f o r v a r i o u s i n d u s t r i e s 行业名称核函数K e r n e l参数C 参数g a mm a准确率制造业r b f 3.20.400.888信息软件技术业r b f 3.00.020.858批发和零售业l i n e a r3.30.880其他行业r b f4.01.500.884为进一步提升模型总体识别水平,将模型第1层的输出与全行业财务数据异常指标拼接作为第2层模型L i g h t G B M 的输入㊂L i g h t G B M 模型涉及参数较多,主要通过学习率(l e a r n i n g _r a t e )㊁B o o s t i n g 的迭代次数(n _e s t i m a t o r s )㊁决策树最大深度(m a x _d e pt h )㊁叶子结点数量(n u m _l e a v e s )等参数控制模型最终水平[13]㊂构建L i gh t G B M 模型时,考虑到模型的稳定性与限制过拟合,使用网格搜索进行模型参数的限制与调整㊂最终模型的参数设置为l e a r n i n g _r a t e =0.03,n _e s t i m a t o r s =160,m a x _d e pt h =6,n u m _l e a v e s 764第5期 邵永运,等:基于S VM -L i g h t G B M 算法的上市公司财务数据异常识别模型图3 模型的R O C 曲线F i g.3 R O Cc u r v eo f t h em o d e l =22㊂R O C 曲线纵坐标代表真正率,横坐标代表假正率,曲线越接近左上角说明模型分类效果越好㊂A U C 值是R O C 曲线的量化反映形式,表示模型的识别能力㊂模型最终的R O C 曲线如图3所示㊂由图3可知,R O C 曲线为凸曲线,A U C 取值为0.9807,说明模型性能优秀㊂R F 算法㊁L R 算法㊁S VM 算法与本文构建的S VM -L i g h t G B M 模型在分类数据上的准确率㊁召回率㊁F 1值与A U C 面积值的比对结果见表4㊂由表4可知,与R F 算法㊁L R 算法和S VM 算法相比较,S VM -L i gh t G B M 模型总体得分较好㊂财务数据异常的识别核心就是识别样本中的异常少数类,而在表示捕捉少数类的指标召回率上,该模型取得了0.954的分值,表明模型对财务数据异常的捕捉能力优秀㊂表4 各算法结果对比T a b l e4 C o m p a r i s o no f a l go r i t h mr e s u l t s 模型名称准确率召回率F 1A U C 值R F 算法0.8970.6830.8110.890L R 算法0.7270.7670.7380.770S VM 算法0.9010.8940.8860.884S VM -L i gh t G B M 算法0.9120.9540.9230.9803 结 语本文对不同行业及全行业的财务异常指标进行选取,使用不同的机器学习算法进行计算,选定S VM 算法与L i gh t G B M 模型分别作为财务数据异常识别的第1层和第2层模型㊂结果显示,S VM -L i gh t G B M 模型在上市公司财务异常的分类识别上表现优秀,验证了二层模型的可行性㊂模型的选择很大程度决定了最终结果的输出,可以考虑在第1层模型中使用更加复杂的模型㊂参考文献:[1]‘中国经济周刊“采制中心.2021年上市公司总营收占G D P 总额一半以上[J ].中国经济周刊,2022(9):7.[2]李乔宇.A 股2021年成绩单:4669家上市公司营收撑起G D P 半边天 [N ].证券日报,20220505(A 01).[3]彭润亚,王哲.剖析财务造假的手段及防范措施[J ].农村经济与科技,2017,28(14):104.[4]陈翠艳.A 股上市公司财务造假问题研究[D ].郑州:郑州大学,2021.[5]王兴玲,李占斌.基于网格搜索的支持向量机核函数参数的确定[J ].中国海洋大学学报(自然科学版),2005,35(5):859862.[6]王国胜.支持向量机的理论与算法研究[D ].北京:北京邮电大学,2007.[7]R E D D Y RR ,R AMA D E V IY ,S U N I T HA K V N.A n o m a l y d e t e c t i o nu s i n g fe a t u r e s e l e c t i o na n dS VM k e r n e l t r i c k [J ].I J C A ,2015,129(4):3135.[8]S I N G H K R ,N E E T HU K P ,MA D HU R E K A A K ,e ta l .P a r a l l e lS VM m o d e lf o r f o r e s t f i r e p r e d i c t i o n [J ].S o f tC o m p u tL e t t ,2021,3:100014.[9]王华勇,杨超,唐华.基于L i g h t G B M 改进的G BD T 短期负荷预测研究[J ].自动化仪表,2018,39(9):7678,82.[10]卢锦玲,郭鲁豫,张梦雪,等.基于MG S -L G B M 算法的电力系统暂态稳定评估[J ].电力科学与工程,2020,36(3):5260.[11]王思宇,陈建平.基于L i g h t G B M 算法的信用风险评估模型研究[J ].软件导刊,2019,18(10):1922.[12]仲姝锜.基于机器学习的数据预处理框架研究[D ].西安:西安工业大学,2021.[13]Z HA N GC ,L E IXJ ,L I UL .P r e d i c t i n g m e t a b o l i t e -d i s e a s e a s s o c i a t i o n s b a s e do nL i g h t G B M m o d e l [J ].F r o n tG e n e t ,2021,12:660275.864沈阳师范大学学报(自然科学版) 第41卷。
单位代码: 10293 密 级:专 业 学 位 硕 士 论 文论文题目: 基于隐式反馈数据的用户行为分析及购买预测User behavior analysis and purchase prediction based on implicit feedback dataThesis Submitted to Nanjing University of Posts andTelecommunications for the Degree ofMaster of Applied StatisticsByBian TianyuSupervisor: Prof. Zhang ChangbingApril 2020南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。
南京邮电大学学位论文使用授权声明本人承诺所呈交的学位论文不涉及任何国家秘密,本人及导师为本论文的涉密责任并列第一责任人。
本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。
本文电子文档的内容和纸质论文的内容相一致。
论文的公布(包括刊登)授权南京邮电大学研究生院办理。
非国家秘密类涉密学位论文在解密后适用本授权书。
研究生学号: 研究生签名:日期:研究生签名: 导师签名:日期:摘要随着移动互联网的发展,电商平台进入了一个快速发展期,截至目前各电商平台已积累了海量的用户行为数据。
基于LightGBM的上市公司“高送转”预测作者:李威张攀红来源:《湖北经济学院学报·人文社科版》2022年第02期摘要:本文基于机器学习中最新的LightGBM算法构建训练集,并基于上市公司的各项财务数据训练机器学习模型,进一步利用该模型对预测集中最有可能实施“高送转”的公司进行预测,最终预测出“高送转”概率最高10家公司。
本文最后训练出的模型准确率较高,但覆盖率较低,最终能够预测出部分“高送转”上市公司,可为投资者构建股票投资组合提供有益参考。
关键词:高送转;LightGBM;机器学习一、引言及文献综述“高送转”是指高比例送红股或转增股本的简称。
国外鲜有高比例送红股或增资的情况存在,这是我国市场上的特有现象。
一般来说,投资“高送转”概念的公司往往可以增加其收益的可能性,因此,无论是否要参与“高送转”概念的炒作,上市公司每年披露年报或半年报时,中国投资者将关注其股利分配方案,实施“高送转”的公司也将受到追捧。
从公司财务角度来看,“高送转”的实施不会对公司未来的业绩预期产生任何影响,也不会影响公司的实际价值。
“高送转”实施后,虽然股份总数有所增加,但公司股东权益不会增加。
作为中国金融市场发展过程中遗留下来的炒作题材,相关股票的炒作甚嚣尘上。
我国A股市场历年都有炒作题材股的现象,伴随一些突发事件,A股市场上总会掀起一股短线炒作概念的热潮,不管是游资大户还是普通散户,甚至一些投资机构都会或多或少地参与其中。
例如,中美贸易战时的国产芯片替代概念和半导体概念、地摊经济概念股、免税牌照概念股等等。
我国市场游资大户数量多、资金体量大,每年的“高送转”也就成为A股市场上市公司年报和半年报出台前的炒作对象。
近几年实施“高送转”的公司越来越多,“高送转”概念股成为预案公告日和除权除息日前后炒作的热点。
随着监管力度的增强,相关的炒作热情有所降温,但“高送转”概念仍成为炒作的暗线题材,其他题材股叠加“高送转”概念后,往往会取得更高的超额收益。
融合LSTM 和LightGBM 的用户购买行为预测算法作者:梅俊涛陈静白静盼来源:《电脑知识与技术》2024年第14期摘要:近年來,线上购物逐渐成为用户主要的购物手段,为提升用户购物体验,商品推荐系统应运而生。
然而,传统的商品推荐系统常依赖简单的协同过滤和基于流行度的算法,难以捕捉用户的个性化偏好。
针对此问题,文章基于JData平台提供的真实数据集,提出了融合LSTM和LightGBM的用户购买行为预测算法。
首先,针对数据集中正负样本不平衡问题,采用对数据归一化的方法,使各个特征的贡献度更均衡。
然后,利用LSTM和LightGBM依次提取商品购买的时间序列特征和非时间序列特征,构建融合LSTM和LightGBM的用户购买行为预测模型。
将LSTM和LightGBM作为第一层学习器,并将LightGBM作为次学习器对用户购买行为进行预测。
最后,大量实验证明:与单一的LSTM模型、SVM和LightGBM的融合模型以及CNN和LSTM融合模型相比,文章提出的算法在准确率、召回率以及F1值方面性能更优。
关键词:归一化;LSTM;LightGBM;融合模型;购买行为预测中图分类号:TP391 文献标识码:A文章编号:1009-3044(2024)14-0029-03 开放科学(资源服务)标识码(OSID):0 引言随着互联网和电子商务的快速发展,用户购买行为的数据和信息增长速度越来越快,因而带来了大量且复杂的数据。
这些海量的数据包含了用户的购物记录、浏览历史、点击行为等,蕴含了丰富的用户行为和偏好信息。
这些信息可以用于商品推荐,从而提高用户的购买体验。
然而,在商品推荐过程中,这些数据具有高维稀疏性,有效解释这些数据成为用户购买预测的必要条件。
因此,如何利用好这些数据预测用户购买行为成了一个难题。
传统的购买行为预测方法已不再适用于用户行为数据量大以及用户行为特征复杂多样的情况。
存在着特征的可解释性和预测准确性的问题。
基于Lightgbm算法的隐式反馈数据中购买行为识别模型设计及应用
作者:卞天宇张昌兵李琛霖
来源:《无线互联科技》2019年第22期
摘; ;要:文章以研究隐式反馈数据中识别用户购买行为为中心,应用特征工程和Lightgbm 算法进行消费者购买行为研究,挖掘在线购物行为数据背后的深层次关系,从用户的行为轨迹,分析用户的行为特征、偏好与兴趣,从而了解顾客的购物需求,最终达到提升电商平台的购买预测效果的目的。
关键词:隐式反馈;购买预测;特征工程;Lightgbm算法
1; ; 问题的提出
随着互联网技术的发展,人们步入信息过载时代。
为了解决用户搜寻有效信息需求以及提高商家的营销能力,电商平台需要挖掘用户行为以此向客户推送个性化商品提高购买转化率。
隐式反馈基于用户使用APP时留下的自然行为,比如点击、加入购物车、购买等行为,从用户行为中“揣摩”喜好。
隐式反馈的优势不仅限于数据收集效率,对用户行为的深度挖掘可以提高平台收入,准确定位用户需求,基于用户行为的特征提取以及模型构建可以提高购买预测准确率,减少用户搜索时间,从而减少用户流失。
近年来,一些学者正尝试将机器学习算法和顾客购物行为数据结合起来构建预测模型。
相关研究有:胡东波等[1]使用Decision tree算法对电子商务消费者调查问卷进行挖掘。
张少帅[2]使用聚类克隆马尔科夫模型对电子商务用户的购买行为进行预测。
杨琼等[3]使用朴素贝叶斯对满足特定条件的顾客购买行为进行预测。
Silahtaroglu G等[4]使用了神经网络来预测消费者是否会购买购物车里的商品。
上述文献在特征构造上没有重视构造基于原始特征的组合和交叉特征,在模型方面仍处于对传统树模型的改进阶段。
本文将以消费者购买行为为研究中心,通
过特征工程和将Lightgbm算法应用于对隐式反馈数据中购买行为的识别,发现用户的行为特征,了解顾客的需求,实现精准营销,以期提升电商平台的购买预测效果。
2; ; Lightgbm算法的相关理论
2016年中国学者陈天奇设计Xgboost算法模型在众多机器学习任务和国际重大数据竞赛取得了优异成绩,2017年,Lightgbm作为微软亚洲研究院开源的模型,则是在Xgboost上进一步改进,而这两者都是基于GBDT梯度提升决策树这一经典模型衍变而来的。
GBDT具有训练效果好、不易过拟合等优点,在工业界有着较广泛的应用,常被用于点击率的预测、搜索排序等任务。
Xgboost较传统的GBDT算法的优势在于:传统的GBDT只利用了一阶的导数信息,而Xgboost对损失函数进行了二阶的泰勒展开,求得模型最优解的效率更高。
Lighgbm中的决策树子模型是采用叶子分裂方法分裂节点的,因此,计算代价比较小,也正是因为选择了这种分裂方式,需要控制树的深度和每个叶子节点的最小数据量,从而避免过拟合现象的发生。
由于本文隐式反馈数据具有数据量大、数据稀疏、后期构造的特征维度大且许多特征存在缺失值等诸多劣势,而Lighgbm的数据并行和投票并行恰好可以解决上述问题。
由于样本严重失衡,正负样本比达1∶67,所以本次实验中模型的效果评估采用F1指标,F1指标实际上是预测准确率和召回率的调和平均数。
3; ; 模型检验
3.1; 数据来源
本文数据集来源于阿里AI天池社区,包含了2017年11月25日至2017年12月3日,约100万随机用户的所有行为。
即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
3.2; 数据处理
从原始数据1 000 000万用户中随机抽取9 688个用户,通过数据观察可发现部分用户在2017年11月25日至2017年12月3日只有浏览行为,没有购买行为,这类用户疑似刷单用户。
部分用户浏览、收藏、加购物车记录均为0,但是却有购买记录,这类用户疑似刷单用户。
剔除这两类用户及这两类用户的所有行为后,还剩下9 076个用户及所产生的956 287条行为。
3.3; 数据分析
通过数据可视化探索,可以发现重要规律。
图1为购买转化率在距考察日(12月3日)时间上的分布。
基于图1数据探索,将重点关注考察日前3日的用户行为及他们加购购物车的行为,为了加快训练速度,训练集最终只保留3日内有交互信息的用户和商品。
所以,实验将12月3日的购买記录作为测试集,12月2日当日的数据作为验证集,将11月29日至12月1日作为训练集并构建特征,然后用12月2日的购买记录来标记训练集并用于调节训练集模型效果,最终训练好模型后,将11月29日至12月2日的数据合并构建特征,然后一起放入模型,并将模型预测结果与测试集进行比对。
3.4; 特征工程及数据结构
隐式反馈的原始数据未经过特征提取这一重要步骤,基本学习不到任何信息,更何况用户对商品的喜好信息。
所以,本次实验构造了6个特征群,分别是U基础特征群、I基础特征群、C基础特征群、U_I交叉特征群、U_C交叉特征群和I_C交叉特征群,总计为510个特征。
部分特征举例:U_51为用户在据观察日一日内加购物车的购买转化率,该转化率越高,在一定程度上说明该用户的购买能力就越强。
U_I_37为用户在据观察日一日内对该商品的交互次数占该用户当日总交互次数的比例,占比越高,在一定程度上反映了该用户对该商品关注是大于其他商品的。
3.5; 模型检验
将处理好的数据送进Lightgbm模型中去,经过参数调节,在最终的测试集上F1得分为6.79,同时选取了跟Lightgbm原理相似的两个经典机器学习模型作为对比,xgboost和GBDT 在测试集上F1得分分别为:6.32和5.96,可以看出Lightgbm在3个模型中效果最好,同时训练耗时也可以接受,不失为一个不错的结果。
4; ; 结语
实验在对原始隐式反馈数据做了大量的特征工程的基础上,Lightgbm算法能很好地运用于电商隐式反馈数据的购买预测,并且性能优异。
本研究成果可以为电商平台处理隐式反馈数据和进行购买预测提供一定有价值的参考。
本课题有待进一步深入研究的领域主要有:(1)特征提取完全依赖人工,除工作量巨大外,尽管构建了大量丰富的特征,但有时难免出错或遗
漏,如能引入一些自动化特征提取方法,可以解决这个问题。
(2)最终的预测结果仅使用了单一模型,如能使用模型融合的方法,可以克服单一模型的缺陷。
[参考文献]
[1]胡东波,肖璇,周锦.基于数据挖掘的移动电子商务用户群体特征分析[J].科技管理研究,2013(9):222-226.
[2]张少帅,唐莉莉,郑署琳.预测模型在购物网站中的应用[J].现代计算机,2013(6):40-42.
[3]杨琼,唐振平,陈建华,等.基于模糊朴素贝叶斯方法的客户消费行为预测研究[J].湖南科技学院学报,2013(12):122-127.
[4]SILAHTAROGLU G,DONERTASLI H.Analysis and prediction of E-customers’ behavior by mining clickstream data[C]. Canifornia:International Conference on Big Data. IEEE,2015.。