当前位置:文档之家› 定向广告系统技术介绍

定向广告系统技术介绍

海量数据处理课程作业精准定向广告系统技术调研

小组成员:

徐粲1401210792 朱项宁1401211073

张传号1401211045 罗志鹏1401210986

二〇一五年三月

目录

第一部分大数据技术的内涵、外延、工作范畴的分析和讨论 (3)

1.1大数据的内涵、外延 (3)

1.2大数据的工作范畴 (3)

第二部分精准定向广告技术调研 (5)

2.1广告系统简介及架构 (5)

2.2 CTR点击率预测简介 (7)

2.3 特征工程 (9)

2.4 逻辑回归模型及并行化方案 (13)

2.5 语义分析技术在广告系统中的应用 (20)

2.6主题模型(T opic Model)介绍 (20)

2.7 大规模LDA模型----以腾讯Peacock为例 (24)

2.8图片语义分析 (32)

第三部分介绍2~3中开源框架 (40)

3.1Mahout (40)

3.2 MPI (44)

3.2.3 MPICH执行步骤 (45)

3.2.4 MPICH 基本函数介绍 (46)

参考资料 (48)

第一部分大数据技术的内涵、外延、工作范畴的分析和讨论1.1大数据的内涵、外延

大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超过了

一般电脑在处理数据时所能使用的内存量,因此工程师必须改进处理数据的工具。这导致了

新技术的诞生,利于谷歌的MapReduce和Hadoop平台。——Victor Mayer-Schonberger Kenneth Cukier《Big Data a revolution that will transform how we live ,work ,and think》 2014.5

目前工业界普遍认为大数据具有4V+1C的特征:

1.数据量大(Volume)存储的数据量大,拍字节级别是常态,因而对其分析的计算量也大。

2.多样(Variety)数据的来源及各市多样,数据格式除了传统的格式化数据外,还包括

半结构化和非结构化。

3.快速(Velocity)数据增长速度快,同时要求对数据的处理速度也要快,以便能从数据

中及时的提取知识。

4.价值密度低(value)需要对大量的数据处理挖掘其潜在的价值,因而大数据对我们提

出的明确要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析大量、多种类别的数据中提取价值的体系结构。

5.复杂度(Complexity)对数据的处理和分析难度大。

1.2大数据的工作范畴

大数据可以应用在商业、医疗、教育、政府、经济、人文、以及社会的各个领域。

大数据应用在商业例子:Oren Etzioni 2003年传立了一个预测系统,并在一个旅游网站上爬

到了41天内的12000条机票价格数据。这个系统可以预测出未来机票价格的走势。就是后

面的Farecast公司。为了提高预测的准确性,他找到了一个行业机票预定数据库,拿到了美

国航空产业中每一条航线、每一架飞机、每一个座位的一年的票价。2012年止,Farecast

票价的预测的准确率达到75%。平均每张机票可以节省50美元。后面被微软收购,并入必应搜索。

大数据应用在公共事业领域:谷歌公司把5000万条美国人最频繁的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行分析比较,他们希望通过分析人们的搜索记录来判断这些人是否换上了流感。谷歌为了测试这些检索词条,总共处理了4.5亿个数学模型。最终他们发现他们的预测与官方数据的相关性高达97%。2009年,流感爆发前的几周,谷歌便预测出了流感的传播。

第二部分精准定向广告技术调研

2.1广告系统简介及架构

所谓"定向"实际上是对受众的筛选,即广告的显示是根据访问者来决定的,先进的广告管理系统能够提供多种多样的定向方式。定向传播可以按访问者的行业、地理区域、职务等选择不同的广告出现,根据一天或一周中不同的时间出现不同性质厂商的广告,根据用户所使用的操作系统或浏览器版本选择不同广告格式,等等。可以精确定位广告受众,提高广告效果。根据用户偏好对其投放感兴趣的广告。

定向广告是指网络服务商利用网络追踪技术(如Cookies)搜集整理用户信息,按年龄、性别、职业、爱好、收入、地域分类储存用户的IP地址。然后利用网络广告配送技术,向不同类别的用户发送内容不同的广告。

用户的日志采集与分析

其中投放平台获取到用户的广告请求后,将请求交给CTR 计算与排名模块,这个模块会获取用户数据和广告数据,再根据模型计算CTR 。得到CTR 后,有两种方式使用。一种是对CTR 进行排名,返回排名CTR 最高的广告,然后DSP 就可以根据这个CTR 出价了;另一种是将广告的出价与CTR 相乘,得到每个广告的收益,根据收益排名,返回收益排名最高的广告。

投放平台获取这个广告后,根据一些条件,会把广告展示给用户,同时产生投放日志。用户会做出相应的反馈(点击或不点击),产生点击日志。

这些日志会产生三个作用。一种是存到日志数据存储工具。第二种是产生实时统计数据,以方便迅速更新特征。第三种是进行在线学习,不断更新线上的模型。

日志存储工具的日志有两种作用,一种是经过ETL,可以生成训练数据,然后用这些训练数据去训练模型,然后更新线上的模型;另一种是利用统计的方式或者其他方式产生特征。线上模型有两种更新方式,一种是离线训练的更新方式,一种是在线学习的更新方式。

这两种方式分别用的是两种不同的训练算法。离线训练的更新方式比较慢,频率一般比较低,一般都是一天或者一个星期训练一次,用的方法一般是批量学习方式,就是对数据进行多轮的迭代,获取w的尽可能的最优解。在线学习的方式要求能快速更新线上模型,一般是来一个展示记录,就获取这个展示记录的特征,然后利用这个记录去进行只有一个数据的迭代,得到一个新的模型。

现在的企业日志、用户和广告数据多是用hadoop集群存储,特征提取算法也是用hadoop 的mapreduce模型实现。后面的机器学习模型多是用spark集群或者MPI集群来实现。例如一淘机器学习平台就使用2000台hadoop集群存储处理商品、日志、用户数据,使用100台MPI服务器集群来做逻辑回归并行模型。

2.2 CTR点击率预测简介

2.2.1 CTR点击率预测背景

广告点击率预测(CTR Predict Click-Through Rate)是广告算法中最为核心技术。点击率预测要解决,特定用户在特定广告位下的点击概率,从而提升广告主的广告投放收益和用户体验度。相较PC端而言,移动端广告效果更有赖于点击率预测,同时移动广告数据较PC端也更难获取。精准的点击率预测可为广告主,带来更加实效性的广告价值转化。目前广告主的主要付费方式为点击付费(Pay Per Click );若单位点击的付费额记为CPC(Cost Per Click ),则搜索引擎的收益(Revenue)是CTR ×CPC.研究显示,用户点击广告的可能性按广告的排放位置快速递减,最高可达90;搜索引擎想获得最大的收益就需要把CTR x CP C大的广告投放在靠前的位置,并依据相乘的结果对广告在查询返回页面上进行排序.因此,C T R 的预测作为计算广告中的一个关键问题,具有研究的必要性、一定的理论意义和实际价值.

广告点击率预测是广告选择中的一个重要步骤。点击率估计就是在给定广告网页和用户的情况下,估计所投放的广告被点击数占总展示次数的的比例互联网广告的点击率从20世

纪90年代起一直呈下降趋势。目前平均点击率在0.2%-0.3%,0.2%的广告点击率即被认为是十分成功的广告投放。据统计,所有广告的展示频率和点击频率均成幂率分布,搜索关键词频率也按幂率分布。大量广告和查询的点击日志都是稀疏的,稀疏的数据不利于模型的预测,也较难进行广告点击率的准确估计,特别是针对最新投放的广告进行估计。

2.2.2 CTR点击率预测方法介绍

由于位置偏差,广告的点击率无法通过广告的点击日志进行直接计算.处于最显著的位置的广告,用户会最先注意到,因此点击率最高的广告与查询的相关性并不一定最强.针对这一问题可以建立以下两种模型,如下图所示:

A 图表示基于位置模型的点击率估算方法:将广告的自身性质与位置信息作为统一级别的两个系数来考虑.假设同一页面上的每条广告的点击事件都可看作一个独立的事件,点击率与广告的相关性和位置有关,不同位置的点击概率依次递减.

B 图表示基于检验假设的点击率估算方法:假定广告的位置不直接影响广告的点击事件,而是决定用户是否能看到这则广告,当且仅当用户看到了一则广告才会检查广告的相关性,这个过程就是对用户行为的一种建模.检验假设模型就是先判断广告是否被用户看到,再计算它的相关性.对整个页面而言这是一个递推的过程,可以通过贝叶斯方法进行建模.

本次报告将重点介绍位置模型,即将广告的位置作为一个特征纳入逻辑回归模型进行学习和预测。

2.2.3 新广告和稀疏广告的点击率预测方法

广告和用户的信息都有长尾特性,即点击次数高或曝光次数高的广告往往是少数,绝

多数广告的点击和曝光都是稀疏的;发布大量广告的广告主只占整体的极少数,大多数的广告主仅发布少量广告.由此看出,广告数据的特点是非均匀性,存在大量稀疏数据.对于刚刚进入系统的广告而言,更是没有可参考的历史信息.同时,越来越多的网页都采用动态的方式生成,广告也以一定的速度在更新.

直接用取特征训练逻辑回归的方法对于历史数据丰富的广告数据的拟合是有效的,但无法实现对新广告和稀疏广告这些尾数据(Tail)的有限预测,可这些尾数据每年创造着数十亿美元的产值.针对这一问题,可以利用已知广告点击率(头数据),也可以建立适用于新广告和稀疏广告的点击率预测模型来解决.

利用已知广告点击率文献[20]

对于新广告,利用与其包含相同或相似项(Term)的已知广告来预测其点击率.对于一个Term,利用保护这个Term的已知广告点击率和所有已知广告的平均点击率,估算出这个Term 的点击率(TermCTR),作为逻辑回归的一个输入变量.同时,计算出相似的一组Term的点击率(RelatedTermCTR),又可以作为逻辑回归的一个输入变量.经实验证明,Term的点击率和相似Term的点击率不但可以预测缺乏历史数据广告的点击率,并且可以极大地优化已知广告点击率的预测结果(相对熵减少约13~20).文献[21]针对用户历史数据不足时的点击率预测问题,给出(基于“关键词一广告主”矩阵)层次聚类(HierarchicalClustering)方法,其中的聚类通过计算广告的文本相似度来评估.文献[22]利用基于总体决策规则模型(EnsembleofDecisionRules)来预测新的或者很少被展示的广告的CTR.

适应用新广告和稀疏广告的点击率预测模型

DeepakAgarwal等针对设计适应用新广告和稀疏广告的点击率预测模型这一问题,提出了基于层次结构的预测模型[23,24]和基于时间空间模型[25].这是一类很有代表性的方法,利用模型的特点实现对稀疏广告(包括新广告)的直接预测.

2.3 特征工程

2.3.1 特征举例

广告系统所采用的特征大概分为三类,用户特征,广告特征和上下文特征

用户特征

上下文特征

2.3.2 特征选择

以上是一般的做CRT预估会使用到的特征,想特征在现在的工业界来说并没有完整系统的方法,大部分特征的得到都要靠数据挖掘工程师们付出脑力和体力来得到。但是还是有一些办法可以用来验证特征,比如直接观察ctr,卡方检验,单特征AUC等方法。直接观察ctr是个很有效的方法,如根据投放记录,化妆品的广告在女性上面的点击率就比在男性上面的点击率高很多,说明性别这个特征在化妆品行业是有预测能力的;又如体育用品的广告在男性上面的点击率也比女性高,说明性别这个特征在体育行业也是有预测能力的,经过多个行业的验证,就认为性别这个特征可以用了。同时,实际使用中也发现,广告反馈ctr 这个特征也很有效,这个特征的意思就是当前的广告正在投放,已经投放了一部分了,这部分的点击率基本可以认为是这个广告的点击率了,也可以认为是这个广告的质量的一个体现,用来预估一个流量的ctr是很有效的。

2.3.3特征处理

离散化

反馈ctr是一个浮点数,直接作为特征是可以的,假设1号特征就是反馈ctr。对应年龄来说就不是这样了,因为年龄不是浮点数,而且年龄的20岁跟30岁这两个数字20,30大小比较是没有意义的,相加相减都是没有意义的,在优化计算以及实际计算ctr是会涉及这两个数字的大小比较的。如w.x,在w已经确定的情况下,x的某个特征的值是20,或者30,w.x的值相差是很大的,哪怕用逻辑化公式再比较,得到的值也是比较大的,但是往往20岁的人跟30岁的人对同一个广告的兴趣差距不会那么大。解决这样的情况的方法就是,每个年龄一个特征,如总共只有20岁到29岁10种年龄,就把每个年龄做一个特征,编号是从2到11(1号是广告的反馈ctr),如果这个人是20岁,那么在编号为2的特征上的值就是1,3到11的编号上就是0。这样,年龄这一类特征就有了10个特征,而且这10个特征就是互斥的,这样的特征称为离散化特征。

交叉

这样看起来就能解决上面的问题了,但是够了吗?比如一个人是20岁,那么在编号为2的特征上面,它一直都是1,对篮球的广告是1,对化妆品的广告也是1,这样训练的结果得到的编号为2的权重的意义是——20岁的人点击所有的广告的可能性的都是这个权重,这样其实是不合理的。

有意义的应该是,这个20岁的人,当广告是跟体育相关的时候,它是一个值;当广告跟保健品相关的时候,它又是一个值。这样看起来才合理。如果这个不够深刻,基于跟上面同样的道理,性别这个特征也是一样的,假如也做了上面的离散化操作,编号是12和13,12是男性,13是女性。这样的话,对于一个男性/体育广告组合来说,编号12的特征值为1,男性/化妆品的组合的编号12的特征值也是1。这样也是不合理的。

怎么做到合理呢?以上面的性别的例子来说。编号12的特征值不取1,取值为该广告在男性用户上面的点击率,如对于男性/体育广告的组合,编号12的特征的值为男性在体育广告上面点击率,这样,编号为12的特征就变成了一个浮点数,这个浮点数的相加减是有意义的。

这样的做法称为特征的交叉,现在就是性别跟广告的交叉得到的特征值。还有很多其他的方式可以进行交叉,目前工业上的应用最多的就是广告跟用户的交叉特征(编号为1的那个特征)、广告跟性别的交叉特征,广告跟年龄的交叉特征,广告跟手机平台的交叉特征,广告跟地域的交叉特征。如果做得比较多,可能会有广告主(每个广告都是一个广告主提交的一个投放计划,一个广告主可能会提交多个投放计划)跟各个特征的交叉。

连续特征变离散特征

做到的交叉的特征值就足够了吗?答案还是不一定。如编号为1的那个特征,就是广告本身的ctr,假设互联网广告的点击率符合一个长尾分布,叫做对数正态分布,其概率密度是下图(注意这个是假设,不代表真实的数据,从真实的数据观察是符合这么样的一个形状的,好像还有雅虎的平滑的那个论文说它符合beta分布)。

可以看到,大部分广告的点击率都是在某一个不大的区间内的,点击率越高的广告越少,同时这些广告覆盖的流量也少。换句话说,点击率在0.2%左右的时候,如果广告a的点击率是0.2%,广告b的点击率是0.25%,广告b的点击率比广告a高0.05%,其实足以表示广告b比广a好不少;但是点击率在1.0%左右的的时候,广告a点击率是1.0%,广告b的点击率是1.05%,并没有办法表示广告b比广告a好很多,因为在这0.05%的区间内的广告并不多,两个广告基本可以认为差不多的。也就是点击率在不同的区间,应该考虑是不同的权重系数,因为这个由广告点击率组成的编号为1的特征与这个用户对广告的点击的概率不是完全的正相关性,有可能值越大特征越重要,也有可能值增长到了一定程度,重要性就下降了。

对于这样的问题,百度有科学家提出了对连续特征进行离散化。他们认为,特征的连续值在不同的区间的重要性是不一样的,所以希望连续特征在不同的区间有不同的权重,实现的方法就是对特征进行划分区间,每个区间为一个新的特征。

具体实现是使用等频离散化方式:1)对于上面的编号为1的那个特征,先统计历史记录中每条展示记录中编号为1的特征的值的排序,假设有10000条展示记录,每个展示记录的这个特征值是一个不相同的浮点数,对所有的展示记录按照这个浮点数从低到高排序,取最低的1000个展示记录的特征值作为一个区间,排名1001到2000的展示记录的特征值作为一个区间,以此类推,总共划分了10个区间。2)对特征编号重新编排,对于排名从1到1000的1000个展示记录,他们的原来编号为1的特征转变为新的特征编号1,值

为1;对于排名是从1001到2000的记录,他们的原来编号为1的特征转变为新的特征编号2,值为1,以此类推,新的特征编号就有了1到10总共10个。对于每个展示记录来说,如果是排名1到1000的,新的特征编号就只有编号1的值为1,2到10的为0,其他的展示记录类似,这样,广告本身的ctr就占用了10个特征编号,就成为离散化成了10个特征。等频离散化需要对原有的每个特征都做,也就是原来的编号为1到13的编号,会离散化成很多的编号,如果每个特征离散化成10个,则最终会有130个特征,训练的结果w就会是一个130维的向量,分别对应着130个特征的权重。

实际的应用表名,离散化的特征能拟合数据中的非线性关系,取得比原有的连续特征更好的效果,而且在线上应用时,无需做乘法运算,也加快了计算ctr的速度。

2.4 逻辑回归模型及并行化方案

经过上一步的特征提取工作,还需要训练一个分类器,才能实现最终对一个新来的广告估计其点击率的功能,而这个分类器也不仅仅是一个单机程序那么简单,而是一个分布式的分类器程序,下面这节就重点介绍下经常应用在各种CTR预估系统中的逻辑回归模型和其并行化实现技术。

逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中,由于受到单机处理能力和效率的限制,在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进行并行化,这里主要从并行化的角度讨论LR的实现。

2.4.1 LR算法基本介绍和求解方法

LR模型中,通过特征权重向量对特征向量的不同维度上的取值进行加权,并用逻辑函

数将其压缩到0~1的范围,作为该样本为正样本的概率。逻辑函数为,曲线如图1。

图1 逻辑函数曲线

给定M个训练样本,其中Xj={xji|i=1,2,…N} 为N维的实数向量(特征向量,本文中所有向量不作说明都为列向量);yj取值为+1或-1,为分类标签,+1表示样本为正样本,-1表示样本为负样本。在LR模型中,第j个样本为正样本的概率是:

,其中W是N维的特征权重向量,也就是LR问题中要求解的模型参数。

求解LR问题,就是寻找一个合适的特征权重向量W,使得对于训练集里面的正样本,

值尽量大;对于训练集里面的负样本,这个值尽量小(或

尽量大)。用联合概率来表示:

对上式求log并取负号,则等价于:

公式(1)

公式(1)就是LR求解的目标函数。寻找合适的W令目标函数f(W)最小,是一个无约束最优化问题,解决这个问题的通用做法是随机给定一个初始的W0,通过迭代,在每次迭代中计算目标函数的下降方向并更新W,直到目标函数稳定在最小的点。如图2所示。

图2 求解最优化目标函数的基本步骤

不同的优化算法的区别就在于目标函数下降方向D t的计算。下降方向是通过对目标函数在当前的W下求一阶倒数(梯度,Gradient)和求二阶导数(海森矩阵,Hessian Matrix)得到。常见的算法有梯度下降法、牛顿法、拟牛顿法。

(1) 梯度下降法(Gradient Descent)

梯度下降法直接采用目标函数在当前W的梯度的反方向作为下降方向:

其中为目标函数的梯度,计算方法为:

公式(2)

(2) 牛顿法(Newton Methods)

牛顿法是在当前W下,利用二次泰勒展开近似目标函数,然后利用该近似函数来求解目标函数的下降方向:。其中Bt为目标函数f(W)在Wt处的海森矩阵。这个搜索方向也称作牛顿方向。

(3) 拟牛顿法(Quasi-Newton Methods):

拟牛顿法只要求每一步迭代中计算目标函数的梯度,通过拟合的方式找到一个近似的海

森矩阵用于计算牛顿方向。最早的拟牛顿法是DFP(1959年由W. C. Davidon提出,并由R. Fletcher和M. J. D. Powell进行完善)。DFP继承了牛顿法收敛速度快的优点,并且避免了牛顿法中每次迭代都需要重新计算海森矩阵的问题,只需要利用梯度更新上一次迭代得到的海森矩阵,但缺点是每次迭代中都需要计算海森矩阵的逆,才能得到牛顿方向。BFGS是由C. G. Broyden, R. Fletcher, D. Goldfarb和D. F. Shanno各自独立发明的一种方法,只需要增量计算海森矩阵的逆H t=B t-1,避免了每次迭代中的矩阵求逆运算。BFGS 中牛顿方向表示为:

L-BFGS(Limited-memory BFGS)则是解决了BFGS中每次迭代后都需要保存N*N阶海森逆矩阵的问题,只需要保存每次迭代的两组向量和一组标量即可:

在L-BFGS的第t次迭代中,只需要两步循环既可以增量计算牛顿方向:

2.4.2 LR并行实现方案

由逻辑回归问题的求解方法中可以看出,无论是梯度下降法、牛顿法、拟牛顿法,计算梯度都是其最基本的步骤,并且L-BFGS通过两步循环计算牛顿方向的方法,避免了计算海森矩阵。因此逻辑回归的并行化最主要的就是对目标函数梯度计算的并行化。从公式(2)中可以看出,目标函数的梯度向量计算中只需要进行向量间的点乘和相加,可以很容易将每个迭代过程拆分成相互独立的计算步骤,由不同的节点进行独立计算,然后归并计算结果。

将M个样本的标签构成一个M维的标签向量,M个N维特征向量构成一个M*N的样本矩阵,如图3所示。其中特征矩阵每一行为一个特征向量(M行),列为特征维度(N列)。

图3 样本标签向量 & 特征向量

如果将样本矩阵按行划分,将样本特征向量分布到不同的计算节点,由各计算节点完成自己所负责样本的点乘与求和计算,然后将计算结果进行归并,则实现了“按行并行的LR”。按行并行的LR解决了样本数量的问题,但是实际情况中会存在针对高维特征向量进行逻辑回归的场景(如广告系统中的特征维度高达上亿),仅仅按行进行并行处理,无法满足这类场景的需求,因此还需要按列将高维的特征向量拆分成若干小的向量进行求解。

2.4.2.1 数据分割

假设所有计算节点排列成m行n列(m*n个计算节点),按行将样本进行划分,每个计算节点分配M/m个样本特征向量和分类标签;按列对特征向量进行切分,每个节点上的特征向量分配N/n维特征。如图4所示,同一样本的特征对应节点的行号相同,不同样本相同维度的特征对应节点的列号相同。

图4 并行LR中的数据分割

一个样本的特征向量被拆分到同一行不同列的节点中,即:

其中X r,k表示第r行的第k个向量,X(r,c),k表示X r,k在第c列节点上的分量。同样的,用W c表示特征向量W在第c列节点上的分量,即:

2.4.2.2 并行计算

观察目标函数的梯度计算公式(公式(2)),其依赖于两个计算结果:特征权重向量W t和特征向量X j的点乘,标量和特征向量X j的相乘。可以将目标函数的梯度计算分成两个并行化计算步骤和两个结果归并步骤:

①各节点并行计算点乘,计算,其中k=1,2,…,M/m,

表示第t次迭代中节点(r,c)上的第k个特征向量与特征权重分量的点乘,W c,t为第t次迭代中特征权重向量在第c列节点上的分量。

②对行号相同的节点归并点乘结果:

计算得到的点乘结果需要返回到该行所有计算节点中,如图5所示。

图5 点乘结果归并

③各节点独立算标量与特征向量相乘:

G(r,c),t可以理解为由第r行节点上部分样本计算出的目标函数梯度向量在第c列节点上的分量。

④对列号相同的节点进行归并:

Gc,t就是目标函数的梯度向量Gt在第c列节点上的分量,对其进行归并得到目标函数的梯度向量:

这个过程如图6所示。

图6 梯度计算结果归并

2.5 语义分析技术在广告系统中的应用

语义分析,wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。

对于广告系统,要使得广告系统的广告能够更高效、准确的传递给用户,就不得不深入的理解用户(如意图或者兴趣等),还有广告及上下文,在对这些目标进行理解的过程中就离不开对大量的文本和图片做语义分析。

目前在语义分析在广告业务中主要用于用户广告语义匹配,文本语义分析,图片语义理解,短串语义关联等技术。本次报告介绍主题模型(Topic Model)在广告业务中的应用,也会介绍一些图片语义分析的相关前沿技术。

2.6主题模型(Topic Model)介绍

业界最常用的主题模型有pLSA、LDA等。主题模型已经在很多方面都得到成功应用,譬如文本分类特征,相关性计算,ctr预估,精确广告定向,矩阵分解,情感分析、文本聚类、个性化推荐、网络社交主题分析等。具体来说,基于主题模型,可以计算出文本,用户的topic分布,将其当作ctr预估的特征,还可以将其当作一种矩阵分解的方法,用于降维,推荐等。Topic模型更多的适合配合其他机器学习模型做特征提取的工作,不太适合独立作为一个方法去解决某个特定问题。

2.6.1 pLSA

pLSA提出于1999年,作者是Thomas Hofman,是一种概率主题模型,pLSA将文档看成是topic的概率分布,将topic看成是词汇的概率分布。下面引用july博客中关于pLSA

生成文档的一段描述。

相关主题
文本预览
相关文档 最新文档