腾讯广点通产品精品PPT课件
- 格式:pptx
- 大小:6.76 MB
- 文档页数:28
广点通背后的大数据技术秘密(附PPT)12月14日,腾讯广点通高级研究员靳志辉在2014中国大数据技术大会上发表演讲,题为《Peacock: 大规模主题模型及其在腾讯业务中的应用》。
腾讯广点通高级研究员靳志辉(Rickjin)所在的广点通部门,承接的流量一天接近150亿,他希望用技术帮助腾讯更好地处理这些流量,具体而言就是通过大规模主题模型学习系统Peacock找出用户在网络数据深层的密码。
“我们觉得互联网需要挖掘长尾的语义,主题模型能够突破传统处理的一些限制挖掘数据里面深层的隐含的语义。
以下为作者演讲实录。
大家好,我来自腾讯的效果广告平台部,参与开发的广告平台是广点通,广点通目前是腾讯最大的效果广告平台,每天承接的流量接近150亿PV,未来其实应该会达到200亿PV 的流量,这是非常海量的流量。
作为技术人员,我们在腾讯的梦想就是希望腾讯变成更加技术型的公司。
我们团队在广告部门所负责的主要工作是各种机器学习工具的开发,以及利用机器学习工具处理腾讯的用户数据挖掘。
之前互联网广告业务有两大机器学习系统,第一大系统Logistic Regression,广泛用于广告点击率预估;第二大系统就是隐含主题建模(Latent Topic Model)。
这两大系统早期都是由谷歌推动的,然后传播到国内的各个互联网公司。
当然,现在由于深度学习的兴起,最近广告业务中又增加了一套基于DNN 的系统。
在隐含主题模型方向上,我们从2010 年开始就不断的做一些探索,我今天要讲的Peacock 系统就是我们团队在主题模型建模上的工作。
今天的报告主要分成如下几个部分:我先Demo一下我们Peacock系统是如何工作的,随后简单介绍一下主题模型的背景,接着介绍Peacock是怎么来实现大规模并行计算的,最后我们讲一下主题模型在腾讯业务中的应用。
先来讲几个例子。
用户在网络上的行为会留下很多的数据,其中最典型是一些文本数据,你搜索的一些文章,你发的微博,我们通过自然语言处理技术理解这些词。