基于腾讯8亿级用户画像,百亿级访问流量,百亿级的社交网络关系链等数据,在考虑用户体验的同时如何发挥大数据的价值?个性化推荐是一个不错的应用方向。本次演讲来自腾讯数据中心数据挖掘研究员肖磊,内容包括:腾讯精准推荐及其在社交广告,电商推荐,视频推荐等场景中的应用,面临的问题和挑战,以及尝试的解决方案。
【面临的问题和挑战】
腾讯的大数据现状:
- 800 mil | 8亿活跃用户
- 100 bn | 1000亿用户关系链
- 100 PB | 数据仓库存储100PB+
- ...…
腾讯精准推荐:视频推荐、电商推荐、广告推荐
推荐中的 3P:用户、ITEM、场景
1. 用户:
- 点击数据非常稀疏:大部分用户,一个月内都没有点击;平均1000次曝光,点击 1~8。
- 曝光数据偏态(以某个广告位为例):40%的用户,一天内,曝光 = 1;80%的用户,一天内,曝光 < 3
2. ITEM(广告):
- 素材内容对点击影响很大(如图:两个广告展示的点击率相差8倍)
- 新广告的冷启动:每天新增几十万新广告,没有用户反馈信息,自身信息匮乏。
3. 场景(广告位 )
- 上下文较少:没有明显的意图带入;没有固定的页面内容
- 广告位众多:网页、客户端、手机等
挑战:
- 50 ms | 用户体验,响应时延<50毫秒
- 10 bn | 100亿推荐请求
- 3~9 | 广告生命周期仅有3-9天左右
- 99% | 99%以上曝光无点击
- 1‰ | FACEBOOK平均点击率小于1‰
【解决之道】
解决之道3S:数据、算法、系统
1. 数据
用户画像
ITEM的图像特征
- 图像特征:亮度、饱和度、色彩度、对比度、尖锐度等
- 图像相似度:Item_id vs img_id
示例:广告图片相似度
2. 算法 - 运用之妙 知行合一
示例:泰囧的推荐结果
3. 系统 - 流式计算,实时计算
【两大核心数据平台】
1. 腾讯分布式数据仓库(TDW)
- 基于开源hadoop和hive进行大量优化和改造
- 单集群4400台(业界顶级规模),存储容量100PB
关键技术
- Hadoop Master(NN/JT)节点实现并行扩展,支持灾难时自动热切
- Hive&Pig功能丰富,支持传统数据库的标准语法,提供可视化集成开发环境
- Lhotse一站式任务管理,每天支撑10 HADOOP万级任务调度,可平行扩展
2. 实时推荐平台(APOLLO)
- 泛平台支撑,满足腾讯各类个性化推荐需求
- 海量数据在线处理,日推荐请求300亿,实时计算30000亿
- 算法精准,平台高效,毫秒级响应
关键技术
- 多种算法模型灵活适配,LR、RDT、 SVD等
- 简单高效的扩展能力,数据动态伸 缩,上层无感知
- 多副本数据容灾,服务可用度 99.995%以上
- 多级缓存技术,有效解决分布式计算 的数据CoLocation问题
--
讲师简介:肖磊,腾讯数据中心数据挖掘研究员。2004年毕业入职腾讯,一直从事数据相关的工作;关注大数据环境下的数据挖掘,个性化精准推荐相关领域。
最后附上小编送给讲师肖磊的课堂笔记。也请关注小编的微信公众号:@shenzhenware
分享到:
相关推荐
该文档来自2013中国大数据技术大会,腾讯精准推荐中心广告推荐负责人薛伟在大数据应用论坛的演讲。广点通是基于腾讯大社交平台的效果广告营销产品,在腾讯大社交平台的海量用户积累的基础上,运用大数据技术,进行...
物联网大数据应用 目录 大数据产业链 大数据技术 物联网数据应用思考 有数据 无数据 工具 服务 信息服务 个性化需求 …… 产品优化 精准配对 数据开放平台 数据应用 大 数 据 产 业 链 公 司 ( 软 件) 数据存储...
在面对2018年医药行业互联网营销与企业服务的挑战时,腾讯大数据提出了一套综合性的解决方案,旨在通过深度数据分析和智能化工具助力企业实现精准营销与效率提升。本解决方案文档《2018 医药行业互联网营销&企业服务...
大数据的ppt: 翟艳堂:腾讯大规模Hadoop集群实践 俞晨杰:LinkedIn大数据应用和Azkaban ...薛伟:腾讯广点通——大数据之上的实时精准推荐 夏俊鸾:Spark——高速大数据分析平台。。。。。。。。。。还有几个,太多了
再往上就是百度、腾讯、阿里巴巴等大数据应用服务公司,需要增加数据分析的效用。 大数据市场前景分析报告全文共19页,当前为第2页。大数据市场前景分析报告全文共19页,当前为第2页。大数据产业市场规模分析 大数据...
大数据应用行业投资分布 2015年,我国政府大数据应用份额依然占比最高,达到11.38%;其次是电信和金融行业,份额分别为9.35%和8.90%;电商、医疗和能源行业紧随其后,三者占比分别为7.92%、7.63%和7.50%。其余行业...
其中,互联网企业无疑是大数据应用的领跑者,除了 当前事件中所参与的腾讯、阿里、京东、顺丰等几方,代表了电商、物流、云服务等产 业外,还有一股力量不容忽视——布局大数据的上市公司。 记者梳理资料发现,上市...
有效利用"大数据"全文共7页,当前为第1页。有效利用"大数据"全文共7页,当前为第... 4、如何应用大数据实现精准营销的分析 1、针对性营销 大数据可以提供某些企业交易特点和资金需求特点,可以帮助业务部门对企业的资金
接着引出微博广告的热门,从微博平台的火热到微博广告的精准投放来 论述微博广告的应用价值。同时从微博广告的营销模式中挖掘最具代表性的互动营销来 进行分析,如何通过大数据的分析与洞察来与消费者进行最有效的...
借鉴"塔吉特"的先例,我们可以利用"大数据"技术收集分析,就可预测需求、供给和顾客习惯等,做到精准采购、精准投放,达到利益放大的效果。 大数据学习心得全文共8页,当前为第3页。大数据学习心得全文共8页,当前为...
借鉴"塔吉特"的先例,我们可以利用"大数据"技术收集分析,就可预测需求、供给和顾客习惯等,做到精准采购、精准投放,达到利益放大的效果。 大数据讲座学习心得全文共2页,当前为第2页。 大数据讲座学习心得全文共2页...
借鉴"塔吉特"的先例,我们可以利用"大数据"技术收集分析,就可预测需求、供给和顾客习惯等,做到精准采购、精准投放,达到利益放大的效果。 大数据学习心得(1)全文共8页,当前为第3页。大数据学习心得(1)全文共8页,...
移动互联网时代,推送通知开始逐渐成为人们获取信息的一个主要渠道。推送是大数据应用的一个良好载体,推送服务本身可以为大数据分析带来更多的原始数据,大数据反过来可以让推送变得更精准,实现更高效的信息流动。
借鉴"塔吉特"的先例,我们可以利用"大数据"技术收集分析,就可预测需求、供给和顾客习惯等,做到精准采购、精准投放,达到利益放大的效果。 大数据讲座学习心得(1)全文共2页,当前为第2页。 大数据讲座学习心得(1)...
为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查询计算,目前腾讯大数据拥有超过200台的Spark集群,并独立维护Spark和...
共分为资源层,资源管理层,应用支撑层,大数据平台,安全管理体系,以及丰富的技术应用。其中,腾讯天幕作为安全管理体系,结合腾讯安全平台部多年的腾讯全线业务安全运营经验和核心能力沉淀,提出了一种基于“3+2+...
理的成本更低,模型优化也更容易,更高效地提供精准服务。希望我们此次的研究报告,可以为行业的大模型的发展带来更多的帮助,为行业大模型的技术和应用提供更有力的支撑,满足企业和市场的需求。
9.大数据应用 爱奇艺数据中台服务化建设 基于大数据技术构建爱奇艺全链路监控平台 bilibili-数据湖的初步探索与实践落地 Doris 在小米数据中台中的应用 Impala 3.4在网易的优化实践 10.广告算法 阿⾥妈妈定向⼴告...
基于数据湖的精准广告投放系统技术解密 基于数据湖构建云上的数据分析架构 基于Serverless的USQL数据湖分析实践 借助 AWS Lake Formation 构建云上数据湖 亚马逊云科技:数据湖解决方案 易经布道数据湖 云端的数据湖...