热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

互联网广告的个性化推荐平台设计--相关知识

人群分类模型根据用户人群数据记录,建立人群属性分类模型,根绝用户特点,将用户标记为特定类别。据此进行精准定向服务,并进行效果评估。主要分类方法:1.采用模糊数学综合判定理论,构建关系矩阵,判定类别属性

人群分类模型

根据用户人群数据记录,建立人群属性分类模型,根绝用户特点,将用户标记为特定类别。据此进行精准定向服务,并进行效果评估。主要分类方法:

1.采用模糊数学综合判定理论,构建关系矩阵,判定类别属性的映射关系。采样真实数据,模拟真实数据分布,统计属性取值的概率分布,作为概率的估计值,另外,将广告类别的点击次数作为权重矩阵R。构建映射关系公式:

R是关系矩阵,W是出现次数矩阵,C是计算结果的类别判定矩阵。

 

2. 采用分类器算法构建分类模型。根据数据特点,利用数据挖掘和机器学习

相关的分类器算法,如naïve bayes,决策树,uncertain data learning,clustering algorithm,SVM,CART,adaBoost等,结合数据的分布,建立综合分类器,权衡各种分类器性能,建立综合行的人群分类模型。

用户标记人群类别后,测试合理性。进一步我们将人群分类模型不断精细化,复杂化。结合云平台和大数据,使模型达到最佳的分类效果。从而,挖掘用户兴趣,以及行为习惯。据此,我们将为用户提供个性化的定制服务。

未来,我们将尝试和高校合作,进行机器学习,模式识别等方向上的探索和研究。争取进一步深入挖掘大数据价值。



 

个性化推荐平台

我们的目标是建立个性化推荐平台,基于长尾理论(longtail),通过构建用户的兴趣模型,将有效信息从海量数据中提取出来,提供给用户,满足用户的信息需求,推荐相关信息(包括活动信息,可能购买的物品推荐,广告)。

目前业界的推荐技术有很多,主要有:

(1)contextad:google AdSense,根据用户正在浏览的网页内容,推荐与网页内容相关ad

(2)searchad:Google AdWords和百度,分析用户当前搜索记录,判断目的,推荐与目的相关ad

(3)personalizingdisplay ad:雅虎,根据用户历史行为,找出兴趣,在用户浏览某个网站时,展示兴趣相关广告。

(4)协同过滤:根据用户的历史行为,建立兴趣模型,推荐相关性高的物品信息,分为基于物品,基于项集等等。如亚马逊,hulu,neflix等公司使用

(5)社会化网络模型推荐(如facebook,微博,人人发现兴趣共性,建立兴趣模型推荐信息)。

未来我们将尝试在平台上实现协同过滤的推荐方式。通过用户行为数据构建兴趣模型,并将推荐信息有效分类,实现推荐。目前,我们正在通过多种方式获得大量网络数据,将数据有效组织在一起,识别同一用户,针对每一个用户建立唯一信息集。构建具有处理复杂大数据能力的DMP平台,合理的存储和使用大数据,为推荐系统提供后台支持。

未来,我们将实现多种复合的推荐算法,采用综合性的推荐方案,将平台设计成为多渠道,多功能的复合型数据应用平台。

 

推荐系统评估工作

推荐系统评估是一项专业度高,难度大的工作。常用的评分指标有RMSE(均方根误差),MAE(平均绝对误差)。但只通过评分标准很难估量系统优劣。目前常用方法:

(1)评测指标:重要指标(没有之一)是预测准确度。比如,判断用户买java书,推荐后发生购买行为。有直接结果反馈信息,方便通过离线计算出结果。但其衡量也不全面,比如例子中,用户可能早打算买java书,无论是否推荐,都将购买。而这个推荐行为没有让用户买更多的书,仅是让原来必将发生的行为在此刻发生,推荐结果对用户不新颖,没能增加潜在购买人数。所以这属于失败的推荐。

除了上述共同指标,不同领域有各自不同的评测指标,如广告推荐系统通常使用ROI,CTR,CR等。现实,谷歌的免费转换跟踪工具可以让你看到哪些关键字和广告的效果最好,时间和资源获得了最高价值。将广告预算聚焦在高效的关键词上。而我们应该将广告预算聚焦在广告内容上。

(2)用户满意度调查:上线测试,抽样用户保持用户真实分布,在线收集用户满意度反馈。保持双盲实验,不让执行人员和用户知道测试目标。这样做的优点是反馈信息真实有效,直接反应用户主观感受。缺点是成本太高,无法组织大规模测试用户,而且造成用户负担,降低用户体验,如果雇佣用户完成测试,代价会非常大。

(3)划分AB组,完成对照实验。推荐系统上线,切分流量,对老系统和新系统进行对照测试,直接比较性能。这样做效果直接,但设计和实现过程复杂,造成人力成本投入太高,而且实验多方面因素都要考虑到,试验环境和条件比较复杂,比如用户要选择独立具有可参照性的,但相互影响的因素是不可避免的。

(4)离线实验:这是高校等研究机构的科研方法,采样数据集模拟数据真实分布,作为训练数据集。训练模型后,利用十重交叉验证模型性能。(缺点:缺少商业指标,CTR,TR计算不出,只从理论上验证,不能衡量真实的商业价值)。

总之,系统评估,要全面的衡量三方利益,比如推荐系统中,三个参与者分别是用户、物品供应商、推荐系统的所有者)。要设法收集高质量反馈,增加用户交互。从不用角度,不同指标如准确度,覆盖度,信任度,支持率,透明度等等。

此外模型评估的标准方案为(KDD cup 2012评估方案)

–效果评估:提升CTR,转化率TR,ROI –AUC评估:绘制ROC曲线,分析准确率 –MAE(Maximum Average Error)/MSE(Mean squared error)误差估计

 

 

大数据工作

大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。项目平台的目的是让大数据更好的发挥价值,将提供服务变为可能。

机遇与挑战:

1.数据收集和提取的合法性。数据采集要多渠道,多来源,但要具有合法性,不能暴露用户隐私。

2.大数据要存储成合理的组织结构,方便使用,才能有效的发发挥大数据价值,实现服务功能。这就是平台中DMP的设计目标。

3.领域专家建模。针对大数据的挖掘,单纯的数学和计算机背景是不够的,还需要深入的领域背景知识,才能构建合理模型。目前,国内公司重数据,轻建模,很多工作其实不合理,更加毫无章法可循。而很多研究机构缺少领域的业务知识,不能面向实际应用,建模缺乏目的性,应用性。

我们的工作:

1.数据收集。我们将利用自身的优势,合法的收集各种信息。目前,我们可以利用各种产品收集的互联网用户行为信息,监测日志的数据达到PB量级。而我们同时,将采用合作,主动爬取等方式,获得其它网站的公开信息,如新浪微博,淘宝,腾讯,百度等。将数据整合成为统一形式,识别同一用户信息,最终可以建立全网的用户行为信息,形成网络综合行为记录信息。

2.DMP平台的数据服务。针对获取的大数据集,利用合理的组织结构存储,利用云平台工具,如,hive,hbase,storm,spark,drill,impala等,以及相关数据处理工具,完成ETL,OLAP等工作,管理数据完成相关计算,使平台能提供多样化的数据服务。

3.大数据挖掘。数据分析的前提是数据分布,比如自然界广泛存在的两种数学分布:幂次法则分布和高斯分布。很多数据挖掘理论必须要求数据满足一定的分布条件(如高斯或拉普拉斯分布),否则不能使用。而大数据复杂度高,难以估计出分布。所以我们将结合大数据的特点,进行数据挖掘的研究。大数据特点有海量性(Volume)、多样性(Variety)、快速性(Velocity)、价值化(Value)这4V特征。目前挖掘工作方向分两个:

(1)面向宏观,从大量数据中通过数据分析方法找到总体规律与趋势,一般用统计学知识构建相关计算模型,计算相关结果,得出综合性的结论.

(2)面向微观,从数据中分析出个别数据的特征规律,预测个别数据可能的行为规律,并指定决策。

大数据研究不仅需要良好的理论知识,还需要丰富的领域背景知识。我们将结合自身优势研究和探索大数据的挖掘工作。

研究过程:

第一步、领域专家讨论、预建模。
第二步、小范围采集、分析
第三步、领域专家讨论、修正模型
第四步、大范围采集、分析
第五步、得出结果
第六步、验证
第七步、应用

最终目标是让大数据成为条件,而不再是负担。挖掘大数据价值,进行全网信息资源整合,为互联网客户提供服务而不是广告。建立健康,有效的互联网数据生态环境。

 

兴趣模型和社会网络分析

基于大数据收集和数据挖掘技术,我们将开展兴趣模型的构建以及社会网络分析相关工作。

通过收集的用户大数据,采用理论和背景知识相结合,挖掘出用户在互联网上的行为信息,找到用户的兴趣特征,构建合理的用户兴趣模型。主要方法有TF/IDF,PCA,svm,传统数据挖掘中分类器算法,如决策树,贝叶斯,以及聚类算法,如k-means等。

最终,计算各项衡量指标,验证兴趣模型的可用性。从而,依据用户的兴趣,提供相关信息服务,方便用户的生活。当然,也可以实现定向广告投放,依据用户兴趣模型,找出相关性最高的广告,提高广告CTR,实现价值最大化,常用方法有logistic回归模型,泊松分布等等。

同时,基于目前行业内已存在的社会网络分析技术,我们将结合微博现有的社会网络分析模型,同我们自身DMP内的大数据特点相结合,进行社会网络分析,如舆情分析,竞争情报分析,人际传播问题,小世界理论,六度空间分割理论,流动关系,相似关系,距离关系,等等。通过社会网络分析,更好的发现用户之间的关联性,用户的网络行为和兴趣分布,甚至,发现信息在互联网的传播方式,通过何种途径,达到何种规模。从而可以建立一个信息传媒渠道,帮助商品做推广。

 

RTB广告系统设计

       实时竞价模型RTB(RealTime Bidding):根据展示位(SSP)的价格估计,实时发出展示请求,买方(DSP)实时竞拍出价,双方通过adexchange平台交互完成,最终由出价第二个高的用户拍得,并展示广告。售卖的不仅仅是传统意义上的广告位,而是访问这个广告位的具体用户,根据根据访问用户的兴趣爱好,甚至包括年龄大小,地域以及网上的浏览习惯,对什么样的产品感兴趣,系统推荐相关度高的广告,投其所好就能产生最大的收益。RTB强调精准投放,放大了网络广告的指向性和精准度,使需求方的效益最大化。

RTB最大突破莫过于让广告主购买“受众”,广告通过“竞价”购买,比如某一个用户可能是两个广告投放的目标人群,则二者必须出价竞买,多人同时出价,则出价第二高的获得展示机会。以后广告主将可以作出以下的投放要求“25-34岁的妇女、生活在亚洲、对奢侈品时尚服装抱有浓厚兴趣、在过去2个月曾经进行在线购买、现正关注2012的春/夏季商品”。通过RTB投放广告﹐广告主不再需要考虑广告渠道与位置,因为通过RTB你的广告会精确的展示在你的目标客户眼前。

目前Google的AdWords已经接入RTB,还有百度,腾讯,阿里等等。




推荐阅读
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • 2018深入java目标计划及学习内容
    本文介绍了作者在2018年的深入java目标计划,包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中,作者对jvm的学习有一定了解,并计划通读《jvm》一书。此外,作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ... [详细]
  • 腾讯安全平台部招聘安全工程师和数据分析工程师
    腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析,提供安全测试技术支持;数据分析工程师负责安全产品相关系统数据统计和分析挖掘,通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理,精通Web漏洞,熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 开发笔记:Spark Java API 之 CountVectorizer
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了SparkJavaAPI之CountVectorizer相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 一份来自清华的数据分析笔记,请查收!
    之前发过很多数据分析的文章,收到不少好评,但也有一些困惑:入门数据分析该学哪些知识点?该看哪些书?是从Pyth ... [详细]
  • bat大牛带你深度剖析android 十大开源框架_请收好!5大领域,21个必知的机器学习开源工具...
    全文共3744字,预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]
  • 大数据学习入门难,给初学者支招 ... [详细]
  • 探索MLlib机器学习
    公众号后台回复关键词:pyspark,获取本项目github地址。MLlib是Spark的机器学习库,包括以下主要功能。实用工具ÿ ... [详细]
  • Hadoop——Hive简介和环境配置
    一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎,它将SQL转译成MapReduce作业,并 ... [详细]
  • 数据可视化技术的应用,行业优秀案例分享
    ​数据可视化并不是什么新型技术,二十世纪50年代电子计算机图形学的初期,就可以利用软件建立出了第一批图形图表。伴随着近几年来大数据备受关注, ... [详细]
  • sqlserver触发器写法_技术书籍荐读不可错过的SQL Server数据库书单来袭!
    朱熹读书之法,在循序渐进,熟读而精思。2019年转眼就要过去了,这一年,你读了哪些书,得到了哪些收获ÿ ... [详细]
author-avatar
kmv2145234
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有