互联网广告的个性化推荐平台设计--相关知识

作者：kmv2145234 | 来源：互联网 | 2023-09-18 23:15

人群分类模型根据用户人群数据记录，建立人群属性分类模型，根绝用户特点，将用户标记为特定类别。据此进行精准定向服务，并进行效果评估。主要分类方法：1.采用模糊数学综合判定理论，构建关系矩阵，判定类别属性

人群分类模型

根据用户人群数据记录，建立人群属性分类模型，根绝用户特点，将用户标记为特定类别。据此进行精准定向服务，并进行效果评估。主要分类方法：

1.采用模糊数学综合判定理论，构建关系矩阵，判定类别属性的映射关系。采样真实数据，模拟真实数据分布，统计属性取值的概率分布，作为概率的估计值，另外，将广告类别的点击次数作为权重矩阵R。构建映射关系公式：

R是关系矩阵，W是出现次数矩阵，C是计算结果的类别判定矩阵。

2. 采用分类器算法构建分类模型。根据数据特点，利用数据挖掘和机器学习

相关的分类器算法，如naïve bayes，决策树，uncertain data learning，clustering algorithm，SVM，CART，adaBoost等，结合数据的分布，建立综合分类器，权衡各种分类器性能，建立综合行的人群分类模型。

用户标记人群类别后，测试合理性。进一步我们将人群分类模型不断精细化，复杂化。结合云平台和大数据，使模型达到最佳的分类效果。从而，挖掘用户兴趣，以及行为习惯。据此，我们将为用户提供个性化的定制服务。

未来，我们将尝试和高校合作，进行机器学习，模式识别等方向上的探索和研究。争取进一步深入挖掘大数据价值。

个性化推荐平台

我们的目标是建立个性化推荐平台，基于长尾理论（longtail），通过构建用户的兴趣模型，将有效信息从海量数据中提取出来，提供给用户，满足用户的信息需求，推荐相关信息（包括活动信息，可能购买的物品推荐，广告）。

目前业界的推荐技术有很多，主要有：

（1）contextad：google AdSense，根据用户正在浏览的网页内容，推荐与网页内容相关ad

（2）searchad：Google AdWords和百度，分析用户当前搜索记录，判断目的，推荐与目的相关ad

（3）personalizingdisplay ad：雅虎，根据用户历史行为，找出兴趣，在用户浏览某个网站时，展示兴趣相关广告。

（4）协同过滤：根据用户的历史行为，建立兴趣模型，推荐相关性高的物品信息，分为基于物品，基于项集等等。如亚马逊，hulu，neflix等公司使用

（5）社会化网络模型推荐（如facebook，微博，人人发现兴趣共性，建立兴趣模型推荐信息）。

未来我们将尝试在平台上实现协同过滤的推荐方式。通过用户行为数据构建兴趣模型，并将推荐信息有效分类，实现推荐。目前，我们正在通过多种方式获得大量网络数据，将数据有效组织在一起，识别同一用户，针对每一个用户建立唯一信息集。构建具有处理复杂大数据能力的DMP平台，合理的存储和使用大数据，为推荐系统提供后台支持。

未来，我们将实现多种复合的推荐算法，采用综合性的推荐方案，将平台设计成为多渠道，多功能的复合型数据应用平台。

大数据工作

大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。项目平台的目的是让大数据更好的发挥价值，将提供服务变为可能。

机遇与挑战：

1.数据收集和提取的合法性。数据采集要多渠道，多来源，但要具有合法性，不能暴露用户隐私。

2.大数据要存储成合理的组织结构，方便使用，才能有效的发发挥大数据价值，实现服务功能。这就是平台中DMP的设计目标。

3.领域专家建模。针对大数据的挖掘，单纯的数学和计算机背景是不够的，还需要深入的领域背景知识，才能构建合理模型。目前，国内公司重数据，轻建模，很多工作其实不合理，更加毫无章法可循。而很多研究机构缺少领域的业务知识，不能面向实际应用，建模缺乏目的性，应用性。

我们的工作:

1.数据收集。我们将利用自身的优势，合法的收集各种信息。目前，我们可以利用各种产品收集的互联网用户行为信息，监测日志的数据达到PB量级。而我们同时，将采用合作，主动爬取等方式，获得其它网站的公开信息，如新浪微博，淘宝，腾讯，百度等。将数据整合成为统一形式，识别同一用户信息，最终可以建立全网的用户行为信息，形成网络综合行为记录信息。

2.DMP平台的数据服务。针对获取的大数据集，利用合理的组织结构存储，利用云平台工具，如，hive，hbase，storm，spark，drill，impala等，以及相关数据处理工具，完成ETL,OLAP等工作，管理数据完成相关计算，使平台能提供多样化的数据服务。

3.大数据挖掘。数据分析的前提是数据分布，比如自然界广泛存在的两种数学分布：幂次法则分布和高斯分布。很多数据挖掘理论必须要求数据满足一定的分布条件（如高斯或拉普拉斯分布），否则不能使用。而大数据复杂度高，难以估计出分布。所以我们将结合大数据的特点，进行数据挖掘的研究。大数据特点有海量性（Volume）、多样性（Variety）、快速性（Velocity）、价值化（Value）这4V特征。目前挖掘工作方向分两个：

(1)面向宏观，从大量数据中通过数据分析方法找到总体规律与趋势，一般用统计学知识构建相关计算模型，计算相关结果，得出综合性的结论.

(2)面向微观，从数据中分析出个别数据的特征规律,预测个别数据可能的行为规律，并指定决策。

大数据研究不仅需要良好的理论知识，还需要丰富的领域背景知识。我们将结合自身优势研究和探索大数据的挖掘工作。

研究过程:

第一步、领域专家讨论、预建模。
第二步、小范围采集、分析
第三步、领域专家讨论、修正模型
第四步、大范围采集、分析
第五步、得出结果
第六步、验证
第七步、应用

最终目标是让大数据成为条件，而不再是负担。挖掘大数据价值，进行全网信息资源整合，为互联网客户提供服务而不是广告。建立健康，有效的互联网数据生态环境。

兴趣模型和社会网络分析

基于大数据收集和数据挖掘技术，我们将开展兴趣模型的构建以及社会网络分析相关工作。

通过收集的用户大数据，采用理论和背景知识相结合，挖掘出用户在互联网上的行为信息，找到用户的兴趣特征，构建合理的用户兴趣模型。主要方法有TF/IDF，PCA，svm，传统数据挖掘中分类器算法，如决策树，贝叶斯，以及聚类算法，如k-means等。

最终，计算各项衡量指标，验证兴趣模型的可用性。从而，依据用户的兴趣，提供相关信息服务，方便用户的生活。当然，也可以实现定向广告投放，依据用户兴趣模型，找出相关性最高的广告，提高广告CTR，实现价值最大化，常用方法有logistic回归模型，泊松分布等等。

同时，基于目前行业内已存在的社会网络分析技术，我们将结合微博现有的社会网络分析模型，同我们自身DMP内的大数据特点相结合，进行社会网络分析，如舆情分析，竞争情报分析，人际传播问题，小世界理论，六度空间分割理论，流动关系，相似关系，距离关系，等等。通过社会网络分析，更好的发现用户之间的关联性，用户的网络行为和兴趣分布，甚至，发现信息在互联网的传播方式，通过何种途径，达到何种规模。从而可以建立一个信息传媒渠道，帮助商品做推广。

RTB广告系统设计

实时竞价模型RTB（RealTime Bidding）：根据展示位（SSP）的价格估计，实时发出展示请求，买方（DSP）实时竞拍出价，双方通过adexchange平台交互完成，最终由出价第二个高的用户拍得，并展示广告。售卖的不仅仅是传统意义上的广告位，而是访问这个广告位的具体用户，根据根据访问用户的兴趣爱好，甚至包括年龄大小,地域以及网上的浏览习惯，对什么样的产品感兴趣，系统推荐相关度高的广告，投其所好就能产生最大的收益。RTB强调精准投放，放大了网络广告的指向性和精准度，使需求方的效益最大化。

RTB最大突破莫过于让广告主购买“受众”，广告通过“竞价”购买，比如某一个用户可能是两个广告投放的目标人群，则二者必须出价竞买，多人同时出价，则出价第二高的获得展示机会。以后广告主将可以作出以下的投放要求“25-34岁的妇女、生活在亚洲、对奢侈品时尚服装抱有浓厚兴趣、在过去2个月曾经进行在线购买、现正关注2012的春/夏季商品”。通过RTB投放广告﹐广告主不再需要考虑广告渠道与位置，因为通过RTB你的广告会精确的展示在你的目标客户眼前。

目前Google的AdWords已经接入RTB，还有百度，腾讯，阿里等等。

推荐阅读

facebook
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
python
一份来自清华的数据分析笔记，请查收！

之前发过很多数据分析的文章，收到不少好评，但也有一些困惑：入门数据分析该学哪些知识点？该看哪些书？是从Pyth ... [详细]

蜡笔小新 2023-10-16 12:27:43
java
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
cpython
开发笔记:Python之路第一篇：初识Python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python之路第一篇：初识Python相关的知识，希望对你有一定的参考价值。Python简介& ... [详细]

蜡笔小新 2023-10-17 18:58:48
cpython
PRML读书会第十四章 Combining Models（committees，Boosting，AdaBoost，决策树，条件混合模型）...

主讲人网神（新浪微博:豆角茄子麻酱凉面）网神(66707180)18:57:18大家好，今天我们讲一下第14章combiningmodel ... [详细]

蜡笔小新 2023-10-17 17:04:24
cpython
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
python
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
php
大数据学习入门难，给初学者支招

大数据学习入门难，给初学者支招 ... [详细]

蜡笔小新 2023-10-15 08:30:02
php
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
python
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
python
数据可视化技术的应用，行业优秀案例分享

数据可视化并不是什么新型技术，二十世纪50年代电子计算机图形学的初期，就可以利用软件建立出了第一批图形图表。伴随着近几年来大数据备受关注， ... [详细]

蜡笔小新 2023-10-14 13:12:48
ip
sqlserver触发器写法_技术书籍荐读不可错过的SQL Server数据库书单来袭！

朱熹读书之法，在循序渐进，熟读而精思。2019年转眼就要过去了，这一年，你读了哪些书，得到了哪些收获ÿ ... [详细]

蜡笔小新 2023-10-14 10:40:34
ip
未来几年，商业智能的大趋势介绍

1.数据科学家将消亡熟悉数据分析将是普通业务人员的基本技能，能利用好数据价值去做规划的企业组织将更成功，忽略数据重要性的将被逐渐淘汰。2.云端商业智 ... [详细]

蜡笔小新 2023-10-14 10:06:14
python
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46
python
搞定问题描述的5W2H法是什么

作者：拿破仑的DO君来源：数据氧气数据氧气的第27篇原创，预计阅读6min作为职场人士，我们在做分析以及工作时，常常在想如何快速解决问题。可能会忽略一点，解决问题中基础很重要，是对 ... [详细]

蜡笔小新 2023-10-13 13:12:00