热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

SQLServer数据挖掘系列(一)-探讨微软数据挖掘理念"全员BI"

最近看了很多关于数据挖掘的资料,在这里谈谈我对数据挖掘的一些理解,以及微软的数据挖掘理念。数据挖掘可以视为OLAP的补充性技术。OLAP经常为我们提供决策支持,或者为了证明某个假设而提供数据。而数据挖

最近看了很多关于数据挖掘的资料,在这里谈谈我对数据挖掘的一些理解,以及微软的数据挖掘理念。

数据挖掘可以视为OLAP的补充性技术。OLAP经常为我们提供决策支持,或者为了证明某个假设而提供数据。而数据挖掘则用在对数据没有确定假设的情况下。例如:可以使用OLAP多维数据集检验在特定时间段内购买某项产品的客户都具有哪些特征。具体来说,可以证明地区在北京的客户在2011年10月购买汽车的时候,选择红色车的比例是选择黑色车比例的两倍。可以使用数据挖掘技术自动将与购买有关的因子分解出来或分组,这样决策人员可以将客户划分为“汽车购买者”和“非汽车购买者”两类。我们可以对分组做进一步的研究,发现“汽车购买者”按优先级排列具有以下相关特征:家庭用户与非家庭用户、已婚与未婚等等。另一个利用数据挖掘技术比较多的场景是:业务需求要求对数据集中的一个或多个目标值的未来情况作出预测。例如:对销售率的预测,预计未来一段时间内商品销售的数量等等。

在这里,我想结合微软的SQLServer Analysis Service(SSAS),来和大家一起讨论数据挖掘结构这一“多彩”的世界。在SSAS当中包含有一套数据挖掘的工具,这套工具向最终用户提供了在指定的数据子集上发现模式和趋势的功能。源数据可以是关系型的,也可以是多维的。可以只查看在数据层面上应用数据挖掘技术所得到的结果,并用这些结果作为业务决策的基础。也可以使用挖掘的结果作为处理新数据的基础。微软通常将SSAS中的数据挖掘功能称作为“预测分析”,因为这套工具可以作为企业或组织积极认识其数据的一种方式。例如,根据数据聚类分析的结果设计或优化我们的营销策略。还可以利用这个分析的结果,向经过验证的模型注入新的数据,从而协助预测未来的值。数据挖掘是SSAS多维数据集的补充,多维数据集通常用来验证结果,一般是用来帮助我们解决“我们认为这件事情发生了,数据是否支持我们的观点?”这类问题。数据挖掘则用来帮助我们解决的是“将会发生什么?”这样的问题,举一个比较好理解的例子就是如果公司购买了竞争数据的时候,数据挖掘能够帮助我们分析“如果进入这类新业务会怎样?”“如果在这些地方开展业务会如何”这类问题。

微软的愿景是能够将BI以及数据挖掘变得更易实现,将结果变得更方便用户理解。数据挖掘可能是实际操作起来最有挑战性的一类数据分析解决方案,因为它需要深入理解所使用的各种挖掘算法。微软打造“人人BI”的理念,也扩展到了数据挖掘的领域,Visual Studio当中的BusinessIntelligence Development Studio(BIDS)提供的工具将数据结构的创建工作简化了很多,如果我们以前接触过BIDS的话,就像平时操作OLAP多维数据集一样,数据挖掘结构也可以通过BIDS的向导来创建,并且还有其他工具可以验证指定挖掘模型的准确性,帮助我们选择最合适的数据挖掘算法。最终用户也会从以各种方式呈现的更有意义的结果中受益。在BIDS和(SQL Server Management Studio)SSMS中都包含许多数据挖掘模型的查看器,可以针对不同的目标群体对数据挖掘的结果进行丰富的展现,我们还可以将数据挖掘集成到OfficeExcel中,以及通过API进行自定义开发以及与各类用户应用程序集成,例如.NET、JAVA等。

长期以来,只有具备相当资源的公司才有实力使用数据挖掘的产品,因为专用的数据挖掘产品非常昂贵,需要聘请咨询顾问才能实现这些产品中所包含的复杂算法,数据挖掘行业的人通常需要具备数学,尤其是统计领域相关的高级知识。数据挖掘最具挑战性的一面就是理解算法真正的功能,然后在创建的挖掘结构中包含最符合具体业务需求的算法。微软在SQL Server中内置了9种数据挖掘算法,在后面的系列文章中我会介绍更多关于SQLServer数据挖掘技术的潜在功能。

 

 


推荐阅读
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • WebSocket与Socket.io的理解
    WebSocketprotocol是HTML5一种新的协议。它的最大特点就是,服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息,是真正的双向平等对话,属于服务器推送 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • 本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例,讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快,性能和稳定性也不错,适合初学者学习和使用。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 如何使用计算机控制遥控车的步骤和电路制作方法
    本文介绍了使用计算机控制遥控车的步骤和电路制作方法。首先,需要检查发送器的连接器和跳线,以确定命令的传递方式。然后,通过连接跳线和地面,将发送器与电池的负极连接,以实现遥控车的前进。接下来,制作一个简单的电路,使用Arduino命令将连接到跳线的电线接地,从而实现将Arduino命令转化为发送器命令。最后,通过焊接晶体管和电阻,完成电路制作。详细的步骤和材料使用方法将在正文中介绍。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题,并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息,同时也提到了相关的警告信息和函数的替代方案。通过阅读本文,读者可以了解到如何解决Python连接服务器失败的问题,并对aiohttp模块有更深入的了解。 ... [详细]
  • 利用Visual Basic开发SAP接口程序初探的方法与原理
    本文介绍了利用Visual Basic开发SAP接口程序的方法与原理,以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图,在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型,并强调本文主要不讨论SAP R/3函数的开发,而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]
author-avatar
mobiledu2502905277
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有