当前位置: 开发笔记 > 数据库 > 正文

机器学习——基本术语

作者：七城赣州击剑_966 | 来源：互联网 | 2023-01-02 07:34

第一章基本术语1、机器学习的定义：从数据中自动的归纳逻辑或规则，并根据这个归纳的结果与新数据来进行预测的算法。要讨论算法的相对优劣，必须要针对具体的学习问题。2、目标：使得学得的

第一章基本术语

1、机器学习的定义：从数据中自动的归纳逻辑或规则，并根据这个归纳的结果与新数据来进行预测的算法。要讨论算法的相对优劣，必须要针对具体的学习问题。

2、目标：使得学得的模型能很好的适用于“新样本”，而不仅仅在训练样本上工作得很好，即便是对聚类这样的无监督学习，也希望学得的聚划分能适用于没在训练集中出现的样本。

3、样本（示例、特征向量）：数据集中的每个记录称之为样本或者示例。

4、属性空间（样本空间、输入空间）：样本属性张成的空间称为属性空间（样本空间、输入空间），每个样本对应空间中的一个点，故而一个示例也称为一个“特征向量”。

5、模型：模型也称为学习器，可看作学习算法在给定数据集和参数空间的实例化。

6、学习：从数据中学得模型的过程称为“学习”或“训练”，这个过程通过执行某个学习算法来完成。

7、训练集：训练过程中使用的数据称为训练数据，训练样本组成的集合称为训练集。学得的模型对应了关于数据的某种潜在的规律，因此称为“假设”。这种潜在规律自身，则是称为真相或真实，学习过程就是为了找出或逼近真相。训练集通常是样本空间中很小的一个采样。

8、测试：学得模型后，使用其进行预测的过程称为“测试”，被测试的样本称为测试样本。

监督学习与无监督学习：根据训练数据是否拥有标记信息，学习任务可以分为两类，监督学习和无监督学习：分类和回归是前者的代表，聚类是后者的代表（学习过程中使用的训练样本通常不拥有标记信息）。

9、泛化：学得模型适用于新样本的能力，称为“泛化”能力，具有强泛化能力的模型能很好地适用整个样本空间。

10、假设：通过学习得到的模型对应了假设空间中的一个假设。

11、学习过程：通常假设样本空间中全体样本服从一个未知分布，我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”。一般而言，训练样本越多，我们得到的关于该未知分布的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。

我们可以将学习过程看作是在一个所有的假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设，即能够将训练集中的训练样本判断正确的假设。

12、概念学习：概念学习（归纳学习）的目标就是泛化，即是通过对训练集中的训练样本进行学习以获得对测试集进行判断的能力。

13、归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好我们称之为“归纳偏好”，简称“偏好”。

归纳偏好对应了学习算法本身所作出的关于什么样的模型更好的假设，在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

机器学习与数据挖掘、数据库技术的联系：

数据挖掘是从海量知识中发掘知识，这就必然涉及对“海量数据”的管理和分析。数据库领域为数据挖掘提供数据管理技术，机器学习和统计学的研究为数据挖掘提供数据分析的技术。机器学习领域和数据库领域则是数据挖掘的两大支撑。机器学习提供数据分析能力，云计算提供数据处理能力，众包提供数据标记能力。

推荐阅读

elasticsearch
一份来自清华的数据分析笔记，请查收！

之前发过很多数据分析的文章，收到不少好评，但也有一些困惑：入门数据分析该学哪些知识点？该看哪些书？是从Pyth ... [详细]

蜡笔小新 2023-10-16 12:27:43
数据库
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
hbase
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
hbase
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
数据库
NLPIR语义智能平台指引未来文本挖掘的发展方向

　　数据挖掘作为近年来新兴的一门计算机边缘学科，其在国内外引起了越来越多的关注。并且随着数据挖掘技术的不断改进和数据挖掘工具的不断完善，数据挖掘必将在各行各业中得到广泛的应用。　　 ... [详细]

蜡笔小新 2023-10-15 21:37:37
数据库
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
数据库
大数据学习入门难，给初学者支招

大数据学习入门难，给初学者支招 ... [详细]

蜡笔小新 2023-10-15 08:30:02
数据库
数据可视化技术的应用，行业优秀案例分享

数据可视化并不是什么新型技术，二十世纪50年代电子计算机图形学的初期，就可以利用软件建立出了第一批图形图表。伴随着近几年来大数据备受关注， ... [详细]

蜡笔小新 2023-10-14 13:12:48
数据库
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
elasticsearch
ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES

一、认识ElasticSearch是一个基于Lucene的开源搜索引擎，通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索，分析系统&# ... [详细]

蜡笔小新 2023-12-09 10:36:06
elasticsearch
python可以做什么工作好Python入门后，想要从事自由职业可以做哪方面工作？

Python入门后，想要从事自由职业可以做哪方面工作？1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]

蜡笔小新 2023-10-17 16:29:09
elasticsearch
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
elasticsearch
plt python 画直线_机器学习干货，一步一步通过Python实现梯度下降的学习

GradientDescent-梯度下降梯度下降法(英语：Gradientdescent)是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找 ... [详细]

蜡笔小新 2023-10-17 14:30:10
hbase
物联网、工业互联网大数据的特点

物联网、工业互联网大数据的特点-随着数据通讯成本的急剧下降，以及各种传感技术和智能设备的出现，从手环、共享出行、智能电表、环境监测设备到电梯、数控机床、挖掘机、工业生产线等都在源 ... [详细]

蜡笔小新 2023-10-16 22:17:23
数据库
数据仓库、LODP、OLAP

数据仓库:也称为企业数据仓库，是一种数据存储系统，它将来自于不同数据源的数据进行结构化数据聚合起来，用于业务智能领域的比较和分析 ... [详细]

蜡笔小新 2023-10-16 16:39:29

七城赣州击剑_966

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章