当前位置: 开发笔记 > 编程语言 > 正文

干货丨机器学习指南（学习笔记哦，值得一看）

作者：清露1122_664 | 来源：互联网 | 2023-09-25 12:26

干货丨机器学习指南（学习笔记哦，值得一看）
作者：小土刀

这里是我学习机器学习时候的一些笔记和总结，文章比较长，但是应该是比较全面的。

基本概念

主要是基本概念的辨析，都是最最基础和常规的

监督学习与非监督学习

应用领域：企业数据

监督学习需要标注数据(KNN, NB, SVM, DT, BP, RF, GBRT)，这类算法必须知道预测什么，即目标变量的分类信息。对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预测。

非监督学习(KMEANS, DL)数据没有类别信息，也不会给定目标值，对未标记的样本进行训练学习，比发现这些样本中的结构知识。将数据集合分成由类似的对象组成的多个类的过程被称为聚类。

半监督式学习

应用领域：图像识别(存在大量非标识数据)

在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。

强化学习

应用领域：机器人控制、系统控制

在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)。

离散数据与连续数据

离散数据(标称型)的目标变量结果只在有限目标集中取值，比方说真与假，一般用于分类。连续数据(数值型)目标变量主要用于回归分析，通过给定数据点的最优拟合曲线。

生成方法

例子：NB

生成方法：由数据学习联合概率密度分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y)，然后再得到后验概率P(Y|X)，再利用它进行分类，就像上面说的那样。

生成方法学习联合概率密度分布P(X,Y)，所以就可以从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度。但它不关心到底划分各类的那个分类边界在哪。生成方法可以还原出联合概率分布P(Y|X)，而判别方法不能。生成方法的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快的收敛于真实模型，当存在隐变量时，仍可以用生成方法学习。此时判别方法就不能用。

由生成模型可以得到判别模型，但由判别模型得不到生成模型。

判别方法

例子：k 近邻，决策树

由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。基本思想是有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。典型的判别模型包括k近邻，感知级，决策树，支持向量机等。

判别方法直接学习的是决策函数Y=f(X)或者条件概率分布P(Y|X)。不能反映训练数据本身的特性。但它寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。直接面对预测，往往学习的准确率更高。由于直接学习P(Y|X)或P(X)，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

过拟合

如果一味的去提高训练数据的预测能力，所选模型的复杂度往往会很高，这种现象称为过拟合。所表现的就是模型训练时候的误差很小，但在测试的时候误差很大。

产生原因

因为参数太多，导致模型复杂度上升，容易过拟合
权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征
解决方法：交叉验证法、减少特征、正则化、权值衰减、验证数据

泛化能力是指模型对未知数据的预测能力。

线性分类器与非线性分类器

如果模型是参数的线性函数，并且存在线性分类面，那么就是线性分类器，否则不是
常见的线性分类器有：LR,贝叶斯分类，单层感知机、线性回归
常见的非线性分类器：决策树、RF、GBDT、多层感知机
SVM两种都有(看线性核还是高斯核)
线性分类器速度快、编程方便，但是可能拟合效果不会很好
非线性分类器编程复杂，但是效果拟合能力强

特征比数据量还大时，选择什么样的分类器?

线性分类器，因为维度高的时候，数据一般在维度空间里面会比较稀疏，很有可能线性可分。

对于维度很高的特征，你是选择线性还是非线性分类器?

线性分类器，因为维度高的时候，数据一般在维度空间里面会比较稀疏，很有可能线性可分。

对于维度极低的特征，你是选择线性还是非线性分类器?

非线性分类器，因为低维空间可能很多特征都跑到一起了，导致线性不可分。

干货丨机器学习指南（学习笔记哦，值得一看）

推荐阅读

blob
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
object
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
object
机器学习之贝叶斯垃圾邮件分类代码

本文介绍了贝叶斯垃圾邮件分类的机器学习代码，代码来源于https://www.cnblogs.com/huangyc/p/10327209.html，并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]

蜡笔小新 2023-12-10 12:24:15
object
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
object
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
object
机器学习之数据均衡算法种类大全+Python代码一文详解

目录前言一、为什么要做数据均衡？二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]

蜡笔小新 2023-10-15 23:34:41
jsp
Stanford机器学习第九讲. 聚类

原文：http:blog.csdn.netabcjenniferarticledetails7914952本栏目（Machinelearning）包括单参数的线性回归、多参数的线性 ... [详细]

蜡笔小新 2023-10-15 16:17:01
jsp
开发笔记:小白python机器学习之路——支持向量机

篇首语：本文由编程笔记#小编为大家整理，主要介绍了小白python机器学习之路——支持向量机相关的知识，希望对你有一定的参考价值。支持 ... [详细]

蜡笔小新 2023-10-15 12:00:18
js
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
hash
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
format
C#学习教程：解析CIM_DateTime为.Net DateTime

本文介绍了如何将CIM_DateTime解析为.Net DateTime，并分享了解析过程中可能遇到的问题和解决方法。通过使用DateTime.ParseExact方法和适当的格式字符串，可以成功解析CIM_DateTime字符串。同时还提供了关于WMI和字符串格式的相关信息。 ... [详细]

蜡笔小新 2023-12-14 12:19:34
format
游戏开发中的人工智能技术及分类介绍

本文介绍了游戏开发中的人工智能技术，包括定性行为和非定性行为的分类。定性行为是指特定且可预测的行为，而非定性行为则具有一定程度的不确定性。其中，追逐算法是定性行为的具体实例。 ... [详细]

蜡笔小新 2023-12-14 10:22:59
format
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
format
美DARPA利用人工智能技术识别敌国在“灰色地带”的意图

C4ISRNET网站报道称，近日，美国国防部高级研究计划局（DARPA）启动“通过规划活动态势场景收集和监测（COMPASS）”项目，意欲利用人工智能技术打入敌人内部，在战争“灰色 ... [详细]

蜡笔小新 2023-10-17 13:58:36
format
马尔可夫决策过程Markov Decision Process,MDPKintoki

Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)& ... [详细]

蜡笔小新 2023-10-17 08:36:47

清露1122_664

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章