热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

秦曾昌人工智能课程---5、KNN和朴素贝叶斯

秦曾昌人工智能课程---5、KNN和朴素贝叶斯一、总结一句话总结:拟合和概率:构建机器学习模型,一般有拟合和概率两种方式轻学无用:一定要保证学有所用,要深入学习,比如之前做的安卓,一定

秦曾昌人工智能课程---5、KNN和朴素贝叶斯

一、总结

一句话总结:

拟合和概率:构建机器学习模型,一般有拟合和概率两种方式
轻学无用:一定要保证学有所用,要深入学习,比如之前做的安卓,一定要学通,不然真的没用,完全浪费时间

 

1、参数模型(Parametric model)是什么?

通过结构化表达式和参数集表示的模型

参数模型(Parametric model)一类可以通过结构化表达式和参数集表示的模型.参数模型是以代数方程、微分方程、传递函数等形式表达的,或采用机抑方法建立的模型。

 

2、非参数模型K-Nearest Neighbor (k-NN)的原理和作用是什么?

解决的问题:监督学习:有空心点和实心点,我要判断一个三角形属于哪种点
原理:找离这个点最近的k个点,那种类型的已知点多,k就是哪种点
用途:used for classification andregression
特点:k越大越平滑(太大的话就没有意义了),k=1的时候overfitting,一般5-10之间


k-nearest neighbors algorithm (k-NN) is a non-parametric method used for classification and regression. The input consists of the k closest training examples in the feature space.

 

3、机器学习模型为什么没有必要做到overfitting?

因为数据本身就有噪声污染,所以没有必要,这样过犹不及

 

4、比如我们想知道一个同学的英语成绩,我们怎么用k-NN做?

采样他的多个朋友的成绩,然后取均值,比如3个

 

5、How k-NN Work for Prediction?

1. Assume K and x0:Assume a value for the number of nearest neighbors K and a prediction point x0.
2. identifies:KNN identifies the training observations No closest to the prediction point x0.
3. using the average:KNN estimates f (x0) using the average of all the responses in N0


1.假设最近邻居数K和预测点x0的值。
2. KNN识别训练观察结果最接近预测点x0。
3. KNN使用N0中所有响应的平均值来估计f(x0)

 

6、k-NN判断的时候,如果k=4,如果最接近新点的两种已知点的个数都是2,那么这个时候如何判断新点的归属?

看距离和:计算新点到两种已知点的具体距离然后比较

 

7、常用的Distance Measure的方式?

Euclidean distance (r=2):欧式距离:其实就是应用勾股定理计算两个点的直线距离
Manhattan distance (r=1):曼哈顿距离:x上绝对值,y上绝对值
Hamming distance:求异或Xor:相同为0,不同为1:when all features are binary


Minkowski Distance:闵可夫斯基距离:闵氏距离不是一种距离,而是一组距离的定义。
闵氏距离不是一种距离,而是一组距离的定义。

(1)闵氏距离的定义

       两个n维变量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:

其中p是一个变参数。
当p=1时,就是曼哈顿距离
当p=2时,就是欧氏距离
当p→∞时,就是切比雪夫距离
       根据变参数的不同,闵氏距离可以表示一类的距离。

 

8、Edited Distance Measure是什么?

measure the similarity between two objects:比如a戴耳环,b不带耳环,那么距离为1,a长头发,b也是,距离就是0


To measure the similarity between two objects, transform one into the other, and measure how much effort it took. The measure of effort becomes the distance measure.

measure
英 ['meʒə]  美 ['mɛʒɚ]
n. 测量;措施;程度;尺寸
vt. 测量;估量;权衡
vi. 测量;估量
[ 过去式 measured 过去分词 measured 现在分词 measuring ]

 

9、如何理解“算法没什么好坏之分”?

不同算法适应于不同的模型,可能这个算法在这个模型中的应用很好,但是在别的模型中的表现就很一般了

 

10、贝叶斯法则是什么?

问题:Pr(A|B) 一般不等于 Pr(B|A)
公式:后验概率= (相似度 *先验概率)/标准化常量:Pr(A|B) = Pr(B|A)*Pr(A)/Pr(B)
定义:Pr(A|B)是已知B发生后A的条件概率


通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。
Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。

 

11、朴素贝叶斯中,x’=(Outlook=Sunny, Temperature=Cool, Humidity=High, Wind=Strong),那么P(Yes|x’)怎么算?

乘积:P(Yes|x’) ≈ [P(Sunny|Yes)P(Cool|Yes)P(High|Yes)P(Strong|Yes)]P(Play=Yes) = 0.0053


P(No|x’) ≈ [P(Sunny|No) P(Cool|No)P(High|No)P(Strong|No)]P(Play=No) = 0.0206

 

12、k临近算法的作用是什么?

分类
预测(回归)

 

13、相对独立的两个随机变量的协方差是怎样的?

趋于0:协方差表示两者之间的关系,关系为0表示没什么关系

 

14、协方差是什么?

衡量两个变量的总体误差。方差是协方差的一种特殊情况,即当两个变量是相同的情况。


协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

 

15、两个变量之间相互独立的图形表示是什么?

变量组成的点在坐标系中是随机的
如果变量组成的点大致形成某些图形,比如圆,比如直线,那么这两个变量不是独立的

 

16、朴素贝叶斯方法的基本假设是什么?

特征变量之间相对独立

 

17、朴素贝叶斯方法在机器学习中能用来干什么?

NB for Spam Filtering:选择常用50000个单词,看这些单词在正常邮件,垃圾邮件中出现的概率,垃圾邮件里面有一些词,根据【这些词】及【之前词在正常和垃圾邮件中的概率】判断是不是垃圾邮件


But if we have, say, y ∈ {0,1} for being spam or non-spam email, a vocabulary
of 50000 words, then x ∈ {0, 1}上标50000:看每个参数出现还是没有出现,出现为0,没出现为1

 

18、朴素贝叶斯方法做垃圾邮件分类的原理是什么?

判断词的概率:选择常用50000个单词,看这些单词在正常邮件,垃圾邮件中出现的概率,垃圾邮件里面有一些词,根据【这些词】及【之前词在正常和垃圾邮件中的概率】判断是不是垃圾邮件

 

19、邮件如何映射成高维空间的向量?

选择常用50000个单词,看每个词出现的次数或是否出现

 

20、朴素贝叶斯方法做垃圾邮件分类的正确率一般有多少?

94%+:其实朴素贝叶斯要求的是特征变量之间相对独立,但是我们说话其实词与词之间是不独立的,比如我要喝...,后面出现的一般都是什么饮料,水之类的

 

21、我们说话,或者邮件里面的语句中的词是相互独立的么,可以用朴素贝叶斯方法么?

不独立,但是可以用,精确度小一点而已
词与词之间是不独立:我们说话其实词与词之间是不独立的,比如我要喝...,后面出现的一般都是什么饮料,水之类的

 

22、使用朴素贝叶斯方法做垃圾邮件分类的python代码我们要特别注意的是什么?

pip安装jieba包:引入了jieba包,我们需要用pip安装jieba包:D:\software\coding\python>pip install jieba

 

23、python中常用的安装包的工具是什么?

pip:比如pip安装jieba包:pip install jieba

 

 

二、内容在总结中

 

 

 

 

推荐阅读
  • 开源Keras Faster RCNN模型介绍及代码结构解析
    本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构,包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]
  • 安装mysqlclient失败解决办法
    本文介绍了在MAC系统中,使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中,可以解决安装mysqlclient失败的问题。同时,还介绍了查看mysql安装路径和使配置文件生效的方法。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • 前景:当UI一个查询条件为多项选择,或录入多个条件的时候,比如查询所有名称里面包含以下动态条件,需要模糊查询里面每一项时比如是这样一个数组条件:newstring[]{兴业银行, ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • Python操作MySQL(pymysql模块)详解及示例代码
    本文介绍了使用Python操作MySQL数据库的方法,详细讲解了pymysql模块的安装和连接MySQL数据库的步骤,并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作,帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]
  • Python使用Pillow包生成验证码图片的方法
    本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号,并添加干扰象素,生成一幅验证码图片。需要配置好Python环境,并安装Pillow库。代码实现包括导入Pillow包和随机模块,定义随机生成字母、数字和字体颜色的函数。 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • Python已成为全球最受欢迎的编程语言之一,然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件,即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项,调用程序的目录也必须是安全的。同时,文章还提出了一些预防措施,如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说,这些内容将有所帮助。 ... [详细]
  • 通过Anaconda安装tensorflow,并安装运行spyder编译器的完整教程
    本文提供了一个完整的教程,介绍了如何通过Anaconda安装tensorflow,并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统,并提供了相关的网址供参考。通过本教程,读者可以轻松地安装和配置tensorflow环境,以及运行spyder编译器进行开发。 ... [详细]
  • 本文介绍了协程的概念和意义,以及使用greenlet、yield、asyncio、async/await等技术实现协程编程的方法。同时还介绍了事件循环的作用和使用方法,以及如何使用await关键字和Task对象来实现异步编程。最后还提供了一些快速上手的示例代码。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • Android自定义控件绘图篇之Paint函数大汇总
    本文介绍了Android自定义控件绘图篇中的Paint函数大汇总,包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数,可以更好地掌握Paint的用法。 ... [详细]
  • 本文介绍了在Windows系统下安装Python、setuptools、pip和virtualenv的步骤,以及安装过程中需要注意的事项。详细介绍了Python2.7.4和Python3.3.2的安装路径,以及如何使用easy_install安装setuptools。同时提醒用户在安装完setuptools后,需要继续安装pip,并注意不要将Python的目录添加到系统的环境变量中。最后,还介绍了通过下载ez_setup.py来安装setuptools的方法。 ... [详细]
author-avatar
sj_Ford
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有