文本分类学习笔记（6）贝叶斯

作者：顾旭东-夏天 | 来源：互联网 | 2023-10-10 15:19

贝叶斯分类器：先验概率P(c)类c下单词总数整个训练样本的单词总数类条件概率P(tk|c)(类c下单词tk在各个文档中出现过的次数之和1)(类c下单词总数|V|)V是

贝叶斯分类器&＃xff1a;
先验概率P(c)&＃61; 类c下单词总数/整个训练样本的单词总数
类条件概率P(tk|c)&＃61;(类c下单词tk在各个文档中出现过的次数之和&＃43;1)/(类c下单词总数&＃43;|V|)
V是训练样本的单词表&＃xff08;即抽取单词&＃xff0c;单词出现多次&＃xff0c;只算一个&＃xff09;&＃xff0c;|V|则表示训练样本包含多少“个”单词。P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据&＃xff0c;而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。
这里写图片描述
注&＃xff1a;在实际计算过程&＃xff0c;特征维度较&＃xff0c;单个概率较小&＃xff0c;连乘的结果会造成精度丢失&＃xff0c;因此采用对数函数对概率进行放大&＃xff0c;而且不需要计算P(Doc)&＃xff0c;即&＃xff1a;

预测算法是根据上述公式计算argmax{P(Ci|Doc)}

#coding&＃61;utf-8 from scipy import sparse,io from sklearn.linear_model import LogisticRegression from sklearn.naive_bayes import MultinomialNB from sklearn import metrics from numpy import * import warnings warnings.filterwarnings("ignore")class Naivebayes:N &＃61; [] #k * n k &＃61; 0 #categoryn &＃61; 0 #samples dimensionsm &＃61; 0 #training samplescategory &＃61; [] # 类别log_probability_c &＃61; [] # 属于每个类的概率log_probability_t_c&＃61;[] # 拉普拉斯平滑后概率def __init__(self, X, Y):if len(X) !&＃61; len(Y):print &＃39;samples\&＃39; length not equal labels\&＃39; length&＃39;elif len(Y) &＃61;&＃61; 0:print &＃39;samples\&＃39; size is zero&＃39;else:self.m &＃61; len(Y)self.n &＃61; len(X[0])D &＃61; []for i in range(self.m):# 对于新的类别添加一个新集合if Y[i] not in self.category:self.category.append(Y[i])D.append([])D[-1].append(X[i])else:D[self.category.index(Y[i])].append(X[i])# 计算每个类的概率for i in range(len(self.category)):self.log_probability_c.append(len(D[i]))self.log_probability_c &＃61; log(self.log_probability_c)# 赋值k、nself.k &＃61; len(self.category)self.N &＃61; zeros((self.k, self.n))for i in range(self.k):self.N[i] &＃61; array(D[i]).sum(0)# &＃43;1平滑self.log_probability_t_c &＃61; self.N &＃43; 1s &＃61; self.log_probability_t_c.sum(1)self.log_probability_t_c &＃61; log(self.log_probability_t_c / s.reshape(len(s), 1))#分类def predict(self, x):p &＃61; self.log_probability_c &＃43; x.dot(self.log_probability_t_c.transpose())i &＃61; p.argmax(1)label &＃61; []for j in range(len(i)):label.append(self.category[i[j]])return labelif __name__ &＃61;&＃61; &＃39;__main__&＃39;:#读取中间数据data &＃61; io.loadmat(&＃39;SetMat1.mat&＃39;)vectormat &＃61; data[&＃39;trainSet&＃39;]labeled_names &＃61; data[&＃39;train_labeled&＃39;][0]labeled_names1 &＃61; data[&＃39;test_labeled&＃39;][0]vectormat1 &＃61; data[&＃39;testSet&＃39;]nb &＃61; Naivebayes(vectormat, labeled_names)labels &＃61; nb.predict(vectormat1)calculate_result(labeled_names1,labels)#print labelsc &＃61; zeros((10,10), dtype&＃61;int)for i in range(len(labels)):c[labeled_names1[i]-1][labels[i]-1] &＃61; c[labeled_names1[i]-1][labels[i]-1] &＃43; 1print c

运行结果
中间数据采用的是TF\IDF值&＃xff0c;依据词频做了简单特征筛选

predict info: accuracy:0.779 precision:0.759 recall:0.779 f1-score:0.735

使用Bool型特征&＃xff08;one-hot&＃xff09;则有明显提高
count_vec &＃61; CountVectorizer(binary &＃61; True,decode_error&＃61;’replace’)

predict info: accuracy:0.849 precision:0.835 recall:0.849 f1-score:0.824 [[ 705 0 3 5 0 0 2 0 4 0][ 0 1 0 3 51 0 0 0 1 0][ 13 0 165 0 0 0 0 3 8 0][ 30 0 3 1051 0 0 1 0 2 0][ 0 1 0 5 126 0 1 4 12 0][ 0 0 0 1 1 40 86 0 3 0][ 0 0 1 1 0 8 166 0 3 0][ 3 0 49 1 11 0 0 16 9 0][ 0 0 1 7 3 0 11 0 95 0][ 0 1 0 3 64 0 0 1 2 0]]

推荐阅读

ip
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
ip
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
import
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
ip
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
import
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
ip
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
import
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
import
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
import
Oracle分析函数first_value()和last_value()的用法及原理

本文介绍了Oracle分析函数first_value()和last_value()的用法和原理，以及在查询销售记录日期和部门中的应用。通过示例和解释，详细说明了first_value()和last_value()的功能和不同之处。同时，对于last_value()的结果出现不一样的情况进行了解释，并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]

蜡笔小新 2023-12-13 19:07:23
ip
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
ip
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
ip
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28
string
php 主动断掉http,怎么在PHP项目中实现一个HTTP断点续传功能

怎么在PHP项目中实现一个HTTP断点续传功能发布时间：2021-01-1916:26:06来源：亿速云阅读：96作者：Le ... [详细]

蜡笔小新 2023-12-12 17:17:29
import
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
string
iOS实现UITextField+Limit的字符限制方法

本文介绍了在iOS开发中使用UITextField实现字符限制的方法，包括利用代理方法和使用BNTextField-Limit库的实现策略。通过这些方法，开发者可以方便地限制UITextField的字符个数和输入规则。 ... [详细]

蜡笔小新 2023-12-12 09:50:30

顾旭东-夏天

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章