当前位置: 开发笔记 > 编程语言 > 正文

机器学习（七）：主成分分析PCA降维_Python

作者：zwjy2018 | 来源：互联网 | 2023-10-11 09:34

六、PCA主成分分析（降维）github地址：https:github.comlawlite19MachineLearning_Python全部代码1、用处数据压缩（Data

六、PCA主成分分析（降维）

github地址：https://github.com/lawlite19/MachineLearning_Python
全部代码

1、用处

数据压缩（Data Compression）,使程序运行更快
可视化数据，例如3D-->2D等
……

2、2D–>1D，nD–>kD

如下图所示，所有数据点可以投影到一条直线，是投影距离的平方和（投影误差）最小
注意数据需要归一化处理
思路是找1个向量u,所有数据投影到上面使投影距离最小
那么nD-->kD就是找k个向量，所有数据投影到上面使投影误差最小
- eg:3D–>2D,2个向量 ${u^{(1)}},{u^{(2)}}$ 就代表一个平面了，所有点投影到这个平面的投影误差最小即可

3、主成分分析PCA与线性回归的区别

线性回归是找x与y的关系，然后用于预测y
PCA是找一个投影面，最小化data到这个投影面的投影误差

4、PCA降维过程

数据预处理（均值归一化）

公式： ${\rm{x}}_j^{(i)} = {{{\rm{x}}_j^{(i)} - {u_j}} \over {{s_j}}}$
就是减去对应feature的均值，然后除以对应特征的标准差（也可以是最大值-最小值）

实现代码：

 # 归一化数据
def featureNormalize(X):
    '''（每一个数据-当前列的均值）/当前列的标准差'''
    n = X.shape[1]
    mu = np.zeros((1,n));
    sigma = np.zeros((1,n))

    mu = np.mean(X,axis=0)
    sigma = np.std(X,axis=0)
    for i in range(n):
        X[:,i] = (X[:,i]-mu[i])/sigma[i]
    return X,mu,sigma

计算协方差矩阵Σ（Covariance Matrix）：
- 注意这里的Σ和求和符号不同
- 协方差矩阵对称正定（不理解正定的看看线代）
- 大小为nxn,n为feature的维度
- 实现代码：
  Sigma = np.dot(np.transpose(X_norm),X_norm)/m # 求Sigma
计算Σ的特征值和特征向量
- 可以是用svd奇异值分解函数：U,S,V = svd(Σ)
- 返回的是与Σ同样大小的对角阵S（由Σ的特征值组成）[注意：matlab中函数返回的是对角阵，在python中返回的是一个向量，节省空间]
- 还有两个**酉矩阵**U和V，且 $\Sigma = US{V^T}$
- 注意：svd函数求出的S是按特征值降序排列的，若不是使用svd,需要按特征值大小重新排列U

降维

选取U中的前K列（假设要降为K维）
Z就是对应降维之后的数据

实现代码：

 # 映射数据
def projectData(X_norm,U,K):
    Z = np.zeros((X_norm.shape[0],K))

    U_reduce = U[:,0:K]          # 取前K个
    Z = np.dot(X_norm,U_reduce) 
    return Z

过程总结：
- Sigma = X'*X/m
- U,S,V = svd(Sigma)
- Ureduce = U[:,0:k]
- Z = Ureduce'*x

5、数据恢复

因为： ${Z^{(i)}} = U_{reduce}^T*{X^{(i)}}$
所以： ${X_{approx}} = {(U_{reduce}^T)^{ - 1}}Z$ （注意这里是X的近似值）
又因为Ureduce为正定矩阵，【正定矩阵满足： $A{A^T} = {A^T}A = E$ ，所以： ${A^{ - 1}} = {A^T}$ 】，所以这里：
${X_{approx}} = {(U_{reduce}^{ - 1})^{ - 1}}Z = {U_{reduce}}Z$
实现代码：

    # 恢复数据 
    def recoverData(Z,U,K):
        X_rec = np.zeros((Z.shape[0],U.shape[0]))
        U_recude = U[:,0:K]
        X_rec = np.dot(Z,np.transpose(U_recude))  # 还原数据（近似）
        return X_rec

6、主成分个数的选择（即要降的维度）

如何选择
- 投影误差（project error）： ${1 \over m}\sum\limits_{i = 1}^m {||{x^{(i)}} - x_{approx}^{(i)}|{|^2}}$
- 总变差（total variation）: ${1 \over m}\sum\limits_{i = 1}^m {||{x^{(i)}}|{|^2}}$
- 若误差率（error ratio）： ${{{1 \over m}\sum\limits_{i = 1}^m {||{x^{(i)}} - x_{approx}^{(i)}|{|^2}} } \over {{1 \over m}\sum\limits_{i = 1}^m {||{x^{(i)}}|{|^2}} }} \le 0.01$ ，则称99%保留差异性
- 误差率一般取1%，5%，10%等
如何实现
- 若是一个个试的话代价太大
- 之前U,S,V = svd(Sigma),我们得到了S，这里误差率error ratio:
  $error{\kern 1pt} \;ratio = 1 - {{\sum\limits_{i = 1}^k {{S_{ii}}} } \over {\sum\limits_{i = 1}^n {{S_{ii}}} }} \le threshold$
- 可以一点点增加K尝试。

7、使用建议

不要使用PCA去解决过拟合问题Overfitting，还是使用正则化的方法（如果保留了很高的差异性还是可以的）
只有在原数据上有好的结果，但是运行很慢，才考虑使用PCA

8、运行结果

2维数据降为1维
- 要投影的方向
- 2D降为1D及对应关系
人脸数据降维
- 原始数据
- 可视化部分U矩阵信息
- 恢复数据

9、使用scikit-learn库中的PCA实现降维

导入需要的包：

#-*- coding: utf-8 -*-
# Author:bob
# Date:2016.12.22
import numpy as np
from matplotlib import pyplot as plt
from scipy import io as spio
from sklearn.decomposition import pca
from sklearn.preprocessing import StandardScaler

归一化数据

    '''归一化数据并作图'''
    scaler = StandardScaler()
    scaler.fit(X)
    x_train = scaler.transform(X)

使用PCA模型拟合数据，并降维
- n_components对应要将的维度

    '''拟合数据'''
    K=1 # 要降的维度
    model = pca.PCA(n_compOnents=K).fit(x_train)   # 拟合数据，n_components定义要降的维度
    Z = model.transform(x_train)    # transform就会执行降维操作

数据恢复
- model.components_会得到降维使用的U矩阵

    '''数据恢复并作图'''
    Ureduce = model.components_     # 得到降维用的Ureduce
    x_rec = np.dot(Z,Ureduce)       # 数据恢复

推荐阅读

int
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
object
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
int
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
int
树莓派语音控制的配置方法和步骤

本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助，文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行，然后使用Eoman的控制方法，即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]

蜡笔小新 2023-12-12 03:02:49
int
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
int
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
php
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
int
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
int
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
int
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
format
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
int
机器学习之贝叶斯垃圾邮件分类代码

本文介绍了贝叶斯垃圾邮件分类的机器学习代码，代码来源于https://www.cnblogs.com/huangyc/p/10327209.html，并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]

蜡笔小新 2023-12-10 12:24:15
tree
如何使用Python从工程图图像中提取底部的方法？

本文介绍了使用Python从工程图图像中提取底部的方法。首先将输入图片转换为灰度图像，并进行高斯模糊和阈值处理。然后通过填充潜在的轮廓以及使用轮廓逼近和矩形核进行过滤，去除非矩形轮廓。最后通过查找轮廓并使用轮廓近似、宽高比和轮廓区域进行过滤，隔离所需的底部轮廓，并使用Numpy切片提取底部模板部分。 ... [详细]

蜡笔小新 2023-12-10 10:48:49

zwjy2018

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章