当前位置: 开发笔记 > 编程语言 > 正文

pythonpandas处理excel表单整合_使用python处理excel表格——pandas（1）

作者：StrAiGhT-OuT | 来源：互联网 | 2023-10-10 09:57

一.基本概念excel文件打开之后，该文件叫工作簿(workbook)。每个工作簿中包含多张表单(worksheet),正在操作的表单被成为活跃的表单(activew

一.基本概念

excel文件打开之后&＃xff0c;该文件叫工作簿(workbook)。

每个工作簿中包含多张表单(worksheet),正在操作的表单被成为活跃的表单(active worksheet)。

每一张表单中&＃xff0c;有行(row)&＃xff0c;列(column)。行号&＃xff1a;1&＃xff0c;2&＃xff0c;3&＃xff1b;列号A,B,C。

特定的行和列构成单元格(cell)

表单中还会含有索引(index)

二.内容

1.创建文件

A.创建空表格

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df&＃61;pd.DataFrame()

#保存路径

df.to_excel(&＃39;D:/output.xlsx&＃39;)

print(&＃39;Done!&＃39;)

B.创建非空表格

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df&＃61;pd.DataFrame({&＃39;ID&＃39;:[1,2,3],&＃39;NAME&＃39;:[&＃39;Wang&＃39;,&＃39;Zhang&＃39;,&＃39;Lee&＃39;]})

#保存路径

df.to_excel(&＃39;D:/output.xlsx&＃39;)

print(&＃39;Done!&＃39;)

效果&＃xff1a;

前面多出来的这一列为dataframe的索引&＃xff0c;因为我们没有给他指定索引&＃xff0c;所以其自动生成。如果我们想要拿ID这一列做索引&＃xff0c;则&＃xff1a;

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df&＃61;pd.DataFrame({&＃39;ID&＃39;:[1,2,3],&＃39;NAME&＃39;:[&＃39;Wang&＃39;,&＃39;Zhang&＃39;,&＃39;Lee&＃39;]})

df&＃61;df.set_index(&＃39;ID&＃39;)

#保存路径

df.to_excel(&＃39;D:/output.xlsx&＃39;)

print(&＃39;Done!&＃39;)

2.读取文件

【演示文件情况】

该文件内容全为虚构&＃xff0c;没有任何含义&＃xff0c;仅作演示使用

共三个sheet&＃xff1a;sheet1、sheet2、sheet3

其中(不包含标题行)&＃xff1a;

sheet1——(5&＃xff0c;2)、sheet2——(6&＃xff0c;4)、sheet3——(7&＃xff0c;3)

A.读取整个表格

(1)读取有多个sheet的excel

pandas读取的常用格式pd.read_excel(file, sheet_name)&＃xff0c;其中sheetname可以使用数字进行替代&＃xff0c;从0开始&＃xff0c;默认为0

pandas写入的格式为data.to_excel(‘filename’,sheet_name&＃61;‘A’)

import pandas as pd

path &＃61; &＃39;D:\python学习\表格/people.xlsx&＃39;

#读取数据,设置None可以生成一个字典&＃xff0c;字典中的key值即为sheet名字

#此时使用DataFram&＃xff0c;会报错

data &＃61; pd.read_excel(path,None)

print(data.keys())#查看sheet的名字

for sh_name in data.keys():

print(&＃39;sheet名字&＃xff1a;&＃39;,sh_name)

#获得每一个sheet中的内容

sh_data &＃61; pd.DataFrame(pd.read_excel(path,sh_name))

print(sh_data)

结果&＃xff1a;

(2).title在首行

表格样式(sheet1)&＃xff1a;

import pandas as pd

people&＃61;pd.read_excel(&＃39;D:/people.xlsx&＃39;)#读取文件

print(people.shape)#读取行列数

print(people.columns)#读取列名

print(people.head(3))#查看表格内容—head,默认为5行

print(&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;)#分割行

print(people.tail(3))#查看表格内容—tail

结果&＃xff1a;

(3)title不在首行

pandas在读取数据的时候默认&＃xff0c;会默认第0行为title。

-title之前的行为空

正常读取文件&＃xff0c;pandas可以正常识别

-title之前的行非空

只要有一行是脏的&＃xff0c;就需要

表格样式(sheet1)&＃xff1a;

import pandas as pd

people&＃61;pd.read_excel(&＃39;D:/people2.xlsx&＃39;,header&＃61;1)#读取文件

print(people.columns)#读取列名

-无title

import pandas as pd

people&＃61;pd.read_excel(&＃39;D:/people2.xlsx&＃39;,header&＃61;None)#读取文件

people.columns&＃61;[&＃39;名称&＃39;,&＃39;数量&＃39;]#人为设定列名

#将‘名称’列设为索引&＃xff0c;且在原表上进行修改

people.set_index(&＃39;名称&＃39;,inplace&＃61; True)

print(people.columns)#读取列名

people.to_excel(&＃39;D:/output.xlsx&＃39;)#输出为output.xlsx

print(&＃39;DONE!&＃39;)

(如果不认为的设定&＃xff0c;则自动生成0&＃xff0c;1&＃xff0c;2&＃xff0c;3&＃xff0c;为title)

列名只有’数量’&＃xff0c;‘名称’变为了索index

(4).已知index列

在使用pandas进行excel数据表读取的时候&＃xff0c;如不特定指明第一列为index&＃xff0c;则其会默认加一列索引。所以&＃xff0c;如若已知某列为index&＃xff0c;则需指明。

import pandas as pd

#读取文件&＃xff0c;且指定‘名称’列为索引

df&＃61;pd.read_excel(&＃39;D:/output.xlsx&＃39;,index_col&＃61;&＃39;名称&＃39;)

df.to_excel(&＃39;D:/output2.xlsx&＃39;)#生成新的excel文件

print(&＃39;Done!&＃39;)

B.读取某一行、列

(1)读取整个行/列

import pandas as pd

path &＃61; &＃39;D:\python学习\表格/people.xlsx&＃39;

data &＃61; pd.DataFrame(pd.read_excel(path))#读取数据

print(&＃39;行的索引名称&＃xff1a;&＃39;,data.index)#获取行的索引名称

print(&＃39;列的索引名称&＃xff1a;&＃39;,data.columns)#获取列的索引名称

print(&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;)#分割线

print(data[&＃39;名称&＃39;])#获取列名为姓名这一列的内容

print(&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;)#分割线

print(data.loc[0])#获取行名为0这一行的内容

结果&＃xff1a;

(2)读取部分行(筛选)

筛选使用的是 data.loc[列名称 &＃61; 提取的信息]

import pandas as pd

path &＃61; &＃39;D:\python学习\表格/people.xlsx&＃39;

data &＃61; pd.DataFrame(pd.read_excel(path))#读取数据

#获取列名为名称&＃xff0c;内容为“上海市”的内容

result &＃61; data.loc[data[&＃39;名称&＃39;] &＃61;&＃61; &＃39;上海市&＃39;]

print(result)

结果&＃xff1a;

3.生成行、列

行列视为序列(seties)&＃xff0c;则单元格就是不同的序列中的元素。

A.创建series

-从directory转为series

【基础知识】字典-键值对

import pandas as pd

d&＃61;{&＃39;x&＃39;:100,&＃39;y&＃39;:200,&＃39;z&＃39;:300}#生成字典&＃xff0c;由基本键值对构成

print(d.keys())#字典keys集合

print(d.values())#字典values集合

print(d[&＃39;x&＃39;])#查看x&＃xff1a;100这个键值对

结果&＃xff1a;

将directory转变为series&＃xff0c;则keys变为indexs,将values转变为data。

则生成series&＃xff1a;

import pandas as pd

d&＃61;{&＃39;x&＃39;:100,&＃39;y&＃39;:200,&＃39;z&＃39;:300}#生成字典

s1&＃61;pd.Series(d)

print(s1)

print(s1.index)

-直接生成series

import pandas as pd

L1&＃61;(100,2,30)

L2&＃61;(&＃39;x&＃39;,&＃39;y&＃39;,&＃39;z&＃39;)

s1&＃61;pd.Series(L1,index&＃61;L2)

#或者s1&＃61;pd.Series((100,2,30),index&＃61;(&＃39;x&＃39;,&＃39;y&＃39;,&＃39;z&＃39;))

print(s1)

B.创建行、列

将series按照不同的方法加入dataframe中&＃xff0c;就可以创建不同的行和列&＃xff1a;

以list的形式将序列加入dataframe&＃xff0c;则把不同的序列看为一行&＃xff0c;序列的名字看为行号&＃xff1b;以dictory的形式将序列加入dataframe&＃xff0c;则把不同的序列看为一列&＃xff0c;序列的名字看为列名。

-创建列

以directory加入

每个list的index与dataframe中的index呈对齐关系。

“index-index一一对齐”

import pandas as pd

s1&＃61;pd.Series([1,2,3],index&＃61;[1,2,3],name&＃61;&＃39;A&＃39;)#index特指行号

s2&＃61;pd.Series([10,20,30],index&＃61;[1,2,3],name&＃61;&＃39;B&＃39;)

s3&＃61;pd.Series([100,200,300],index&＃61;[1,2,3],name&＃61;&＃39;C&＃39;)

df&＃61;pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})

print(df)

“index-index不对齐”

import pandas as pd

s1&＃61;pd.Series([1,2,3],index&＃61;[1,2,3],name&＃61;&＃39;A&＃39;)#index特指行号

s2&＃61;pd.Series([10,20,30],index&＃61;[1,2,3],name&＃61;&＃39;B&＃39;)

s3&＃61;pd.Series([100,200,300],index&＃61;[2,3,4],name&＃61;&＃39;C&＃39;)

df&＃61;pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})

print(df)

在空值区会自动以NaN填充(NaN:not a number)

-创建行

以list形式

import pandas as pd

s1&＃61;pd.Series([1,2,3],index&＃61;[1,2,3],name&＃61;&＃39;A&＃39;)#index特指行号

s2&＃61;pd.Series([10,20,30],index&＃61;[1,2,3],name&＃61;&＃39;B&＃39;)

s3&＃61;pd.Series([100,200,300],index&＃61;[1,2,3],name&＃61;&＃39;C&＃39;)

df&＃61;pd.DataFrame([s1,s2,s3])

print(df)

本文地址&＃xff1a;https://blog.csdn.net/mmmmmyyyy/article/details/107641294

如您对本文有疑问或者有任何想说的&＃xff0c;请点击进行留言回复&＃xff0c;万千网友为您解惑&＃xff01;

推荐阅读

python
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
python
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
python
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
include
如何自行分析定位SAP BSP错误

The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]

蜡笔小新 2023-12-14 19:58:05
python
Python对Excel文件的读取方法及模块安装

本文介绍了Python对Excel文件的读取方法，包括模块的安装和使用。通过安装xlrd、xlwt、xlutils、pyExcelerator等模块，可以实现对Excel文件的读取和处理。具体的读取方法包括打开excel文件、抓取所有sheet的名称、定位到指定的表单等。本文提供了两种定位表单的方式，并给出了相应的代码示例。 ... [详细]

蜡笔小新 2023-12-14 19:49:05
const
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
int
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
const
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
go
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
buffer
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
python
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
string
Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现

本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法，包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]

蜡笔小新 2023-12-12 20:56:55
python
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
int
MATLAB函数重名问题解决方法及数据导入导出操作详解

本文介绍了解决MATLAB函数重名的方法，并详细讲解了数据导入和导出的操作。包括使用菜单导入数据、在工作区直接新建变量、粘贴数据到.m文件或.txt文件并用load命令调用、使用save命令导出数据等方法。同时还介绍了使用dlmread函数调用数据的方法。通过本文的内容，读者可以更好地处理MATLAB中的函数重名问题，并掌握数据导入导出的各种操作。 ... [详细]

蜡笔小新 2023-12-12 12:29:07
string
Golang如何使用Cookie跟踪位置

关键词：Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]

蜡笔小新 2023-12-13 15:47:22

StrAiGhT-OuT

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章