玩转Kaggle：ClassifyLeaves（叶子分类）——数据分析篇

作者：飘泊的牛小盆友 | 来源：互联网 | 2023-09-24 16:21

文章目录一、ClassifyLeaves竞赛介绍二、数据分析2.1训练数据信息统计和查看2.2测试数据统计和分析2.3可视化训练数据三、整理一、ClassifyLeaves竞赛介绍

文章目录

- 一、Classify Leaves竞赛介绍
- 二、数据分析
- - 2.1 训练数据信息统计和查看
  - 2.2 测试数据统计和分析
  - 2.3 可视化训练数据
- 三、整理

一、Classify Leaves竞赛介绍

描述&＃xff1a;(叶子种类分类&＃xff0c;总共176类&＃xff0c;训练数据18353张图&＃xff0c;测试数据8800张图片&＃xff0c;每一类至少有50张图片)

The task is predicting categories of leaf images. This dataset contains 176 categories, 18353 training images, 8800 test images. Each category has at least 50 images for training. The test set is split evenly into the public and private leaderboard.

The evaluation metric for this competition is Classification Accuracy.

Good luck and have fun!

kanggle竞赛地址&＃xff1a;
https://www.kaggle.com/c/classify-leaves

二、数据分析

import pandas as pd import numpy as np from d2l import torch as d2l import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder,OneHotEncoder import os from PIL import Image from torchvision import transforms

2.1 训练数据信息统计和查看

# 加载原始数据的统计目录 train_data &＃61; pd.read_csv(&＃39;./data/classify-leaves/train.csv&＃39;) train_data.head()

	image	label
0	images/0.jpg	maclura_pomifera
1	images/1.jpg	maclura_pomifera
2	images/2.jpg	maclura_pomifera
3	images/3.jpg	maclura_pomifera
4	images/4.jpg	maclura_pomifera

# 训练数据共18353张图片&＃xff0c;176类叶子 train_data.describe()

	image	label
count	18353	18353
unique	18353	176
top	images/8006.jpg	maclura_pomifera
freq	1	353

# 统计训练数据label的类别和数量 train_data[&＃39;label&＃39;].value_counts()

maclura_pomifera 353 ulmus_rubra 235 prunus_virginiana 223 acer_rubrum 217 broussonettia_papyrifera 214... cedrus_deodara 58 ailanthus_altissima 58 crataegus_crus-galli 54 evodia_daniellii 53 juniperus_virginiana 51 Name: label, Length: 176, dtype: int64

# 树叶的名字统计 labels_unique &＃61; train_data[&＃39;label&＃39;].unique() labels_unique

array([&＃39;maclura_pomifera&＃39;, &＃39;ulmus_rubra&＃39;, &＃39;broussonettia_papyrifera&＃39;,&＃39;prunus_virginiana&＃39;, &＃39;acer_rubrum&＃39;, &＃39;cryptomeria_japonica&＃39;,&＃39;staphylea_trifolia&＃39;, &＃39;asimina_triloba&＃39;, &＃39;diospyros_virginiana&＃39;,&＃39;tilia_cordata&＃39;, &＃39;ulmus_pumila&＃39;, &＃39;quercus_muehlenbergii&＃39;,&＃39;juglans_cinerea&＃39;, &＃39;cercis_canadensis&＃39;, &＃39;ptelea_trifoliata&＃39;,&＃39;acer_palmatum&＃39;, &＃39;catalpa_speciosa&＃39;, &＃39;abies_concolor&＃39;,&＃39;eucommia_ulmoides&＃39;, &＃39;quercus_montana&＃39;, &＃39;koelreuteria_paniculata&＃39;,..., &＃39;sassafras_albidum&＃39;, &＃39;acer_griseum&＃39;,&＃39;ailanthus_altissima&＃39;, &＃39;pinus_thunbergii&＃39;, &＃39;crataegus_crus-galli&＃39;,&＃39;juniperus_virginiana&＃39;], dtype&＃61;object)

# 对label进行编码&＃xff0c;并将映射表保存下来 labelencoder &＃61; LabelEncoder() labelencoder.fit(train_data[&＃39;label&＃39;]) train_data[&＃39;label&＃39;] &＃61; labelencoder.transform(train_data[&＃39;label&＃39;]) label_map &＃61; dict(zip(labelencoder.classes_,labelencoder.transform(labelencoder.classes_))) label_inv_map &＃61; {v:k for k,v in label_map.items()} label_map

{&＃39;abies_concolor&＃39;: 0,&＃39;abies_nordmanniana&＃39;: 1,&＃39;acer_campestre&＃39;: 2,&＃39;acer_ginnala&＃39;: 3,&＃39;acer_griseum&＃39;: 4,&＃39;acer_negundo&＃39;: 5,&＃39;acer_palmatum&＃39;: 6,&＃39;acer_pensylvanicum&＃39;: 7,&＃39;acer_platanoides&＃39;: 8,&＃39;acer_pseudoplatanus&＃39;: 9,&＃39;acer_rubrum&＃39;: 10,...&＃39;zelkova_serrata&＃39;: 175}

#查看前20类的统计数量和绘图查看 top20_trainData &＃61; train_data[&＃39;label&＃39;].value_counts().sort_values(ascending&＃61;False).head(20) print(top20_trainData) plt.figure(figsize&＃61;(15,10)) sns.barplot(x&＃61;top20_trainData.index,y&＃61;top20_trainData) plt.xticks(rotation&＃61;70) plt.title("Top 20 categories of leaf statistics") plt.show()

2.2 测试数据统计和分析

test_data &＃61; pd.read_csv(&＃39;./data/classify-leaves/test.csv&＃39;) test_data

	image
0	images/18353.jpg
1	images/18354.jpg
2	images/18355.jpg
3	images/18356.jpg
4	images/18357.jpg
...	...
8795	images/27148.jpg
8796	images/27149.jpg
8797	images/27150.jpg
8798	images/27151.jpg
8799	images/27152.jpg

8800 rows × 1 columns

# 测试数据共8800张图 test_data.describe()

	image
count	8800
unique	8800
top	images/20051.jpg
freq	1

2.3 可视化训练数据

folder_path &＃61; "./data/classify-leaves/"# 拿出几张照片看看 fig, ax &＃61; plt.subplots(nrows&＃61;3,ncols&＃61;4,sharex&＃61;True,sharey&＃61;True, figsize&＃61;(18,12) )ax &＃61; ax.flatten() transform &＃61; transforms.Compose([transforms.Resize((224,224)),transforms.ToTensor()]) for i in range(12):img_path &＃61; os.path.join(folder_path,train_data[&＃39;image&＃39;][i])data &＃61; Image.open(img_path)data &＃61; transform(data)ax[i].imshow(data.permute((2,1,0))) # 记住将维度变换一下ax[i].set(title&＃61;train_data[&＃39;label&＃39;][i])ax[i].title.set_size(25)ax[0].set_xticks([]) ax[0].set_yticks([]) plt.tight_layout() plt.show()

三、整理

训练数据和测试数据都是RG图&＃xff0c;可以考虑转换为灰度图进行识别&＃xff08;判断颜色特征对数据集是否特别重要&＃xff09;RGB图
给定的训练数据和测试数据都是规整的大小&＃xff0c;但是叶子占据的比例较小&＃xff0c;可以考虑进行图片裁减
训练数据数量不是特别大&＃xff0c;可以考虑进行数据增强&＃xff0c;扩大数据集数据量小
由于数据较小&＃xff0c;使用k折交叉验证可以得到一个更好的结果

推荐阅读

go
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
const
单击后为什么远程通知操作无效？ - Why remote notification action is doing nothing after clicking?

IhaveconfiguredanactionforaremotenotificationwhenitarrivestomyiOsapp.Iwanttwodiff ... [详细]

蜡笔小新 2023-12-14 15:57:44
go
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
go
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
go
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
split
Html5-Canvas实现简易的抽奖转盘效果

本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果，同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码，并展示了实现的基本效果。 ... [详细]

蜡笔小新 2023-12-13 06:02:20
int
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
jar
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
go
Week04面向对象设计与继承学习总结及作业要求

本文总结了Week04面向对象设计与继承的重要知识点，包括对象、类、封装性、静态属性、静态方法、重载、继承和多态等。同时，还介绍了私有构造函数在类外部无法被调用、static不能访问非静态属性以及该类实例可以共享类里的static属性等内容。此外，还提到了作业要求，包括讲述一个在网上商城购物或在班级博客进行学习的故事，并使用Markdown的加粗标记和语句块标记标注关键名词和动词。最后，还提到了参考资料中关于UML类图如何绘制的范例。 ... [详细]

蜡笔小新 2023-12-11 16:50:17
go
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
go
解决Cydia数据库错误：could not open file /var/lib/dpkg/status 的方法

本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件，以及ifunbox工具和终端命令，可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中，并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]

蜡笔小新 2023-12-13 19:02:44
tags
scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决

怀疑是每次都在新建文件，具体代码如下 ... [详细]

蜡笔小新 2023-12-13 17:53:49
go
如何通过全新应用内评价获取更多优质用户反馈？

Google Play推出全新的应用内评价API，帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论，这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论，以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论，提升用户体验。 ... [详细]

蜡笔小新 2023-12-13 17:23:03
go
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19

飘泊的牛小盆友

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章