分享篇：第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别（特等奖）一

作者：張張186coolgirl | 来源：互联网 | 2023-10-15 19:37

1.1赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害

1.1 赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害虫对农田的生产危害有重要意义。常见农田害虫共有 138 种，天敌昆虫则为 40 种。病虫害是农业生产中的“灰犀牛”，如果不能及时地控制病虫害问题，会导致农作物减产歉收。

如何去控制病虫害，从而提高农作物的收成是一项很重要的任务，其中最重要的一环是准确检测病虫害。在传统方式已经无法满足规模日益增大的农业需求之后，虫情检测灯的出现让无人监管的病虫害检测成为了可能。虫情检测灯能实现自动诱集、杀虫、虫体分散、拍照以及上传数据等作业过程，可以帮助植保人员更快、更准确地分析虫情，从而减少农产品农药残留，改善农田环境。虫情检测灯的效果依赖于目标检测算法，采用高效的目标检测算法可以提高效率和精度且降低成本，为此，国内外专家做了大量的研究，其中深度学习成为了目标检测算法的热点。

复杂的网络结构和庞大的数据样本是深度学习的最大特点，自从深度学习横空出世，图像识别获得了跨越性的进展。

1.2 问题重述

问题一要求我们结合附件 1 中由虫情探测灯采集的图像文件以及附件 2 中部分已识别图像的信息，建立一个识别率高、速度快、分类准确的模型和算法，确认害虫的位置及种类。问题二要求我们将模型应用于现实，对附件 3 进行图像识别作业并将识别结果放在“result2.csv”中。问题三要求我们将识别结果进一步分类统计，得出附件 3 中各类害虫的数量并将统计结果放在“result3.csv”中。

1.3 文献综述 You Only Look Once (YOLO) 是一种能够实时处理对象的检测算法。它是一种 Onestage 的目标检测算法，因为它建议使用端到端的神经网络，可以同时预测边界框和类别概率。因此，YOLO 比之前的两阶段模型（R-CNN、Fast R-CNN、Faster R-CNN）具有更好的推理速度。YOLO 的结构很简单，它可以通过神经网络直接输出限定框的位置与类别。另外，YOLO 的速度更快，因为 YOLO 只需要将图像放到网络即可得到最终的检测结果，因此 YOLO 也可以实现对一段视频进行检测。YOLO 直接使用整张图片进行检测，可以对全局信息进行编码，因而可以减少因背景造成的误差。YOLO 可以将高度广义的特征转化到其他领域，同时它可以将目标检测问题转化为回归问题，但是回归的精度有待提高。

随着 YOLOv5 的引入，YOLO 系列模型达到了一个前所未有的高度，其推理速度做到了当世最强，而且 Yolov5 的模型大小只有轻量级，它的 Backbone 阶段采用了 Focus 和 CSPDarknet53 结构，Focus 结构其中比较关键的部分是切片操作，CSP 结构先将基础层的特征映射后划分为 2 个部分，然后通过跨阶段层次结构将它们合并，解决了梯度信息重复问题，得到更多的正样本锚，在减少了计算量的同时也可以保证准确率。并且使用了路径聚合网络和空间金字塔池化作为 Neck 结构，PANet 基于 Mask Ｒ-CNN 和 FPN 框架，同时增强了信息的流动，该网络的特征提取器采取了一种自下向上路径的改进的 FPN 网络结构，改善了低层特征的传播。Neck 结构主要是生成特征金字塔，该结构可以产生不同固定尺寸的池化特征向量，同时强化了特征的表达能力，对于同一物体在不同尺寸的检测有很好的作用。最后经过 YOLO 通用预测层，该层主要用 Head 模型预测最终结果，在格网中根据特征标记锚定框，通过损失计算得出目标类的概率和边框最终位置。YOLOv5 在输出端使用 GIOU Loss 作为边界框的损失函数，因此边框有很快很好的收敛效果。

YOLOv5 共有 s、m、l、x4 种模型，4 种模型具有相同的网络结构，调整 2 个参数来改变模型的深度和宽度。相比 YOLOv5s 模型的深度最浅，YOLOv5x 模型的 Neck 数量最多，是 s 模型的 4 倍。YOLOv5s 模型的宽度最窄，因此卷积核的数量减半，YOLOv5x 模型的卷积核的数量最多，通道层的数量是 s 模型的 2．5 倍。YOLOv5l 模型的宽度和深度都是初始值。在相同数据集的情况下，YOLOv5s 模型的训练和推理性能最佳，体量最小，但是 YOLOv5x 模型的平均精度均值最佳。

二、数据探索

2.1 类别不平衡的问题在提供的正式数据中，共计 3015 张图片，其中 2213 张图片已经给出了标注样例，剩余 802 张图片作为测试集，训练集中共出现 28 种昆虫，使用 SPSSSPRO 平台对所有给出标注结果的图片统计分析，发现严重存在类别不平衡问题，如图 3所示，出现最多的昆虫是共出现 247 次的八点灰灯蛾，而出现最少的昆虫类别，例如豆野螟只出现一次，干纹冬夜蛾只出现一次，水螟蛾只出现三次。经过统计，共有 17 种昆虫给出的标注次数少于 20 次。与此同时，其中 1637 张图片被官方判定为无需标注，即正式数据标注了这些图片，却没有标注任何昆虫。在 2213 张给出标注的图片中有 1637 张为负样本，这对模型的训练不利，大大减少了能从正式数据中能够获得的信息。

2.2 数据标注质量问题

通过 python 调用 opencv 库，我们对所给出的标注图片中昆虫的具体图像做了分离，可以发现给出的标注图像中，很多图片标注中出现了标注不准确的问题，如图 4中中一只翅膀分别被标记为了稻螟蛉和紫条尺蛾，而图 5中对于草地螟所有通过标记给出的五张图片中，只有一张能够完整的表示出草地螟的完整生物学特征。

样本是模型训练的基石，倘若没有良好的、大量的数据集做支撑，再好的模型也难以训练出表现优良的模型。

2.3 样本标注不清晰通过对给出的图片的标注区域可视化，可以发现所提供训练数据集本身对于某些昆虫标注存在标准不明确、不完全的问题，比如大黑鳃金龟在一些图片中，训练集中标出了大黑鳃金龟，而在别的图片中反而没有标注。在一些图片中有多只大黑鳃金龟，但是却没有标注完全，只标注了某一只。原数据集给出的大黑鳃金龟样例图如图 6

未标出的大黑鳃金龟和甘蓝夜蛾图（均见于左上角），如图 7。对于这样模棱两可的训练集，难以分辨清楚哪些昆虫需要标注，哪些昆虫不需要标注。急需人工的加以干预，对数据集处以再处理。

推荐阅读

join
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
text
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
js
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
js
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
const
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
text
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
text
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
text
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
random
鄂维南：从数学角度，理解机器学习的「黑魔法」，并应用于更广泛的科学问题...

作者|Hertz来源|科学智能AISI北京时间2022年7月8日晚上22:30，鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenarytalk)。今 ... [详细]

蜡笔小新 2023-10-15 23:41:17
random
基于深度学习的遥感应用

文章目录深度学习的发展过程深度学习在遥感中的应用基于深度学习的遥感样例库建设基于深度学习的遥感影像目标及场景检索基于深度学习的建筑物提取基于深度学习的密集建筑物自动检测基于深度学习 ... [详细]

蜡笔小新 2023-10-15 18:33:51
random
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
数组
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
数组
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25
input
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
input
SLAM优秀开源工程最全汇总

https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统，可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]

蜡笔小新 2023-10-16 11:09:06

張張186coolgirl

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章