当前位置: 开发笔记 > 运维 > 正文

深度学习在图像领域实践的流程及思考

作者：三个人999 | 来源：互联网 | 2023-02-09 21:27

1.需求的提出业务需求的提出，需要明确需求的价值，需求的背景和应用的场景以及需求方对于最后结果的大概期望。2.数据集的构建数据集的来源数据分为两种情况&

1.需求的提出
业务需求的提出，需要明确需求的价值，需求的背景和应用的场景以及需求方对于最后结果的大概期望。
2.数据集的构建
数据集的来源数据分为两种情况：其一、是预定义收集的数据，是指在产品的设计初期，即考虑到下游对数据的使用，所以对数据的收集的格式进行了一定的规范，比如图像的大小，识别目标的位置，识别目标的图像的占比等。其二、是未预定义收集的数据，即是产品设计初期，未考虑到数据的相关问题，造成收集的数据质量无法保证。
大部分要构建数据集的源数据一般都是未经预定义产生的，所以会产生数据非目标性干扰因素大，比如：要识别的目标占整体图像像素比不到十分之一，数据质量差等问题，比如:图像目标比较扭曲，这些都是模型误差的主要来源，另外，各分类类别数据不平衡也是导致模型过拟合的一个重大问题，所以图像识别任务，也包括其他数据挖掘的任务，都是需要在产品最初的设计时需要考虑的一个问题，这样就可以大大避免上述问题遗留到后面的任务当中，如果没有考虑到此一点，也可以在对模型应用后对数据的收集方式进行调整。
了解完数据的情况后，一般需要对数据进行人工标注，人工标注数据需要制定相关标注的统一标准，以尽量减少每个人理解不一致造成的误差，另外，标注的数据需要进行一定的抽样检查，以保证数据标注的质量。
3.数据输入和处理
数据的输入分为小数据量的数据和大数据量的数据两种情况，小数据量的数据直接全量读入内存就可以按一定batch进行模型的训练，大数据量的数据无法一次全量读入内存当中，需要采用生产者、消费者模式进行数据的读取和使用，在数据的输入过程当中，也是进行数据增强的时机，此时可通过数据增强，对不平衡的数据样本进行扩充，采用数据裁剪，数据反转等措施增加样本量，以提升模型的性能。
4.模型的选择
模型的选择建议遵循奥卡姆剃刀原则，即优先使用最简单的模型来解释数据，对于数据量小的数据，可优先选择迁移学习，更容易达到预期的效果。
5.模型的训练
模型的训练主要是对参数的选择和模型网络结构的调整，当然这些都是以对模型的评价的结果的评判来进行优化的，另一方面，模型的性能好坏也取决于数据增强的方法，所以数据增强的方法也是模型训练的时候进行调整的重要手段。
6.模型的评价
模型评价的方法比较多，可根据实际情况进行调整。
7.模型的压缩和导出
训练完成后的模型可能比较大，无法满足一些情况下的使用，可通过模型压缩的方法对模型进行压缩，参数固化，以及最后的模型导出。
8.模型的部署和应用
模型可通过容器化部署，以隔离和减少环境搭建部署造成的问题。
9.效果评价
模型部署后，模型产生的数据应当进行合理的规划和保存，根据模型产生的数据分析的结果对于数据的收集，数据的输入和处理以及模型的训练等进行优化和调整，是进行下一次迭代的主要依据。

致命问题:
业务线和数据部门之间割裂，各自为政，业务产品设计阶段未考虑数据部门的数据使用，造成数据部门数据质量下降，工作难以取得成效。另一方面，模型部署后业务线对数据结果未有任何反馈，造成模型效果难以提升。

推荐阅读

数据分析
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
数据分析
分享篇：第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别（特等奖）一

1.1赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害 ... [详细]

蜡笔小新 2023-10-15 19:37:42
数据分析
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
server
sqlserver触发器写法_技术书籍荐读不可错过的SQL Server数据库书单来袭！

朱熹读书之法，在循序渐进，熟读而精思。2019年转眼就要过去了，这一年，你读了哪些书，得到了哪些收获ÿ ... [详细]

蜡笔小新 2023-10-14 10:40:34
server
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46
server
吴恩达 Deep learning 第一周深度学习概论

知识点1.Relu（RectifiedLinerUints整流线性单元）激活函数：max(0,z)神经网络中常用ReLU激活函数，与机器学习课程里面提到的sigmoid激活函数 ... [详细]

蜡笔小新 2023-10-13 13:13:17
server
谈谈对大数据的八个观点分析

越来越多程序员也涌入大数据行业，但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的，最常引用Victor的4V理论，大量(Volume)，快速(Velocity)，种类多( ... [详细]

蜡笔小新 2023-10-13 06:24:46
port
分类与聚类

一：分类1：定义分类其实是从特定的数据中挖掘模式，做出判断的过程。分类是在一群已经知道类别标号的样本中，训练一种分类器 ... [详细]

蜡笔小新 2023-10-13 05:29:06
port
李理：详解卷积神经网络

http:geek.csdn.netnewsdetail127365本系列文章面向深度学习研发者，希望通过ImageCaptionGeneration，一个有意思的具体任务，深入浅出地介 ... [详细]

蜡笔小新 2023-10-12 19:53:56
port
一份来自清华的数据分析笔记，请查收！

之前发过很多数据分析的文章，收到不少好评，但也有一些困惑：入门数据分析该学哪些知识点？该看哪些书？是从Pyth ... [详细]

蜡笔小新 2023-10-16 12:27:43
port
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
port
NLPIR语义智能平台指引未来文本挖掘的发展方向

　　数据挖掘作为近年来新兴的一门计算机边缘学科，其在国内外引起了越来越多的关注。并且随着数据挖掘技术的不断改进和数据挖掘工具的不断完善，数据挖掘必将在各行各业中得到广泛的应用。　　 ... [详细]

蜡笔小新 2023-10-15 21:37:37
port
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
port
python随机森林筛选变量_一种基于随机森林的改进特征筛选算法

刘云翔陈斌周子宜摘要：肝癌是一种我国高发的消化系统恶性肿瘤，患者死亡率高，威胁极大。而其预后情况通常只能通过医生的专业知识和经验积累来粗略 ... [详细]

蜡笔小新 2023-10-12 20:50:34
port
【机器学习入门】公开课笔记：笔记简介

机器学习毫无争议的是如今学术界和工业界最热的领域，它涵盖计算机视觉(CV)、自然语言处理(NLP)、深度学习(DL)等多种技术，在图像识别、知识图谱以及最近非常火热的无人驾驶等诸多领 ... [详细]

蜡笔小新 2023-10-12 16:49:44

三个人999

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章