当前位置: 开发笔记 > 后端 > 正文

数据增强_强调语义分割数据增强的技巧

作者：铜钱 | 来源：互联网 | 2023-08-25 13:18

点击上方“CVer”，选择加星标或“置顶”重磅干货，第一时间送达作者：mshmoonhttps:zhuanlan.zhihu.comp

点击上方“CVer”&＃xff0c;选择加"星标"或“置顶”

重磅干货&＃xff0c;第一时间送达

作者&＃xff1a;mshmoon
https://zhuanlan.zhihu.com/p/66289073
本文已授权&＃xff0c;未经允许&＃xff0c;不得二次转载

从研究语义分割到现在已经快有2年的时间&＃xff0c;期间经历了不少坎坷&＃xff0c;但最终也使我对语义分割有了全面&＃xff0c;细致&＃xff0c;深入的认识。在2015年-2018年&＃xff0c;每年的CVPR都有大把的语义分割论文出现&＃xff0c;但是论文中关于如何训练好模型&＃xff0c;却说的比较模糊&＃xff0c;那我就把我的这快2年的经验写出来&＃xff0c;供大家参考。

首先&＃xff0c;我使用PyTorch,在Pascal voc 与 Cityscapes数据集上实验&＃xff0c;也向这2个榜单递交了好几十次测评结果。

在诸多会议论文中&＃xff0c;backbone大多会采用resnet101,甚至resnet152,这种深层网络会取得很好的实验结果&＃xff0c;然而这2种网络实际上在工业界不太容易使用&＃xff0c;主要原因就是参数太多&＃xff0c;计算时间太长&＃xff0c;对于工业界来讲&＃xff0c;动辄几百万数据数据量的任务&＃xff0c;处理完一批数据需要一个星期甚至半个月&＃xff0c;估计很多公司都会疯掉&＃xff0c;那么如何用很小的网络跑出更好的结果才是王道。实际上对于resnet18,resnet34这种级别的网络&＃xff0c;能力是很强的&＃xff0c;就看你去怎么拓展这些参数的能力。因此&＃xff0c;好的数据扩充技巧极其重要&＃xff0c;尤其对于小规模数据集。

语义分割任务和图像分割是很像的&＃xff0c;图像分类是粗粒度分类&＃xff0c;语义分割是稠密分类—针对图像中每一个像素分类。那么在对语义分割任务做数据增强时完全可以很容易的使用图像分类的数据扩充技巧。

数据随机缩放(极其重要)

无论对于什么样的数据集&＃xff0c;规模多大的数据集&＃xff0c;在语义分割任务中&＃xff0c;数据随机缩放给模型带来的收益永远是最大的。我们在训练网络时&＃xff0c;如果将padding给的过大&＃xff0c;而卷积核大小不变你会发现我们的卷积核能力被弱化&＃xff0c;过大的padding增加了数据集的单一性&＃xff0c;假设你对一张大小为16x16的图像增加了64x64的padding&＃xff0c;甚至更大&＃xff0c;大到我们本来的图像在在增加padding之后显的很渺小&＃xff0c;那这新的图像对于卷积核来看&＃xff0c;基本上就是一张呼呼的图像&＃xff0c;如果整个数据集都是这种图像&＃xff0c;那对于卷积核来讲&＃xff0c;太单一了&＃xff0c;当然也没有人会这样做。数据集的多样性&＃xff0c;包括尺度多样性&＃xff0c;光照多样性&＃xff0c;目标姿态多样性。尺度多样性不仅在深度学习中使用&＃xff0c;在传统计算机视觉中也是很重要的方法。

我敢保证&＃xff0c;对于随机翻转&＃xff0c;镜像翻转&＃xff0c;色彩偏移等数据增强技术手段为模型所带来的收益加一起也不一定有尺度的随机缩放所带来的效果好。

随机尺度缩放为模型所带来的收益是最直接的&＃xff0c;最可观的。同一个物体的不同尺度&＃xff0c;对于卷积核来讲&＃xff0c;那就是感受视野的不同&＃xff0c;我们的卷积核不仅需要能在大的感受视野中获得好的分类能力&＃xff0c;也得具备在小的感受视野中获得很好的分类能力。你看很多语义分割论文中出现下图像情况&＃xff0c;是最典型的感受视野不足所造成的&＃xff0c;在这种情况下&＃xff0c;你采用随机反转&＃xff0c;颜色偏移&＃xff0c;甚至增多这种类型的数据图像&＃xff0c;有用吗&＃xff1f;没用的&＃xff0c;要想改善这种情况的发生&＃xff0c;要么增大卷积核&＃xff0c;要么尺度随机缩放。增大卷积核直接增大计算量&＃xff0c;为计算带来了负担&＃xff0c;可有人又说了&＃xff0c;可以采用膨胀卷积增大感受视野而不增加计算量&＃xff0c;从理论上是这样的&＃xff0c;可是实际上真的是这样吗&＃xff1f;其实不然&＃xff0c;我下文会讨论。

如果期待下篇语义分割的细节文章&＃xff0c;欢迎点击"在看"

CVer-图像分割交流群

扫码添加CVer助手&＃xff0c;可申请加入CVer-图像分割群。一定要备注&＃xff1a;研究方向&＃43;地点&＃43;学校/公司&＃43;昵称(如图像分割&＃43;上海&＃43;上交&＃43;卡卡)

▲长按加群

这么硬的干货分享&＃xff0c;麻烦给我一个在在看

▲长按关注我们

麻烦给我一个在看&＃xff01;

推荐阅读

token
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
token
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
python
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
python
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
python
mapreduce数据去重的实现方法

本文介绍了利用mapreduce实现数据去重的方法，同时还介绍了人工智能AI领域中常用的框架和工具，包括Keras、PyTorch、MXNet、TensorFlow和PaddlePaddle，并提供了深度学习实战的代码下载链接。 ... [详细]

蜡笔小新 2023-12-10 15:56:37
python
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
python
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
爬虫
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
爬虫
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
python
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
正则
论文阅读：《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》

基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来，挑战性长尾分布上的视觉识别技术取得了很大的进展，主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]

蜡笔小新 2023-10-16 11:18:28
正则
PyTorch源码解读之torchvision.models

PyTorch框架中有一个非常重要且好用的包：torchvision，该包主要由3个子包组成，分别是：torchvision.datasets、torchvision.models、torchv ... [详细]

蜡笔小新 2023-10-16 11:14:55
php
SLAM优秀开源工程最全汇总

https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统，可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]

蜡笔小新 2023-10-16 11:09:06
php
【OCR学习笔记】What Is Wrong With Scene Text Recognition Model Comparisons Dataset and Model Analysis

文章目录摘要细节开源代码摘要提出了一个统一的四阶段STR框架。Transformation：TPS，归一化字符区域到预定义的矩形，校正图像。Featureextraction ... [详细]

蜡笔小新 2023-10-15 18:16:55
service
微信回应「10 元就能在朋友圈改定位」；谷歌官方首次提及 Android 11；Node 8.16.2 发布 | 极客头条...

微信回应「10元就能在朋友圈改定位」；谷歌官方首次提及Android11；Node8.16.2发布|极客头条,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-15 15:22:56

铜钱

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

1if(rand()