谷歌最新语义图像分割模型DeepLabv3

作者：mobiledu2502885927 | 来源：互联网 | 2023-09-13 14:17

选自GoogleResearchBlog作者：Liang-ChiehChen、YukunZhu参与：刘晓坤、路雪刚刚，谷歌开源了语义图

选自Google Research Blog

作者&＃xff1a;Liang-Chieh Chen、Yukun Zhu

参与&＃xff1a;刘晓坤、路雪

刚刚&＃xff0c;谷歌开源了语义图像分割模型 DeepLab-v3&＃43;&＃xff0c;DeepLab-v3&＃43;结合了空间金字塔池化模块和编码器-解码器结构的优势&＃xff0c;是自三年前的 DeepLab 以来的最新、性能最优的版本。

GitHub 地址&＃xff1a;https://github.com/tensorflow/models/tree/master/research/deeplab

语义图像分割任务是指将语义标签&＃xff08;例如「道路」、「天空」、「人」、「狗」&＃xff09;分配给图像中的每一个像素&＃xff0c;这种技术有很多新应用&＃xff0c;例如&＃xff0c;Pixel 2 和 Pixel 2 XL 智能手机中肖像模式的合成浅景深效应&＃xff0c;以及移动设备的实时语义分割等。分配这些语义标签的时候需要精准定位目标的轮廓&＃xff0c;因此相比其他的视觉实体识别任务&＃xff08;如图像级分类或边界框级检测等&＃xff09;&＃xff0c;该任务需要更高的定位准确率。

今天&＃xff0c;谷歌开源了其最新、性能最优的语义图像分割模型 DeepLab-v3&＃43; [1]&＃xff0c;该模型使用 TensorFlow 实现。DeepLab-v3&＃43; 模型建立在一种强大的卷积神经网络主干架构上 [2,3]&＃xff0c;以得到最准确的结果&＃xff0c;该模型适用于服务器端的部署。此外&＃xff0c;谷歌还分享了他们的 TensorFlow 模型训练和评估代码&＃xff0c;以及在 Pascal VOC 2012 和 Cityscapes 基准语义分割任务上预训练的模型。

自三年前谷歌发布第一个版本的 DeepLab 模型 [4] 以来&＃xff0c;CNN 特征提取器、目标尺度建模技术、语境信息处理、模型训练流程、深度学习硬件和软件的不断改进和优化&＃xff0c;促使该模型升级到了 DeepLab-v2 [5] 和 DeepLab-v3 [6]。谷歌通过添加一个简单而有效的解码器模块以精炼分割结果&＃xff08;尤其是在目标边界处&＃xff09;&＃xff0c;将 DeepLab-v3 扩展为 DeepLab-v3&＃43;。他们还进一步将深度可分卷积&＃xff08;depthwise separable convolution&＃xff09;应用到金字塔型的空洞池化&＃xff08;Atrous Spatial Pyramid Pooling&＃xff0c;ASPP&＃xff09;[5, 6] 和解码器模块上&＃xff0c;以得到更快更强大的语义分割编码器-解码器网络。

现代语义图像分割系统都是建立在卷积神经网络之上&＃xff0c;并达到了五年前无法想象的准确率&＃xff0c;这得归功于方法、硬件和数据集的优化。谷歌希望通过和社区共享该系统&＃xff0c;学界和业界能更容易地复现和提升当前最优系统&＃xff0c;在新的数据集上训练模型&＃xff0c;以及为该技术开发新的应用。

论文&＃xff1a;Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

论文链接&＃xff1a;https://arxiv.org/abs/1802.02611

摘要&＃xff1a;深度神经网络使用空间金字塔池化模块或编码器-解码器结构执行语义分割任务。前者通过在多个 rate、多个有效视野上用滤波器探测输入特征或执行池化操作&＃xff0c;来编码多尺度的上下文信息&＃xff1b;后者通过逐渐恢复空间信息来捕捉更加精细的目标边界。在这项研究中&＃xff0c;我们将二者的优势结合起来。具体来说&＃xff0c;我们通过添加一个简单有效的解码器模块以精炼分割结果&＃xff08;尤其是目标边界&＃xff09;&＃xff0c;将 DeepLab-v3 扩展为本文提出的新模型 DeepLab-v3&＃43;。我们进一步探索了 Xception 模型&＃xff0c;并将深度可分卷积应用到金字塔型的空洞池化&＃xff08;ASPP&＃xff09;和解码器模块上&＃xff0c;以得到更快更强大的编码器-解码器网络。我们在 PASCAL VOC 2012 语义图像分割数据集上证明了该模型的有效性&＃xff0c;在没有任何后处理的情况下该模型达到了 89% 的准确率。

参考阅读&＃xff1a;

资源 | 从全连接层到大型卷积核&＃xff1a;深度学习语义分割全指南

原文链接&＃xff1a;https://research.googleblog.com/2018/03/semantic-image-segmentation-with.html

推荐阅读

process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
tree
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
split
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
go
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
go
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
go
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
bit
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
jsp
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
tree
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
tree
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
bit
P1651 塔 (动态规划) 的最大高度计算方法

本文介绍了P1651题目的描述和要求，以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术，将问题转化为求解差值的问题，并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]

蜡笔小新 2023-12-13 19:52:19
process
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
process
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
char
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
char
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01

mobiledu2502885927

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章