热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

1.FSDR学习

第一次读外文文献还是比较吃力,(好在有谷歌,有道翻译)但是我还是会拿出我勉强过6级的英语水平去一个字一个字读完它。第一天读论

第一次读外文文献还是比较吃力,(好在有谷歌,有道翻译)但是我还是会拿出我勉强过6级的英语水平去一个字一个字读完它。第一天读论文,就先总览一下大致内容。
发现:
图片表格公式非常多(和我的论文比较起来);排版像杂志(对半分);参考文献占了好多篇幅(窃喜)。
抱着一颗敬畏的心(头大),开始我的科研论文阅读之旅。
------------------------------------以上是废话---------------------------------------------------


一.标题解读


FSDR: Frequency Space Domain Randomization for Domain Generalization
用于域泛化的频域域随机化


此论文发表在CVPR2021,它的归类为域泛化。
域泛化问题感觉是一个工业上很常见的问题。数据可能来自多个不同的数据源。或者说你的训练集是高清图像进行训练,实际的测试集却是较为模糊的图片。很多情况会导致训练域与实际的测试域不匹配的问题。


Frequency Space:频率空间
Domain:领域
Randomization:随机化
Domain Generalization:领域泛化


近些年关于频域与深度学习结合的文章是比较火热的,


二.作者学校简介


Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu
最后一个是新加坡南洋理工大学计算机工程学院Shijian Lu教授,其他的作者应该是博士。(网上相关资料比较少)
在这里插入图片描述
通常论文作者打星号代表的是通讯作者,通讯作者还可以以致谢的形式标注,通讯作者是论文的总负责人,文章的成果是通讯作者的,说明思路是通讯作者的,而不是第一作者。
通讯作者一般承担课题的经费、设计、文章的书写等,他也是文章和研究材料的联系人。最重要的是,他担负着文章可靠性的责任。通讯作者的好处是能和外界建立更广泛的联系。


再介绍一下南阳理工大学:


南洋理工大学(Nanyang Technological University,简称:NTU),是新加坡的一所研究型大学,2020 QS世界大学排名第11名、2020、2021经济学人工商管理硕士(The Economist Global Full time MBA Ranking)亚洲第1名;2021 US NEWS能源与燃料、纳米科学、材料科学学科世界排名第1。
计算机学院:更偏向于那些喜欢开发、设计和实施人工智能系统的学生,同时培养学生对人工智能在项目管理和决策方面的深刻理解。。核心课程以基础为重点,侧重于人工智能知识的基础,如机器学习和深度学习,同时还有广泛的不同领域的选修课程,如图像、视频、文本和物联网数据,可以加深学生对AI理解和知识的拓展。



三.摘要解读

在这里插入图片描述

提取信息:


将源图像转移到空间空间中的不同风格以学习领域无关的特征的领域随机化已经被广泛研究。


说明自己研究的领域之前有人涉及,是一个热门的研究领域。
在这里插入图片描述


然而,大多数现有的随机化使用通常缺乏控制的GANs,甚至不希望地改变图像的语义结构。


解释GANs:(Generative Adversarial Nets)生成对抗网络 – GANs 是最近2年很热门的一种无监督算法,他能生成出非常逼真的照片,图像甚至视频。我们手机里的照片处理软件中就会使用到它。
指出之前的研究有不足之处,引出自己的研究。(论文基本写作套路)


受将空间图像转换成多个频率分量的JPEG思想的启发,我们提出了频率空间域随机化(FSDR),它通过保持域不变频率分量(DIFs)和随机域可变频率分量(DVFs)来随机化频率空间中的图像。


核心思想:保持域不变频率分量(DIFs)和随机域可变频率分量(DVFs)来随机化频率空间中的图像。
DIFs:(Distributed Inter-frame Spacing)分布式帧间间隙,在CSMA/CA中,媒体空闲,站点就在等待一个设定的时间即DIFS。
DVFs:(Dynamic voltage and frequency scaling)动态电压频率调整。

FSDR有两个独特的特点:
1)它将图像分解为DIFs和DVFs,允许对它们进行显式访问和操作,以及更可控的随机化;
2)对图像的语义结构和领域不变特征的影响最小。


我们统计检验了FCs的域方差和不变性,并设计了一个通过迭代学习动态识别和融合DIFs和DVFs的网络。


迭代学习:iterative learning


在多个领域泛化分割任务上的广泛实验表明,FSDR实现了优越的分割,并且其性能甚至与在训练中访问目标数据的领域自适应方法相当。
在这里插入图片描述
图一:我们提出的频率-空间域随机化(FSDR)通过离散余弦变换(DCT)将图像转换为多个频率分量(FCs),并识别域可变FCs(DVF)和域不变FCs(DIF)。这种显式隔离允许它随机化DVF,同时在训练中保持DIF不变,这通常会导致更具普遍性的模型。传统的空间域随机化(SSDR)在不分离和保留域不变特征的情况下将图像作为一个整体进行随机化,从而产生次优分割。绿色、蓝色和红色框分别表示DIF、DVF和随机化DVF


研究结果的图,用虚线框分类显得清晰很有条理。这是一个图像处理的过程。读完摘要还是比较懵,专业术语过多,很多都是我不知道的领域。接下来我需要查阅更多资料,对于术语缩写和陌生的专业术语需要进一步了解才能继续下一步的阅读。


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • pc电脑如何投屏到电视?DLNA主要步骤通过DLNA连接,使用WindowsMediaPlayer的流媒体播放举例:电脑和电视机都是连接的 ... [详细]
author-avatar
命硬D小童鞋
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有