热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

弱水三千,只取你标!AL(主动学习)结合GAN如何?

欢迎点击上方蓝字,关注啦~相关阅读:GAN整整6年了!是时候要来捋捋了!异常检测,GAN如何gan?虚拟换衣&

欢迎点击上方蓝字,关注啦~

相关阅读:

GAN整整6年了!是时候要来捋捋了!

异常检测,GAN如何gan ?

虚拟换衣!速览这几篇最新论文咋做的!

脸部妆容迁移!速览几篇用GAN来做的论文

【1】GAN在医学图像上的生成,今如何?

01-GAN公式简明原理之铁甲小宝篇

这次简单记录下、GAN和主动学习结合的一些论文,不当处、望指正~

Active Learning 主动学习:

背景

众所周知,深度学习的崛起和广泛应用是依靠着大量的标注数据的,但在很多场合下,大规模数据的标注成本太高,同时也可能导致训练时间过长。主动学习可挑出所谓高信息的数据去标注,从而降低标注成本、减少训练时间,还可以迭代提升模型表现。

定义

目的是设计一个选择/查询函数(query function),用它来从大量的、未标注的数据池中选出具有高价值的待标注数据,递送给人工标注(oracle)后,加入训练集,反复迭代训练模型。

常见手段

主动方法常见的有基于池、基于合成的方法。

  • 基于池(pool):根据预设的选择策略选出的数据交给基准分类器预测,错误时再送人工标注。对于查询策略,如何挑选最有信息量的样本,常见地:       1)Random Sampling:随机选择;2)Uncertainty Sampling:选择当前模型最不确定的样本,如  分类概率为0.5等。但显然,这种策略受异常点、outlier 样本、冗余的样本影响。

  • 基于合成:使用生成模型生成更具有信息的样本。

1. 2017-Generative Adversarial Active Learning

https://arxiv.xilesou.top/pdf/1702.07956.pdf

简介:

第一个将GAN结合主动学习的工作,提出GAAL。采用的手段是基于合成的思路。如下图所示,还是一目了然的。

有趣的是,作者在贡献的声明强调,该工作贡献主要在于:首次将GAN和主动学习相结合,而不是要和各种SOTA方法在什么精确率上一较高下,所以论文的实验部分,作者采用的是SVM做为分类器。

当然,作者也说,我们方法是极具前景的~,并且和基于池的相比,也是competitive的呢,我们的方法也许可以启发后来者、用GAN展开相关的工作(坑已挖好,来跳,哈哈)。

实验:

对于训练数据的初始化是,随机筛选50个样本;每次1个batch对应10次queries。进行了以下几种方法的对比实验:

作者进行的是二分类的实验(多分类类似),MNIST上对数字5和7分类,CIFAR10对automobile 和 horse(也许因为当时GAN生成能力有限,或者也许作者懒得去搞最SOTA的GAN了,反正能够说明问题就行。但是采用的DCGAN实在乏力,在其实验数据上连生成猫和狗都吃力,因此选汽车和马生成效果更好区分些,2333)。作者其实也有提到一些可以改进GAN的方法,但作为未来工作,现在的实验结果先写文发出来,哈哈。

在上图的top子图可以看到,在350个训练样本的时候,GAAL开始超越SVM-active和全监督训练的方法。其他图的具体细节感兴趣可以阅读原文。更多实验结果还有:

2. 2019-10-28 Variational Adversarial Active Learning

https://arxiv.xilesou.top/pdf/1904.00370.pdf

简介:

提出一种基于池的半监督主动学习算法,通过对抗的方式学习采样/选择机制。

使用变分自编码器学习潜码空间,训练对抗网络的判别器区分数据是否被标记。进一步地,VAE和判别器之间进行对抗学习:

VAE尽可能让判别器预测所有的数据都是来自于标记池,判别器尽可能在隐空间层面区分是否为标记数据。作者认为所提出的方法可以学习有效的、低维的隐空间表征,并提供了一种高效的采样/选择方法

如下图所示,(XL,YL)表示打好标签的标记池中的标记数据, (XU)表示在大量未标记数据池中的数据。目标是训练最label-efficient的模型:通过迭代地查询一个固定的采样预算,从未标记池中挑选出最有“信息价值”的b个样本,提供给oracle(人工)进行标注。

表征学习:

Transductive representation learning

使用β变分自编码器进行表征学习。编码器在高斯先验基础上,学习一个隐含低维表征空间,解码器可以重建输入的数据。为补全有标记的数据在表征学习过程中丢失的特征,采用的是transductive learing(在训练过程中,已知testing data(unlabelled data)):

Adversarial representation learning

前面说过,大多数的采样策略的根据是模型的不确定性,例如认为:模型对预测越不确定,未标记样本包含的信息越多。但这种方法受限于异常点。相反,此方法对于采样策略的处理是,通过训练对抗网络去学习如何区分在潜在空间的表征。对抗网络中将输入映射到潜码空间,并且给一个标签,若样本是标记数据,则为1,如果是未标记数据,则为0。关键是、使用对抗的方式,VAE将标记和未标记的数据都映射到相似概率分布的空间,去欺骗判别器说所有的输入均是标记的。当然,判别器则尝试避免欺骗:

采样/选择策略:

假如说要挑选b个高质量样本给人工标注,所用依据是鉴别器的预测分数(挑选b个最低的自信度,D判断出来越小的,越可能是未标记池中的数据)。

实验:

作者在分类分割等任务都做了许多实验、去验证所提出的方法的有效性,这里就不贴了,详见原论文。

3. 2019-12-20 Adversarial Representation Active Learning

简介:

GAAL严重依赖于生成图像的质量,并且生成器和鉴别器并没有得到迭代式的提升。而VAAL仅使用了标注数据训练分类器。不同之前的方法,该文作者在VAAL基础上,提出不仅使用已标注的数据训练分类器,同时还使用未标注的和生成的数据联合训练整个模型。

先暂时写到这吧==


更多分享欢迎关注本公众号:


推荐阅读
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大,单机上运行高斯朴素贝叶斯模型会变得很慢,因此考虑使用Spark来加速运行。然而,Spark的MLlib并没有实现高斯朴素贝叶斯模型,因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式,并对具有多个特征和类别的模型进行了讨论。最后,作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]
  • [echarts] 同指标对比柱状图相关的知识介绍及应用示例
    本文由编程笔记小编为大家整理,主要介绍了echarts同指标对比柱状图相关的知识,包括对比课程通过率最高的8个课程和最低的8个课程以及全校的平均通过率。文章提供了一个应用示例,展示了如何使用echarts制作同指标对比柱状图,并对代码进行了详细解释和说明。该示例可以帮助读者更好地理解和应用echarts。 ... [详细]
  • 前言:拿到一个案例,去分析:它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的 ... [详细]
  • PRML读书会第十四章 Combining Models(committees,Boosting,AdaBoost,决策树,条件混合模型)...
    主讲人网神(新浪微博:豆角茄子麻酱凉面)网神(66707180)18:57:18大家好,今天我们讲一下第14章combiningmodel ... [详细]
  • 动量|收益率_基于MT策略的实战分析
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了基于MT策略的实战分析相关的知识,希望对你有一定的参考价值。基于MT策略的实战分析 ... [详细]
author-avatar
mobiledu2502859903
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有