热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ArgMiner:一个用于对论点挖掘数据集进行处理、增强、训练和推理的PyTorch的包

论点挖掘(ArgumentMining)是一项从文本中提取论点成分的任务,通常作为自动写作评估系统的一部分。这是自然语言处理中一个非常热门的领域。一个好的AM模型可以将一段原始将一

论点挖掘(Argument Mining)是一项从文本中提取论点成分的任务,通常作为自动写作评估系统的一部分。这是自然语言处理中一个非常热门的领域。一个好的 AM 模型可以将一段原始将一段原始文本的序列标记为它们所属的论点内容。虽然历史上这一问题被视为一个语义分割问题,最先进的(SOTA) AM技术把它作为一个命名实体识别(NER)问题的长序列的文本。

尽管有这个领域的历史,关于NER AM数据集的文献相对较少,自2014年以来的唯一贡献是Christian Stab和Iryna Gurevych的Argument Annotated Essays。最近(截至2022年3月),随着PERSUADE(在Kaggle竞赛Feedback Prize中使用)和ARG2020数据集(在GitHub发布),这种情况虽然得到了改善,但很少有关于AM模型的跨数据集性能测试。因此也没有研究对抗性训练如何提高AM模型的跨数据集性能。对AM模型对抗实例的鲁棒性研究也较少。

由于每个数据集都以不同的格式存储,使上述挑战变得更加复杂,这使得在实验中对数据进行标准化处理变得困难(Feedback Prize比赛就可以确认这一点,因为大部分代码都是用于处理数据的)。

本文介绍的ArgMiner是一个用于使用基于Transformer的模型对SOTA论点挖掘数据集进行标准化的数据处理、数据增强、训练和推断的pytorch的包。本文从包特性介绍开始,然后是SOTA数据集的介绍,并详细描述了ArgMiner的处理和扩展特性。最后对论点挖掘模型的推理和评估(通过Web应用程序)进行了简要的讨论。


ArgMiner简介

ArgMiner 的主要特点总结如下:



  • 处理SOTA 数据集,而无需编写任何额外的代码行

  • 可以在单词和子标记级别生成以下标记方法 {io, bio, bioo, bixo},无需额外的代码

  • 可以在不更改数据处理管道的情况下进行自定义增强

  • 提供一个 用于使用任何 HuggingFace TokenClassification 模型进行论点挖掘微调的PyTorch数据集类

  • 提供高效的训练和推理流程

下图显示了 ArgMiner 的端到端工作:

完整文章

https://avoid.overfit.cn/post/8bed8579a0c6485fab8c414dbf6eff90



推荐阅读
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • Android实战——jsoup实现网络爬虫,糗事百科项目的起步
    本文介绍了Android实战中使用jsoup实现网络爬虫的方法,以糗事百科项目为例。对于初学者来说,数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据,并以糗事百科作为练手项目。同时,提到了使用jsoup需要结合前端基础知识,以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • AstridDAO 专访:波卡稳定币黑马 BAI
    加入Pol ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • 闭包一直是Java社区中争论不断的话题,很多语言都支持闭包这个语言特性,闭包定义了一个依赖于外部环境的自由变量的函数,这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例,介绍了闭包的定义和特性。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • Python15行代码实现免费发送手机短信,推送消息「建议收藏」
    Python15行代码实现免费发 ... [详细]
  • 关于如何快速定义自己的数据集,可以参考我的前一篇文章PyTorch中快速加载自定义数据(入门)_晨曦473的博客-CSDN博客刚开始学习P ... [详细]
  • Thisworkcameoutofthediscussioninhttps://github.com/typesafehub/config/issues/272 ... [详细]
  • adfs是什么_培训与开发的概念
    adfs是什么_培训与开发的概念(如您转载本文,必须标明本文作者及出处。如有任何疑问请与我联系me@nap7.com)ADFS相关开发技术的中文资料相对匮乏,之前在弄这个东西的时候 ... [详细]
author-avatar
拉桑357_584
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有