热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于人工智能:大规模中文多模态评测基准MUGE发布

简介:MUGE全称是MultimodalUnderstandingandGenerationEvaluationBenchmark,是由达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准,领有以后最大规模的中文多模态评测数据集,笼罩多种类型的工作,包含图文形容、基于文本的图像生成、跨模态检索等。MUGE的推出旨在解决以后中文多模态畛域上游任

简介:MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark,是由达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准,领有以后最大规模的中文多模态评测数据集,笼罩多种类型的工作,包含图文形容、基于文本的图像生成、跨模态检索等。MUGE的推出旨在解决以后中文多模态畛域上游工作数据集匮乏的问题,并且为宽广研究者提供平台和评测基准去掂量算法模型的有效性。

背景

近年来,大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言解决等畛域疾速倒退,同时也推动了多模态表征学习的钻研。2020年Jeff Dean就曾指出,多模态钻研将会是将来钻研一大趋势。在国内,目前阿里巴巴达摩院智能计算实验室也在深度摸索中文多模态预训练及超大规模预训练,近期相继推出了百亿、千亿和万亿参数M6模型[1],实现了以后最大规模的多模态预训练模型,并将其利用到各大上游工作,宽泛落地到搜寻、举荐、服饰设计、智能文案等实在场景中。

然而,目前多模态畛域的评测基准和数据集多以英文为主,如MSCOCO的Image Captioning[2],VQA[3][4],textVQA,VCR等,并且不足一个对立的评测基准让钻研人员能够全面评测本人的模型在不同场景以及不同工作类型的体现。以后中文畛域的多模态公开数据集和榜单更是乏善可陈。思考到中文多模态畛域的蓬勃发展,达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准MUGE,领有以后最大规模的中文多模态评测数据集,笼罩多种类型的工作,包含图文形容、基于文本的图像生成、跨模态检索等,对模型开展了全方位的评测,帮忙钻研人员对本人的模型失去更好的了解。

MUGE介绍

MUGE全称是Multimodal Understanding and Generation Evaluation Benchmark,首期次要凋谢中文多模态相干上游工作数据集和评测榜单,旨在帮忙中文多模态钻研人员全方位评估算法模型。MUGE将实现多场景多任务的笼罩,其中包含了解类工作,如跨模态检索、跨模态分类等,以及生成类工作,如图文形容、基于文本的图像生成等,钻研人员可能从理解能力和生成能力两大角度去评估算法模型。首期凋谢了包含了如下3个工作:

E-Commerce IC(Image Caption)

图像形容生成是一项经典的多模态工作,工作指标是依据一张图像生成相应的文字描述,要求生成的形容须如实反映图中的物体以及要害细节。电商畛域有着泛滥的商品图片,将图像形容技术利用于电商畛域,为每个商品生成一段富含吸引力的形容,对于吸引用户的点击、进步转化率有着重要的意义。

本次公布E-Commerce IC数据集涵盖了服装、食品、化妆品、3C数码配件等泛滥商品类目,所有数据均来源于实在的淘宝电商场景。其中,商品对应的文字描述由商家依据商品个性来撰写,不同文案间的格调差别很大,这给图像形容的生成带来了很多挑战。ECommerce-IC共蕴含5w条训练数据和5k条验证集数据,同时提供1w张图片用于在线评测,是目前业界最大的中文电商Caption数据集。

上面是两个样例:

例子1:

  • 输出(商品图片):

  • 输入(商品文案形容):应用原始北欧格调,崇尚天然,以木色、彩色、红色作为整体色调,给人舒服平静的感觉,轻松就餐,能力留住好食光,在极简风的北欧餐厅中,纵情享受美食。

例子2:

  • 输出(商品图片):

  • 输入(商品文案形容):西装印花裙的两件套,知性中又有带着优雅洒脱。雅致的印花裙邂逅西服,轻松打造粗劣的职场女神。脱掉外套仍然漂亮优雅,不失为理智的穿搭。V领的设计更显女性的性感魅力。如行走的时装画册粗劣,有品位更具备风度。

E-Commerce T2I(Text to Image):

文本到图像生成是一项具备挑战性的工作,它须要图像生成以及对跨模态了解的能力。工作指标是依据一段文本形容,生成合乎相应形容的图像,同时要求图像清晰且真切。电商畛域有着泛滥的商品图片,将文本到图像生成技术利用于电商畛域,对于商品上新、设计、散发,缩小商家经营老本,进步用户体验有着重要的意义。

本次公布的ECommerce-T2I数据集涵盖了服装、饰品、化妆品内的多个商品类目,所有数据均来源于实在淘宝电商场景。整个数据集由训练集、验证集和测试集组成。其中训练集有9w张图片,验证集和测试集各有5k张。此外,本数据集内的图片均为白底图,选手无需额定的精力放在背景生成上,次要考查模型对商品文本的了解和生成能力,进步物体的生成品质。

上面是两个样例:

例子一:

  • 输出(文本):绵羊毛商务休闲西服套装
  • 输入(生成图像):

例子二:

  • 输出(文本):减震透气跑鞋
  • 输入(生成图像):

Multimodal Retrieval Dataset

多模态检索评估模型进行图文了解和匹配的能力,是电商场景中满足用户需要、促成点击交易不可短少的一环。在此次工作中,咱们筹备了来自于淘宝电商平台的实在搜寻query及商品图,要求模型从给定的商品池中检索出与搜寻query相匹配的商品(样例如下图)。为了更好评估模型跨模态了解的成果,咱们此次不公开商品的题目以及其余信息,要求模型仅基于商品图片进行检索召回,具备肯定的挑战性。

此次公开的电商图文检索数据集由训练集、验证集和测试集组成,其中训练集蕴含25w搜寻query-商品图形成的图文对,涵盖约12w商品图片。对于验证集和测试集,咱们各筹备了5k搜寻query和3w候选商品图片。数据集类目涵盖宽泛,波及服装、家居、电子、化妆品等多个畛域,是目前最大的中文全畛域电商图文检索数据集,对模型的泛化能力提出了考验。

上面是两个样例:

例子1:

  • 输出(Query):纯棉碎花吊带裙
  • 输入:商品图片

例子2:

  • 输出(Query):北欧轻奢边几
  • 输入:商品图片

MUGE挑战榜

MUGE的提出旨在解决以后中文多模态畛域上游工作数据集匮乏的问题,并且为宽广研究者提供平台和评测基准去掂量算法模型的有效性。此外,相较于传统榜单,MUGE的覆盖面更全,涵盖了解和生成两大类工作,并开创性地将基于文本的图像生成纳入其中。将来,MUGE也会继续地扩增更多的多模态工作及数据规模,进一步为钻研人员和开发者晋升算法模型成果而提供反对。

MUGE目前曾经在阿里云天池平台凋谢,感兴趣的研究者们能够拜访如下链接进入MUGE leaderboard参加挑战,平台会在每个月的月底评出榜单Top8选手,并赠予天池定制礼品!

MUGE挑战榜地址:https://tianchi.aliyun.com/specials/promotion/mugemultimodalunderstandingandgenerationevaluation?spm=a2c41.24125772.0.0

对于M6:

此前,达摩院智能计算实验室认知智能组鼎力推动超大规模中文多模态预训练工作钻研,先后公布了百亿、千亿和万亿参数规模的大规模预训练模型M6,在多项上游工作上获得突出的成果晋升,同时也在大规模预训练根底技术上做了深度的摸索,包含如何训练超大模型和如何设计MoE模型架构等。M6的工作目前已被KDD 2021录用。

达摩院智能计算实验室认知智能组隶属于达摩院,致力于推动认知智能钻研,在大量实在的商业场景中实现大规模落地,并在多模态预训练、大规模图神经网络等多个畛域失去开创性的世界领先后果。团队研发的认知智能计算平台荣获2019年世界人工智能翻新大赛的最高荣誉SAIL奖项,并且入选发改委国家重大建设项目库。团队曾荣获2020年国家科学技术进步奖二等奖和杭州市领军型翻新团队,人员和技术实力雄厚,累计在CCF-A类会议和期刊上发表文章超百篇。

参考资料:

[1] Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, and Hongxia Yang. 2021. M6: A chinese multimodal pretrainer. CoRR, abs/2103.00823.

[2] Chen, X., Fang, H., Lin, T., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C.L. (2015). Microsoft COCO Captions: Data Collection and Evaluation Server. _ArXiv, abs/1504.00325_.

[3] Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Parikh, D., & Batra, D. (2015). VQA: Visual Question Answering. _International Journal of Computer Vision, 123_, 4-31.

[4] Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., & Parikh, D. (2017). Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. _2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)_, 6325-6334.

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。


推荐阅读
  • 在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板
    本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤,包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读,读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • IT方面的论坛太多了,有综合,有专业,有行业,在各个论坛里混了几年,体会颇深,以前是论坛哪里人多 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
author-avatar
mobiledu2502873827
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有