热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究

雷锋网AI科技评论按:网络是大数据的重要组织形式,然而网络化的数据由于缺少高效可用的节点表示,而难于直接应用。网络化数据表示学习通过将高维稀疏难于应用的数据转化为低维紧凑易于应用的

雷锋网AI科技评论按:网络是大数据的重要组织形式,然而网络化的数据由于缺少高效可用的节点表示,而难于直接应用。网络化数据表示学习通过将高维稀疏难于应用的数据转化为低维紧凑易于应用的表达而受到广泛关注。网络化数据表示学习的一个重要任务就是重叠社区发现。本文就是为大家介绍基于网络化数据表示学习的重叠社区发现的最新研究。文章内容根据中科院孙冰杰博士在雷锋网GAIR大讲堂的线上直播公开课整理而成。

在近日雷锋网(公众号:雷锋网) GAIR 大讲堂线上直播课上,来自中科院计算所网络数据科学与技术重点实验室的孙冰杰博士为大家做了一场主题为「基于网络化数据表示学习的重叠社区发现研究」的分享,详细介绍了他们团队最近在基于网络化数据表示学习的重叠社区发现研究上的相关工作。

孙冰杰,中科院计算所博士研究生,主要研究方向为网络结构分析,网络表示学习。

分享内容:

我将从以下四个方面对我们团队最近所做的研究做详细介绍。

  • 研究背景及挑战

  • 对称编解码重叠社区发现方法:SEND

  • 重叠社区发现方法加速研究

  • 总结

首先看我们研究工作的背景及挑战。

大数据领域中大部分数据是以网络形式进行组织的,比如社交媒体中的社交网络,科研领域中的引用网络,生物领域的中蛋白质相互作用网络,以及交通领域中的航空网路或路网。网络化数据之后节点之间的复杂关系是导致大数据处理困难的重要原因。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

网络化数据在不同粒度下对应的理论与应用研究也是不同的。在微观粒度上,主要研究的是节点层面上的任务,当节点聚集形成社区的时候,研究的是社区层面上的任务。在宏观层面上,我们研究的是在整个网络上的任务。

在这次分享上,我们主要研究在中观粒度下的社区发现任务。它主要由三元闭包理论和强弱连接理论为支撑,主要支撑的应用有社区发现应用等。

中观粒度上的社区发现任务:向下可通过节点表示支持微观粒度的任务,向上可通过网络生成支持宏观粒度的任务。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

基于网络化数据表示学习的重叠社区发现所面临的问题和挑战

相对于传统节点表示,它的功能是比较单一的,只支持重叠社区指示,无法支持一些其他的任务。但现有的重叠社区指示方法没办法用在大规模网络上。这是针对社区指示能力和多任务支持能力之间的矛盾以及海量数据处理任务的挑战。

为此我们团队做了两方面的工作。

工作一:非负对称编解码模型

节点表示的社区指示能力需要满足多种约束条件。一般需要满足三个约束条件,非负性,稀疏性和分布性。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

节点表示的多任务支持能力

需要节点表示能充分恢复数据在原始空间中的相似性关系,对节点表示添加的约束越多,对数据的恢复能力影响越大。因此这之间是矛盾的。矛盾主要体现在基于网络化数据表示的社区发现相关工作。     中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作一是针对重叠社区得到节点表示的社区表示能力和数据还原能力之间的矛盾。目标是保证节点表示的社区指示能力和对原始数据的还原能力。

所面临的问题:

  • 如何在数据恢复过程中对节点表示进行约束增加指示能力。

  • 传统的OCD只优化解码过程,节点表示功能单一,不能应用于其他任务。

  • OCD节点表示的显示约束使优化困难

解决方案:用户点表示同时对原始数据进行编解码操作,保证学习到高质量节点表示。通过编解码过程对对称性节点表示进行隐式约束,保证指示能力。

具体来说,OCD模型通过重构输入数据学习节点表示,通过正则项等对节点表示进行显式约束,保证节点表示的指示能力。但传统的OCD目标函数相当于只优化了解码过程(生成原始数据)

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

OCD目标函数忽略了编码过程,导致模型学习到的节点表示无法充分体现节点在原空间中的相似性,因此应用在下游任务上准备性较低,且无法处理新样本数据。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

以上提出的对称编解码模型可以同时解决节点表示的指示能力和对多种下游任务的支持能力。

通过优化编码和解码过程保证节点表示的数据还原能力,通过隐式约束保证节点表示的社区表示能力,从而最终在多种类型网络的多个任务上取得了目前最好的效果。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

进一步介绍这个模型的普适性,我们希望这个节点表示能够用在更多的任务上。因此我们采用了多种类型的网络,比如说二部网络,有向网络、有权网络、层次网络等,也采用了多种类型输入,比如说节点序列输入,邻接矩阵输入等。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作小结:本文工作针对重叠社区发现得到的节点表示存在的“指示能力和多任务支持”之间的矛盾,设计了一种同时优化编解码过程的模型,可以保证节点表示的指示能力并且在多种类型网络的多个任务上取得了最好的效果。

工作二:重叠社区发现方法加速研究

现有的重叠社区发现方法存在“速度与精度”之间的矛盾,在面临大规模网络时,无法拿来急用。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

关于问题一,如何选择高质量的参数迭代初始点。提出利用一个与非凸目标函数近似的凸目标函数的优化结果作为非凸目标函数优化的迭代初始点,以保证最终速度和效果。

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结 

重叠社区发现的模型选择

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

关于问题二,解决由迭代过程的复杂性带来的优化困难问题。传统的应对迭代过程复杂性的方法是采样和近似。这类方法是影响精度且仍然不够快

解决方案:网络结构局部聚集特性和节点表示的稀疏性,相应地设计了“维度级”和“连边级”两级加速策略,对模型进行加速。 

中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结

工作小结:针对基于泊松模型的重叠社区发现方法,目标函数的非凸性和迭代过程的复杂性,提出了两种加速策略,分别解决了初始点选择问题和迭代过程复杂问题。可以处理真实大规模网络。

综上所述:针对重叠社区发现任务,我们主要解决了三个问题。编解码模型解决了重叠社区发现得到的节点表示的社区指示能力和数据恢复能力之间的矛盾。快速初值模型解决了目标函数非凸性带来的可扩展性问题。两级加速模型解决了优化过程复杂性带来的可扩展性问题。

视频回放链接:http://www.mooc.ai/open/course/357


中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究 | 分享总结


推荐阅读
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • 本文介绍了Linux Shell中括号和整数扩展的使用方法,包括命令组、命令替换、初始化数组以及算术表达式和逻辑判断的相关内容。括号中的命令将会在新开的子shell中顺序执行,括号中的变量不能被脚本余下的部分使用。命令替换可以用于将命令的标准输出作为另一个命令的输入。括号中的运算符和表达式符合C语言运算规则,可以用在整数扩展中进行算术计算和逻辑判断。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了Perl的测试框架Test::Base,它是一个数据驱动的测试框架,可以自动进行单元测试,省去手工编写测试程序的麻烦。与Test::More完全兼容,使用方法简单。以plural函数为例,展示了Test::Base的使用方法。 ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • 本文介绍了在Linux下安装Perl的步骤,并提供了一个简单的Perl程序示例。同时,还展示了运行该程序的结果。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 本文介绍了在Windows环境下如何配置php+apache环境,包括下载php7和apache2.4、安装vc2015运行时环境、启动php7和apache2.4等步骤。希望对需要搭建php7环境的读者有一定的参考价值。摘要长度为169字。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • 分享2款网站程序源码/主题等后门检测工具
    本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具,分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具,采用多重检测引擎和智能检测模型,能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎,能够分析更为隐藏的WebShell后门行为。 ... [详细]
author-avatar
手机用户2602916917
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有