热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

图形商标近似检索知擎者的Milvus实践

✏️作者介绍:王杰,知擎者数据挖掘算法工程师应用背景知擎者是一个商标大数据智能应用平台,以商标数据为核心,结合企业大数据、法

✏️  作者介绍:

王杰,知擎者数据挖掘算法工程师 

  应用背景

知擎者是一个商标大数据智能应用平台,以商标数据为核心,结合企业大数据、法律大数据、营销大数据等,提供基础业务处理、商标预警监测、案件智能挖掘、数据情报分析等服务,为知产服务者提效赋能。知擎者不断协助知产服务者改变传统业务处理模式,创建智慧服务新体系,拓展更多业务机会,以达到知产服务者快速盈利和品牌建设的目标。 

近年来,品牌文化大力发展,文字商标的注册随之越发饱和,申请难度越来越大。因此,越来越多国人开始转向图形商标申请。 

图形商标的申请及监测在代理人(知产服务者)确权业务中占比越来越大。代理人(知识产权服务者)对图形商标查询和监测的需求越发强烈。为此,知擎者提供以图搜图功能,协助代理人快速检索近似图形商标。 

知擎者已有近两千万的图形商标图片数据。根据这些数据和卷积神经网络 VGG16 模型,我们训练出图片特征提取模型,用于提取图片的特征向量。为了快速将全量图片数据转化成特征向量数据,我们将特征提取模型及代码分别布置在多台服务器上,通过请求 flask 获取任务以实现图片数据同步处理,快速获取特征向量。最后,由于 Milvus 只能单点上传数据且在数据上传时会同步建立向量索引,所以我们将特征向量归纳起来统一插入到 Milvus。 

尼斯分类(International (Nice) Classification of Goods and Services),由世界知识产权组织(WIPO)提供,将商品和服务分为 45 个类别,用于区分商标适用范围[1]。为帮助用户提取不同类别的图形商标图片,我们以类别为分区标签将特征向量数据分区存储在 Milvus 中。用户只需在客户端上传图片,程序内部会自动通过同一个模型提取特征向量,从 Milvus 中查找近似向量的 id, 获取对应的近似图片。最后,程序会进一步筛选官方给定的图片内容形容词、图形商标类别以及 Milvus 返回的近似得分等,将结果返回给客户端。

  图片特征向量提取:卷积神经网络 VGG 16 模型

卷积神经网络 VGG16 模型是一种图片分类模型,具有简洁易懂、快速精确等优点,能够适应各种图片尺寸。图片传入模型变化分类如下图所示: 

VGG16 模型顾名思义是共有 16 个层的卷积神经网络。VGG 各种级别的结构都采用了 5 段卷积,每一段具有一个或多个卷积层。同时,每一段卷积的尾部都连接着一个最大池化层以缩小图片尺寸。每一段卷积内的卷积核数量一致,越靠后的卷积核数量越多 64-128-256-512-512[2]。VGG16 的所有卷积核都是 3*3 格式,池化层均选用 2*2 的池化核,因此能够保留更多图片信息。确定向量模型后,我们通过 Python、Tensorflow 、Keras 等 Python 模块完成了图片特征向量模型训练。 

  图片特征向量检索:Milvus 向量相似度搜索引擎

我们在获取特征向量后需要从海量数据中快速检索近似的特征向量。通过百度、知乎等信息渠道,我们了解到 Milvus 和 Faiss 两种工具。对比后我们发现 Milvus 比起 Faiss 整体更加便捷。安装 Milvus 时,我们只需要通过 Docker 拉取镜像,更改几个相应的参数便能快速完成安装。Milvus 官网提供包含 Python、Java、Golang、RESTful、C++ 等多个平台详细而直观的 API 供学习使用,因此十分便于上手。此外,Milvus 还支持通过多种索引检索近似向量,官网上还附有详细的索引介绍。总体而言,Milvus 操作便捷,对用户十分友好,适用于需要控制开发成本的项目。

Milvus v0.10.3 架构如下图所示 [3]: 

 

效果展示

结合了 Milvus 的知擎者以图搜图功能已经正式上线。目前该功能运行稳定,检索效率可以满足正常使用。效果如下图所示: 

我们团队仍会持续进行功能优化,解决例如图形商标颜色区分、文字商标干扰等问题。 

  总结

随着商标注册量逐年增长,图形商标作为企业品牌核心,其近似检索也会变得越发重要。知擎者团队将不断优化以图搜图功能。当前,文本、图像、音频等非结构化数据呈爆炸式增长。将非结构化数据通过 Embedding 技术映射成多维向量后再进行检索已成为趋势。Milvus  是一款开源的分布式向量相似度搜索引擎,具有高性能、易部署等特性。Milvus 能极大节省项目开发成本,显著提升系统检索性能,从而满足各种技术和业务需求。知擎者将会时刻关注 Milvus 的优化,在未来更丰富的业务场景中与 Milvus 再度合作。 

 

参考资料 

1. 尼斯分类:

https://web.archive.org/web/20170831234900/http://web2.wipo.int/classifications/nice/nicepub/en/fr/edition-20170101/taxonomy/class-7/?pagination=no&lang=en&mode=flat&explanatory_notes=show&basic_numbers=show

2. 卷积神经网络 Vgg16 :

https://blog.csdn.net/qq_34823656/article/details/92410152 

3. Milvus官方文档:

https://milvus.io/cn/docs/v0.10.3/overview.md 

4. 知擎者官网:

https://zqz510.com/ 

 

更多 Milvus 用户案例

· 基于语义向量的内容召回和短文本分类的错误查找-搜狐的 Milvus 实战

· 贝壳找房基于Milvus的向量搜索实践(三)

· 基于 Milvus 构建的近似最近邻(ANN)搜索引擎

· 我的机器人新同事

  欢迎加入 Milvus 社区

github.com/milvus-io/milvus | 源码

milvus.io | 官网

milvusio.slack.com | Slack 社区

zhihu.com/org/zilliz-11| 知乎

zilliz.blog.csdn.net | CSDN 博客

space.bilibili.com/478166626 | Bilibili


推荐阅读
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • Android系统源码分析Zygote和SystemServer启动过程详解
    本文详细解析了Android系统源码中Zygote和SystemServer的启动过程。首先介绍了系统framework层启动的内容,帮助理解四大组件的启动和管理过程。接着介绍了AMS、PMS等系统服务的作用和调用方式。然后详细分析了Zygote的启动过程,解释了Zygote在Android启动过程中的决定作用。最后通过时序图展示了整个过程。 ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
  • .NetCoreWebApi生成Swagger接口文档的使用方法
    本文介绍了使用.NetCoreWebApi生成Swagger接口文档的方法,并详细说明了Swagger的定义和功能。通过使用Swagger,可以实现接口和服务的可视化,方便测试人员进行接口测试。同时,还提供了Github链接和具体的步骤,包括创建WebApi工程、引入swagger的包、配置XML文档文件和跨域处理。通过本文,读者可以了解到如何使用Swagger生成接口文档,并加深对Swagger的理解。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
author-avatar
zhqnnnzhqnn丿n_699
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有