热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

nebulagraphexchange3.0.x

文章目录什么是NebulaExchange版本系列适用场景产品优点数据源Q&Aexchange-spark2.4不能把hive表数据导入什么是NebulaExchangeNebu

文章目录

  • 什么是 Nebula Exchange
  • 版本系列
  • 适用场景
  • 产品优点
  • 数据源
  • Q & A
  • exchange-spark2.4不能把hive表数据导入


什么是 Nebula Exchange

Nebula Exchange(简称 Exchange)是一款 Apache Spark™ 应用,用于在分布式环境中将集群中的数据批量迁移到 Nebula Graph 中,能支
持多种不同格式的批式数据和流式数据的迁移。
Exchange 由 Reader、Processor 和 Writer 三部分组成。Reader 读取不同来源的数据返回 DataFrame 后,Processor 遍历 DataFrame 的
每一行,根据配置文件中fields 的映射关系,按列名获取对应的值。在遍历指定批处理的行数后,Writer 会将获取的数据一次性写入到 Nebula
Graph 中。下图描述了 Exchange 完成数据转换和迁移的过程。

在这里插入图片描述

版本系列

Exchange 有社区版和企业版两个系列,二者功能不同。社区版在 GitHub 开源开发,企业版属于 Nebula Graph 企业套餐,详情参见版本对比

适用场景

Exchange 适用于以下场景:

  • 需要将来自 Kafka、Pulsar 平台的流式数据,如日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自
    数据中心内所连接设备或仪器的遥测数据等转化为属性图的点或边数据,并导入 Nebula Graph 数据库。
  • 需要从关系型数据库(如 MySQL)或者分布式文件系统(如 HDFS)中读取批式数据,如某个时间段内的数据,将它们转化为属性图的点或边数
    据,并导入 Nebula Graph 数据库。
  • 需要将大批量数据生成 Nebula Graph 能识别的 SST 文件,再导入 Nebula Graph 数据库。
  • 需要导出 Nebula Graph 中保存的数据。

仅企业版 Exchange 支持从 Nebula Graph 中导出数据。


产品优点
  • 适应性强:支持将多种不同格式或不同来源的数据导入 Nebula Graph 数据库,便于迁移数据。
  • 支持导入 SST:支持将不同来源的数据转换为 SST 文件,用于数据导入。
  • 支持 SSL 加密:支持在 Exchange 与 Nebula Graph 之间建立 SSL 加密传输通道,保障数据安全。
  • 支持断点续传:导入数据时支持断点续传,有助于节省时间,提高数据导入效率。(目前仅迁移 Neo4j 数据时支持断点续传。)
  • 异步操作:会在源数据中生成一条插入语句,发送给 Graph 服务,最后再执行插入操作。
  • 灵活性强:支持同时导入多个 Tag 和 Edge type,不同 Tag 和 Edge type 可以是不同的数据来源或格式。
  • 统计功能:使用 Apache Spark™ 中的累加器统计插入操作的成功和失败次数。
  • 易于使用:采用 HOCON(Human-Optimized Config Object Notation)配置文件格式,具有面向对象风格,便于理解和操作。

数据源

Exchange 3.0.0 支持将以下格式或来源的数据转换为 Nebula Graph 能识别的点和边数据,然后通过 nGQL 语句的形式导入 Nebula Graph:

  • 存储在 HDFS 或本地的数据:
  • Apache Parquet
  • Apache ORC
  • JSON
  • CSV
  • Apache HBase™
  • 数据仓库:
  • Hive
  • MaxCompute
  • 图数据库:Neo4j(Client 版本 2.4.5-M1)
  • 关系型数据库:
  • MySQL
  • PostgreSQL
  • 列式数据库:ClickHouse
  • 流处理软件平台:Apache Kafka®
  • 发布/订阅消息平台:Apache Pulsar 2.4.5

除了用 nGQL 语句的形式导入数据,Exchange 还支持将数据源的数据生成 SST 文件,然后通过 Console 导入 SST 文件。
此外,企业版 Exchange 支持以 Nebula Graph 为源,将数据导出到 CSV 文件。

Q & A
exchange-spark2.4不能把hive表数据导入

Q:
用exchange-spark2.4 最终编译为nebula-exchange_spark_2.4-3.0.0.jar

现在操作为从hive中导入到nebulagraph3.0遇到两问题
1 在用spark2.4.8 scala212导入时,应该是兼容问题不能成功导入
2 后来用spark.2.4.5 操作 现在提示找不到hive中表,可以确认单独运行spark查询这张表是没有问题的
后又看3.0.2文档中有写加入-h true才能开启hive,但这个参数应该在最后加,加上后如下错误
在这里插入图片描述
A:
与文档一样操作编译jar

mvn clean package -Dmaven.test.skip=true -Dgpg.skip -Dmaven.javadoc.skip=true -pl nebula-exchange_spark_2.4 -am -Pscala-2.11 -Pspark-2.4

文档导入hive写的,需要参数hive支持
在这里插入图片描述
需要改变下参数写法

export SPARK_HOME=/opt/spark-2.4.5-211
$SPARK_HOME/bin/spark-submit \
--master yarn \
--deploy-mode client \
--class com.vesoft.nebula.exchange.Exchange \
--files /home/bigdata_tec/wsw/graph/application.conf \
/home/bigdata_tec/wsw/graph/nebula-exchange_spark_2.4-3.0.0.jar -c /home/bigdata_tec/wsw/graph/application.conf -h

还有提示版本为Nebula Graph Exchange 2.0.0可能是个内部小bug


推荐阅读
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • mac php错误日志配置方法及错误级别修改
    本文介绍了在mac环境下配置php错误日志的方法,包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别,以及相应的错误级别参考链接。 ... [详细]
  • iOS超签签名服务器搭建及其优劣势
    本文介绍了搭建iOS超签签名服务器的原因和优势,包括不掉签、用户可以直接安装不需要信任、体验好等。同时也提到了超签的劣势,即一个证书只能安装100个,成本较高。文章还详细介绍了超签的实现原理,包括用户请求服务器安装mobileconfig文件、服务器调用苹果接口添加udid等步骤。最后,还提到了生成mobileconfig文件和导出AppleWorldwideDeveloperRelationsCertificationAuthority证书的方法。 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文介绍了在Linux下安装Perl的步骤,并提供了一个简单的Perl程序示例。同时,还展示了运行该程序的结果。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序,实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包,解决了客户在安装软件时的复杂配置和繁琐问题,便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务,其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下,执行mysqld --install MySQL5命令。 ... [详细]
  • 本文讨论了在openwrt-17.01版本中,mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下,而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等,生成后的mac地址会保存在/etc/config/network下。 ... [详细]
  • r2dbc配置多数据源
    R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]
  • web.py开发web 第八章 Formalchemy 服务端验证方法
    本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例,详细说明了对各字段的验证要求,包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]
  • 本文介绍了如何清除Eclipse中SVN用户的设置。首先需要查看使用的SVN接口,然后根据接口类型找到相应的目录并删除相关文件。最后使用SVN更新或提交来应用更改。 ... [详细]
author-avatar
mobiledu2502862363
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有