如何使用ApacheSpark读/写协议缓冲区消息？

作者：L爱你j_828 | 来源：互联网 | 2022-12-06 10:58

如何解决《如何使用ApacheSpark读/写协议缓冲区消息？》经验，是哪儿的问题？

我想使用Apache Spark从/向HDFS读取/写入协议缓冲区消息。我发现了以下建议的方法：

1）使用Google的Gson库将protobuf消息转换为Json，然后由SparkSql对其进行读写。该解决方案在此链接中进行了解释，但是我认为这样做（转换为json）是一项额外的任务。

2）转换为Parquet文件。有这样的parquet-mr和sparksql-protobuf github项目，但是我不想要Parquet文件，因为我总是处理所有列（而不是某些列），并且Parquet Format不会给我带来任何收益（至少我认为）。

3）ScalaPB。可能正是我要找的东西。但是用斯卡拉语言我对此一无所知。我正在寻找基于Java的解决方案。此youtube视频介绍了scalaPB并说明了如何使用它（适用于scala开发人员）。

4）通过使用序列文件，这就是我想要的，但是对此一无所获。因此，我的问题是：如何将protobuf消息写到HDFS上的序列文件中？任何其他建议将是有用的。

5）通过推特的象鸟图书馆。

推荐阅读

format
Spark中组件Mllib的学习32之朴素贝叶斯分类器（伯努利朴素贝叶斯）*

更多代码请见：https:github.comxubo245SparkLearningSpark中组件Mllib的学习之分类篇1解释（1） ... [详细]

蜡笔小新 2023-10-13 11:52:37
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
char
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
stream
Spark Streaming和Kafka整合之路（最新版本）

2019独角兽企业重金招聘Python工程师标准最近完成了SparkStreaming和Kafka的整合工作，耗时虽然不长，但是当中还是遇到了不少 ... [详细]

蜡笔小新 2023-10-16 17:29:47
stream
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
stream
spark任务已经执行结束，但还显示RUNNING状态

spark的任务已经执行完成：scalavallinesc.textFile(hdfs:vm122:9000dblp.rdf)line:org.apache ... [详细]

蜡笔小新 2023-10-16 12:18:00
stream
基于 Docker 快速部署多需求 Spark 自动化测试环境

基于,docker,快速,部署,多,需求,spark ... [详细]

蜡笔小新 2023-10-16 11:58:06
function
PySparkDataFrame过滤嵌套列

我知道那里有很多类似的问题，但我还没有找到任何与我的场景完全匹配的问题，所以请不要对重复标志太满意。我正在使用Spark3.0.1在AzureDatabrick ... [详细]

蜡笔小新 2023-10-14 18:02:19
python
探索MLlib机器学习

公众号后台回复关键词：pyspark，获取本项目github地址。MLlib是Spark的机器学习库，包括以下主要功能。实用工具ÿ ... [详细]

蜡笔小新 2023-10-14 16:50:50
python
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
python
杭州｜大数据开发专家 2545K·15 薪

背景信息公司目前有40人，研发人员占比60-70% ... [详细]

蜡笔小新 2023-10-13 16:32:30
python
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
python
org.apache.catalina.LifecycleEvent类的使用及代码示例

标题： ... [详细]

蜡笔小新 2023-12-13 11:03:10
python
Java项目管理工具及配置教程推荐

本文介绍了一些Java开发项目管理工具及其配置教程，包括团队协同工具worktil，版本管理工具GitLab，自动化构建工具Jenkins，项目管理工具Maven和Maven私服Nexus，以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]

蜡笔小新 2023-12-13 06:45:16

L爱你j_828

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章