当前位置: 开发笔记 > 运维 > 正文

如何在ApacheSpark中加载已经分区和排序的数据

作者：一个人跳舞__的绣绣 | 来源：互联网 | 2023-02-11 17:40

如何解决《如何在ApacheSpark中加载已经分区和排序的数据》经验，应该怎么办？

我们使用Spark 2.0.2(PySpark)对数十亿个事件进行分区和排序以进行下游处理.事件由用户划分,并在按时间戳排序的分区内.事件以Avro格式存储.下游处理是Spark(PySpark)应用程序,应该从这种分区和排序中受益.

我想知道下游应用程序如何告诉Spark它正在加载的数据(RDD/Dataframe)已经被分区并在分区内排序.我可以在分区内指定重新分区和排序,我假设Spark会随机排序并排序,因为它不知道数据的布局.这可能很昂贵,因为我们正在谈论数十亿的事件.我想避免这种情况.我怎样才能做到这一点？

谢谢 - Rupesh

apache
spark

推荐阅读

apache
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
apache
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
apache
Spark Streaming和Kafka整合之路（最新版本）

2019独角兽企业重金招聘Python工程师标准最近完成了SparkStreaming和Kafka的整合工作，耗时虽然不长，但是当中还是遇到了不少 ... [详细]

蜡笔小新 2023-10-16 17:29:47
apache
Spark：【error】远程调试 root:supergroup:drwxrxrx

Exceptioninthreadmainorg.apache.hadoop.security.AccessControlException:Permissiondenied: ... [详细]

蜡笔小新 2023-10-16 14:00:28
apache
spark任务已经执行结束，但还显示RUNNING状态

spark的任务已经执行完成：scalavallinesc.textFile(hdfs:vm122:9000dblp.rdf)line:org.apache ... [详细]

蜡笔小新 2023-10-16 12:18:00
apache
基于 Docker 快速部署多需求 Spark 自动化测试环境

基于,docker,快速,部署,多,需求,spark ... [详细]

蜡笔小新 2023-10-16 11:58:06
apache
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
apache
SparkStreaming微批量处理的方法与技巧

本文介绍了SparkStreaming微批量处理的方法与技巧，包括参考文章spark_streaming_微批量处理Spark流的内容。通过本文的阅读，读者可以了解到在SparkStreaming中如何进行微批量处理，并掌握相关的方法和技巧。阅读本文可以帮助读者更好地理解和应用SparkStreaming的微批量处理功能。 ... [详细]

蜡笔小新 2023-12-10 18:07:08
服务器
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
服务器
Transformation和action是什么？区别？

RDD创建后就可以在RDD上进行数据处理。RDD支持两种操作:1.转换（transformation）:即从现有的数据集创建一个新的数据集2.动作&#x ... [详细]

蜡笔小新 2023-10-17 12:40:21
shell
7.4 基本输入源

一、文件流1.在spark-shell中创建文件流进入spark-shell创建文件流。另外打开一个终端窗口，启动进入spark-shell上面在spark-shell中执行的程序 ... [详细]

蜡笔小新 2023-10-16 21:14:54
shell
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
shell
开发笔记:Spark Java API 之 CountVectorizer

篇首语：本文由编程笔记#小编为大家整理，主要介绍了SparkJavaAPI之CountVectorizer相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:53:30
centos
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
服务器
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27

一个人跳舞__的绣绣

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章