热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

在AWSGluspyspark作业中从s3加载JSON

如何解决《在AWSGluspyspark作业中从s3加载JSON》经验,为你挑选了1个好方法。

我正在尝试从粘合pyspark脚本内的s3存储桶中检索JSON文件。

我在aws胶内的作业中运行此功能:

def run(spark):
    s3_bucket_path = 's3://bucket/data/file.gz'

    df = spark.read.json(s3_bucket_path)
    df.show()

在此之后,我得到:AnalysisException:u'路径不存在:s3://bucket/data/file.gz;'

我搜索了此问题,但没有发现任何类似的东西可以推断出问题出在哪里。我认为访问存储分区可能存在权限问题,但是错误消息应该有所不同。



1> 小智..:

在这里您可以尝试:

    s3 = boto3.client("s3", region_name="us-west-2", aws_access_key_id=" 
        ", aws_secret_access_key="")
    jsOnFile= s3.get_object(Bucket=bucket, Key=key)
    jsOnObject= json.load(jsonFile["Body"])

其中Key=full path to your file in bucket

并以此 jsonObjectspark.read.json(jsonObject)


推荐阅读
author-avatar
彬彬521521
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有