作者:全都变了吗 | 来源:互联网 | 2023-10-10 17:03
合并文件:当一个文件夹下有很多的较小的文本文件,我们希望将其合并成一个文件,可以使用cat 文件夹名* 文件名如homeusersougou目录下有500个1M大小的文本文件,
合并文件:
当一个文件夹下有很多的较小的文本文件,我们希望将其合并成一个文件,可以使用cat 文件夹名/* > 文件名
如/home/user/sougou/目录下有500个1M大小的文本文件,我们希望将其合并成一个文件:
先cd到家目录下:cd /home/user
然后合并文件:cat sougou/* > sougouall.txt
执行以上命令后我们将在/home/user/目录产生一个sougouall.txt的文本文件
对数据的处理:删除每行第一个和最后一个字符
现在我们已经有了sougouall.txt的数据,但是sougouall.txt文件是json格式的,每一行都形如:[{“name”:”zhang”,”age”:”21″,”sex”:”M”}] ,而我想通过hive中的get_json_object函数操作这些数据,所以我希望去掉每一行第一个 [ 以及最后一个 ],可以使用一下命令:
sed ‘s/^\[//g’ sougouall.txt >sougouall1.txt
sed ‘s/\]-r$//g’ sougouall1.txt > sougouall2.txt
以上两条命令可以分别去掉以[开头的[以及以]结尾的]