我有一个大的分隔文件(管道'|'作为分隔符)我已经设法根据第一(数字),第二(数字)和第四列(字符串排序)排序(使用linux排序),因为它是一个时间戳值).该文件是这样的:
77|141|243848|2014-01-10 20:06:15.722|2.5|1389391203399 77|141|243849|2014-01-10 20:06:18.222|2.695|1389391203399 77|141|243850|2014-01-10 20:06:20.917|3.083|1389391203399 77|171|28563|2014-01-10 07:08:56|2.941|1389344702735 77|171|28564|2014-01-10 07:08:58.941|4.556|1389344702735 77|171|28565|2014-01-10 07:09:03.497|5.671|1389344702735 78|115|28565|2014-01-10 07:09:03.497|5.671|1389344702735
我想知道是否有一种简单的方法可以在第一列或第二列值发生变化时将此文件拆分为多个文本文件,其中包含awk,sed,grep或perl one liner.示例文件的最终结果应该是3个文本文件:
77|141|243848|2014-01-10 20:06:15.722|2.5|1389391203399 77|141|243849|2014-01-10 20:06:18.222|2.695|1389391203399 77|141|243850|2014-01-10 20:06:20.917|3.083|1389391203399 77|171|28563|2014-01-10 07:08:56|2.941|1389344702735 77|171|28564|2014-01-10 07:08:58.941|4.556|1389344702735 77|171|28565|2014-01-10 07:09:03.497|5.671|1389344702735 78|115|28565|2014-01-10 07:09:03.497|5.671|1389344702735
我当然可以用Java做到这一点,但我认为如果可以用脚本完成它会有点矫枉过正.另外,创建的文件名是否可能使用这两个列值,第一个文件为77_141.txt,第二个文件为77_171.txt,第三个文件为78_115.txt?
awk
对于这类问题非常方便.这可能是一种方法:
awk -F"|" '{print >> $1"_"$2".txt"}' file
-F"|"
将字段分隔符设置为|
.
{print > something}
将行打印到文件中something
.
$1"_"$2".txt"
而不是something
将输出文件设置为$1"_"$2
,作为$1
基于|
分隔符的第一个字段.也就是说,77
,78
...而同为$2
,是141
,171
...