文章随机晒最新文章关照最多的

jiayi Rss

awk文本处理实例(原创)

| Posted in awk |

3

awk教程一文中,我介绍了awk的基础知识。现在介绍些awk文本处理的实际例子
例一:
a.txt
    a b c d e f
    1 2 3 4 5 6
现在要变成将最后的一个字段插到第二字段后面,然后其他字段往后移,变为
  a b f c d e
  1 2 6 3 4 5

CODE

awk ‘{$2=$2" "$NF;NF–;print}’ a.txt

NF–用来欺骗print语句

例二:
用下面一列字符串
SUNW,Netra-240
SUNW,Netra-400
SUNW,Netra-800
得到240/400/800

awk解1:

CODE

awk -F"-" ‘{printf $2"/"}END{print ""}’  filename

awk解2:

CODE

awk -F"-" ‘{a=(a=="")?$2:a"/"$2}END{ print a}’ filename

恩,awk可以三目运算

其他解:

CODE

cut -d"-" -f2 filename | xargs | tr " " "/"

速度应该快些

例三:
一个网络接口参数的配置文件,格式如下:
auto eth0
        ip 192.168.0.10
        netmask 255.255.0.0
        gateway 192.168.0.1
auto eth1
        ip 192.168.0.20
        netmask 255.255.0.0
        gateway 192.168.0.1
auto bond0
        ip 10.6.5.56
        netmask 255.255.0.0
        gateway 10.6.0.1
要求解析出bond0的网关

awk解1:

CODE

awk ‘BEGIN{i=-4} $2=="bond0"{i=NR} NR==i+3’

awk解2:

CODE

awk ‘/bond0/{flag=1}flag==1&&/gateway/{print $2;flag=0}’

此法更为通用

例四
把下面一批文件,文件名前六位是200801的合并到一个文件200801
20071228 20071229 20071230 20071231 20080101 20080102 20080103 20080104 20080105 20080106

合并之前需要转换, 上述文件类似这样:
a  a  aaaaaaaa
b  b  bbbbbbbb

最后一个域按定长分割,转换成:
a,a,aaa,aa,aaa
b,b,bbb,bb,bbb

CODE

cat 200801* | awkvOFS="," ‘{print $1,$2,substr($3,1,3),substr($3,4,2),substr($3,6,3)}’

先合并后处理,与先处理后合并是一样的。只有print 语句用逗号分割或直接print 时,OFS才起作用。

例五:
报表里的数据手机号(2000+),找出全部前7位相同的为异常的号段
数据格式:
13406211154
13407349944
13409810871
13412418614
13412418935
13414598641
13414754454

执行后结果为
13412418614 
13412418935

CODE

awk ‘{a[substr($0,1,7)]=a[substr($0,1,7)]$0" ";}END{for(i in a){if(length(a)>12)print a}}’ filename

例六:

有数据如下:
no
CP_COVER_ID
20080319COVR00850228
no
CP_COVER_ID
20080319COVR00850234

ok
CP_COVER_ID
20080319COVR00850235

ok
CP_COVER_ID
20080319COVR00850248

ok
CP_COVER_ID
20080319COVR00850254

ok
CP_COVER_ID
20080319COVR00850257

no
CP_COVER_ID
20080319COVR00850259

ok
CP_COVER_ID
20080319COVR00850262

no
CP_COVER_ID
20080319COVR00850266
no
CP_COVER_ID
20080319COVR00850267
no
CP_COVER_ID
20080319COVR00850268

ok
CP_COVER_ID
20080319COVR00850276

ok
CP_COVER_ID
20080319COVR00850299

ok
CP_COVER_ID
20080319COVR00850301

ok
CP_COVER_ID
20080319COVR00850302

ok
CP_COVER_ID
20080319COVR00850304

ok
CP_COVER_ID
20080319COVR00850307

ok
CP_COVER_ID
20080319COVR00850308

ok
CP_COVER_ID
20080319COVR00850331

ok
CP_COVER_ID
20080319COVR00850334

ok
CP_COVER_ID
20080319COVR00850336

ok
CP_COVER_ID
20080319COVR00850337

要求滤成如下的格式
no
CP_COVER_ID
20080319COVR00850228
20080319COVR00850234
20080319COVR00850259
20080319COVR00850266
20080319COVR00850267
20080319COVR00850268

ok
CP_COVER_ID
20080319COVR00850235
20080319COVR00850248
20080319COVR00850254
20080319COVR00850257
20080319COVR00850262
20080319COVR00850276
20080319COVR00850299
20080319COVR00850301
20080319COVR00850302
20080319COVR00850304
20080319COVR00850307
20080319COVR00850308
20080319COVR00850331
20080319COVR00850334
20080319COVR00850336
20080319COVR00850337

干拔awk:

CODE

awk ‘/no/{flag="no";next}
     /ok/{flag="ok";next}
     /^[yn0-9]/{if(flag=="no")no=no$0"n";else ok=ok$0"n"}
     END{print "nonCP_COVER_IDn"no"noknCP_COVER_IDn"ok}’

     filename

追求速度,一趟遍历完成。time测试结果:
real    0m0.005s
user    0m0.000s
sys    0m0.004s

sed+awk:

CODE

sed -e ‘s/no/n&/;s/ok/n&/’ shu.txt | awk ‘BEGIN {FS="n";RS=""}
    $1 ~ "no" {a[i++]=$3}
    $1 ~"ok" {b[j++]=$3}
    END { print "nonCP_COVER_ID";for (k=0;k<i;k++) print a[k];
               print "oknCP_COVER_ID";for (k=0;k<j;k++) print b[k] }’

sed 将所有的 no,ok前面插入一个回车,保证文件格式如下
no/ok
CP_COVER_ID
number
1 or n个空行
no/ok
CP_COVER_ID
number
…..
让每3个记录用一个或多个空行来分割,方便awk使用RSFS来处理。但是sed多一次遍历,END中多两次循环,所以速度肯定受影响。time测试结果:
real    0m0.014s
user    0m0.008s
sys    0m0.008s

例七:
Ip=192.168.1.1
/dev/sdb1              68G   64G  760M  99% /disk1
/dev/sdc1              68G   63G  1.3G  98% /disk2
Ip=192.168.1.2
/dev/sda3              15G   13G  1.5G  90% /
/dev/sda3              15G   10G  4.2G  71% /
上面是一个检查系统的程序所得结果的部分内容。该部分主要是检查磁盘使用率的信息。现由于需要,要将该部分信息保存成下列字符串的形式
#5$192.168.1.1$[ dev/sdb1][ 99%][/dev/sdc1][ 98%]#
#5$192.168.1.2$[/dev/sda3][ 90%][/dev/sda4][ 71%]#
其中5代表类型#和$,[]都是规定的分隔符

CODE

awk ‘BEGIN{RS="IP=";OFS=""}{$1="#5$"$1"$";$2="["$2"]";$3="[ "$6"]";$4="["$8"]";$5="[ "$12"]#";NF=5;print}’ shu.txt | sed ‘{1d}’
 

RS牛力可见一斑

例八:
jiayi:/mnt/3/pdf/linuxclass/shell/experience/en # nl 1.sh
     1  #!/bin/bash
     2  echo $$
     3  ./2.sh &
执行nl命令后,每行前多出一串空格。现在要将行首空格去掉,并将行号后面的空白合并为一个空格:
1 #!/bin/bash
2 echo $$
3 ./2.sh &

用awk处理So easy!

CODE

nl 1.sh | awk ‘$1=$1’

对比sed繁琐的正则处理:

CODE

nl 1.sh | sed -r ‘s/^ +([0-9]+)t/1 /’

呵呵,awk的牛力~
其中$1=$1的奥妙,读者结合我 awk教程一文自行思考

例九:
文本如下:
43 141
31 3
43 111
21 5
92 3
31 52
62 2
43 1
75 9

要求以第一个字段为标,得到如下结果
31 3
31 52
43 1
43 111
43 141

CODE

awk ‘{a[$1]++}END{while(getline<"FILENAME"){if(a[$1]>1) print}}’ filename | sort

此例着重观看getline的用法。getline<"FILENAME"中,FILENAME为awk内置的变量,代表当前处理的文件名。经此句处理,从此文件中读入的每一行都被自动分解为$1 $2 $3$NF,全行$0,相当于awk套awk。
我使用awk的原则是尽量一趟循环搞定,所以没有用管道。

例十:
文本如下:
HAN  1
12 23 34 45
23 45 56
HAN  2
12 23 34 45
23 45 56
12 23 34 45
HAN  3
12 23 34 45
23 45 56 44
12 23 34 45
23 45 56
HAN  4
12 23 34 45
23 45 56
HAN  n

不幸此文本命运不济,被莫名地”拉直“为:
HAN  1 12 23 34 45 23 45 56
HAN  2 12 23 34 45 23 45 56 12 23 34 45
HAN  3 12 23 34 45 23 45 56 44 12 23 34 45 23 45 56
HAN  4 12 23 34 45 23 45 56
HAN  n ……
如何恢复她本来面目?

CODE

awk ‘{for(i=1;i<=NF;i++){if(i%4==3)print "";printf($i" ")}print ""}’ filename

恩,取余运算简化代码

好啦,今天就写这么多吧。
如果处理这些问题不在话下,那谁也不敢说你是awk“新玉米”了~

Comments (3)

楼主,你好,我在做第七题的时候,命令如下:
awk ‘BEGIN{RS=”Ip=”;OFS=””}{$1=”#5$”$1;$2=”$[“$2″]”;$3=”[“$6″]”;$4=”[“$8″]”;$5=”[“$12″]#”;NF=5;print}’ awk7

但是输出是:
#5$$[][][][]#
#5$192.168.1.1$[/dev/sdb1][99%][/dev/sdc1][98%]#
#5$192.168.1.2$[/dev/sda3][90%][/dev/sda3][71%]#

后面两行是正确答案,但是第一行很莫名其妙,不知怎么出现的。。。

期待着你的答复,谢谢

yuanzheng Reply:

@yuanzheng, 楼主,按我上述的方法,我没有用最后的sed,如果sed没有解决这个问题的话,这就是本做法的一个小问题: 由于 RS=”Ip=”, 第一个 “Ip=”就已经是个分隔符了,那么就表明在它之前就有一个记录了,虽然是空的。所以这样必然会带来这个: #5$$[][][][]#。
解决方法:

在最后print之前,加入一个小判断就可以: if(NR > 1) print

这样就会把那个空的忽略过去。

不知这种解法和说法是否合理,望楼主赐教!

楼主,关于第8例最后你说的那句深奥的话:其中$1=$1的奥妙,读者结合我 awk教程一文自行思考。

我的理解: 这是你利用了awk中的“缺省”功能,例如缺省可以顶头打印,缺省的OFS是空格,是吧?

Write a comment

You must be logged in to post a comment.