awk是一个文本处理程序,但是我更喜欢叫它教官,因为这样更形象。
我喜欢把各种文本的内容称为士兵,而教官负责管理培训它们。
日志统计
开发web的人员知道,我们经常需要查看nginx的服务器来统计来访者的记录。而awk教官可以很方便帮我们处理好存放在日志中的士兵,可以帮助我们选出最高的士兵,可以帮助我们选出经常出操的士兵,可以帮我们选出哪些士兵经常在一起。
看下面的一个需求:我们需要看看经常访问网站的有哪些ip,并且把它们的访问次数统计出来。初看这个问题似乎很复杂,不过不要担心,有问题,找教官,我们只要把我们的要求告诉教官,它就会告诉我们把结果,这很像sql语句,我们只要写出要获取的数据就行,至于怎么获取,全部交给数据库自己处理。
我们的awk语句如下:
awk '{sum[$1]++}END{for (ip in sum) print ip,sum[ip]}' access.log|sort -rn -k 2|head
结果如下
66.98.123.241 4849
144.34.223.61 730
101.133.226.32 330
23.83.246.193 279
101.133.140.228 188
101.133.147.20 174
101.133.224.74 158
101.133.224.22 151
59.109.210.199 132
47.240.89.111 63
我们简单分析下我们写的语句
工作流程
awk 'BEGIN{ commands } pattern{ commands } END{ commands }'
1、通过关键字 BEGIN 执行 BEGIN 块的内容,即 BEGIN 后花括号 {} 的内容。
2、完成 BEGIN 块的执行,开始执行body块。
3、读入有 \n 换行符分割的记录。
4、将记录按指定的域分隔符划分域,填充域,$0 则表示所有域(即一行内容),$1 表示第一个域,$n 表示第 n 个域。
5、依次执行各 BODY 块,pattern 部分匹配该行内容成功后,才会执行 awk-commands 的内容。
6、循环读取并执行各行直到文件结束,完成body块执行。
7、开始 END 块执行,END 块可以输出最终结果。
强大的功能
从上面的例子我们也能看出来,awk可以向一般语言一样,也有自己的数据结构,也有自己的条件和循环判断,而且它也可以自己定义函数,可以说我们编程常用的功能,它都有提供。
因此,当我们需要统计一些文本中的内容的时候,我们一定不要忘记去找教官awk,它可能不是最好的教官,但是它一定值得你去选择它。