文本三剑客grep、sed、awk

阅读量：6964 次

发布时间：2019-06-27

本文共 6407 字，大约阅读时间需要 21 分钟。

文本三剑客

grep （Global search REgular expression and Print out the line ）：文本过滤（模式：pattern）工具

grep（支持正则表达式）    egrep（支持扩展正则表达式）    fgrep（不支持正则表达式搜索）

sed：stream editor，文本编辑工具

awk：文本报告生成器，功能更强大，

grep

grep（Global search REgular expression and Print out the line）文本过滤工具

作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行

--color=auto: 对匹配到的文本着色显示    -m # 匹配#次后停止    -v 显示不被pattern匹配到的行    -i 忽略字符大小写    -n 显示匹配的行号    -c 统计匹配的行数    -o 仅显示匹配到的字符串    -q 静默模式，不输出任何信息    -A # after, 后#行    -B # before, 前#行    -C # context, 前后各#行    -e 实现多个选项间的逻辑or关系    grep –e ‘cat ’ -e ‘dog’ file    -w 匹配整个单词    -E 使用ERE   相当于egrep    -F 相当于fgrep，不支持正则表达式    -f file 根据模式文件处理

sed

sed工作原理

sed是一种流编辑器，它一次处理一行内容。

处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。然后读入下行，执行下一个循环。如果没有使诸如‘D’ 的特殊命令，那会在两个循环之间清空模式空间，但不会清空保留空间。这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。

sde除了有模式空间外，还有一个保持空间，sde在使用高级编辑命令时则会激活保持空间可以简单理解为：”模式空间“是sde的加工车间，而”保持空间“则为半成品仓库

常用选项

-n    不输出模式空间内容到屏幕，即不自动打印-e    多点编辑-f  /PATH/SCRIPT_FILE     从指定文件中读取编辑脚本-r     支持使用扩展正则表达式-i.bak     备份文件并原处编辑

编辑命令

d     删除模式空间匹配的行，并立即启用下一轮循环p     打印当前模式空间内容，追加到默认输出之后a \text     在指定行后面追加文本，支持使用\n实现多行追加i \text      在行前面插入文本c \text     替换行为单行或多行文本w /path/file     保存模式空间中的内容至本地文件r /path/file      读取指定文件的文本至模式空间中匹配到的行后=     为模式空间中的行打印行号!      模式空间中匹配行取反处理

高级编辑命令

P:    打印模式空间开端至\n内容，并追加到默认输出之前h:    把模式空间中的内容覆盖至保持空间中H： 把模式空间中的内容追加至保持空间中g:    从保持空间取出数据覆盖至模式空间G： 从保持空间取出内容追加至模式空间x:    把模式空间中的内容与保持空间中的内容进行互换n:    读取匹配到的行的下一行覆盖至模式空间N： 读取匹配到的行的下一行追加至模式空间d:    删除模式空间中的行D： 删除多行模式空间中的所有行

注意：如果模式空间包含换行符，则删除直到第一个换行符的模式空间中的文本，并不会读取新的输入行，而使用合成的模式空间重新启动循环。如果模式空间不包含换行符，则会像发出d命令那样启动正常的新循环

awk

awk介绍awk：Aho, Weinberger, Kernighan，报告（报表）生成器，格式化文本输出有多种版本：New awk（nawk），GNU awk（ gawk）  gawk：模式扫描和处理语言基本用法：awk [options] 'program'     var=value       file...awk [options] 'program'     -f programfile  var=value       file...awk [options] 'program' 'BEGIN{action;...}pattern{action;...}END{action...}'    file...awk程序可由：BEGIN语句块、能够使用模式匹配的通用语句块、END语句块共3部分组成program通常是被放在单引号中，可以有多个，语句用分号分隔print，printf选项：-F  “分割符”       指明输入时用到的字段分割符-v  var=value       变量赋值

awk语言

基本格式：awk [options] 'program' file…    Program：pattern{action statements;..}        pattern和action            • pattern部分决定动作语句何时触发及触发事件        BEGIN,END            • action statements对数据进行处理，放在{}内指明                print, printf分割符、域和记录    • awk执行时，由分隔符分隔的字段（域）标记$1,$2...$n称为域标识。 $0为所有域        注意：此时和shell中变量$符含义不同    • 文件的每一行称为记录    • 省略action，则默认执行 print $0 的操作

awk工作原理

第一步：执行BEGIN{action;… }语句块中的语句

第二步：从文件或标准输入(stdin)读取一行，然后执行pattern{ action;… }语句块，它逐行描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕。

第三步：当读至输入流末尾时，执行END{action;…}语句块

BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中

END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块

pattern语句块中的通用命令是最重要的部分，也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块

awk变量

变量：内置变量和自定义变量       内建变量：        FS（input field seperator）：输入字段分隔符，默认为空白字符            awk -v FS=':' '{print $1,FS,$3}’ /etc/passwd            awk –F: '{print $1,$3,$7}’ /etc/passwd        OFS（output field seperator）：输出字段分隔符，默认为空白字符            awk -v FS=‘:’ -v OFS=‘:’ '{print $1,$3,$7}’ /etc/passwd        RS（input record seperator）：输入记录分隔符，指定输入时的换行符            awk -v RS=' ' ‘{print }’ /etc/passwd        ORS（output record seperator）：输出记录分隔符，输出时用指定符号代替换行符            awk -v RS=' ' -v ORS='###'‘{print }’ /etc/passwd        NF（number of field）：字段数量            awk -F：‘{print NF}’ /etc/fstab 引用内建变量时，变量前不需加$            awk -F：‘{print $(NF-1)}' /etc/passwd打印每一行最后一个字段        NR（number of record）：行数            awk ‘{print NR}’ /etc/fstab ; awk END‘{print NR}’ /etc/fstab        FNR：各文件分别计数，行数（后面这几个内建变量知道就好，很少会用到）        FILENAME：当前文件名        ARGC：命令行参数的个数        ARGV数组，保存的是命令行所给定的各参数自定义变量(区分字符大小写)    (1) -v  var=value    (2) 在program中直接定义

操作符

算术操作符：    x+y, x-y, x*y, x/y, x%y, x^y    - x：转换为负数    +x：将字符串转换为数值字符串操作符：没有符号的操作符，字符串连接赋值操作符：    =, +=, -=, *=, /=, %=, ^=，++, --    下面两语句有何不同        • awk ‘BEGIN{i=0;print ++i,i}’        • awk ‘BEGIN{i=0;print i++,i}’比较操作符：    ==, !=, >, >=, <, <=模式匹配符：    ~：左边是否和右边匹配，包含    !~：是否不匹配    示例：    awk -F: '$0 ~ /root/{print $1}‘ /etc/passwd    awk '$0~“^root"' /etc/passwd    awk '$0 !~ /root/‘ /etc/passwd    awk -F: ‘$3==0’ /etc/passwd逻辑操作符：与&&，或||，非!    示例：        • awk -F: '$3>=0 && $3<=1000 {print $1}' /etc/passwd        • awk -F: '$3==0 || $3>=1000 {print $1}' /etc/passwd        • awk -F: ‘!($3==0) {print $1}' /etc/passwd        • awk -F: ‘!($3>=500) {print $3}’ /etc/passwd

awk控制语句

1.if-else    语法：if(condition){statement;…}[else statement]        if(condition1){statement1}else if(condition2){statement2}else{statement3}    使用场景：对awk取得的整行或某个字段做条件判断2.while循环    语法：while(condition){statement;…}        条件“真”，进入循环；条件“假”，退出循环    使用场景：        对一行内的多个字段逐一类似处理时使用        对数组中的各元素逐一处理时使用3.do-while循环    语法：do {statement;…}while(condition)    意义：无论真假，至少执行一次循环体4.for循环    语法：for(expr1;expr2;expr3) {statement;…}    常见用法：        for(variable assignment;condition;iteration process)        {for-body}    特殊用法：能够遍历数组中的元素        语法：for(var in array) {for-body}5.switch语句（多分支的if语句）（更多的作为字符串比较判断）    语法：    switch(expression) {case VALUE1 or /REGEXP/: statement1; caseVALUE2 or /REGEXP2/: statement2; ...; default: statementn}6.break和continue    awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)        {if(i%2==0)continue;sum+=i}print sum}'    awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)        {if(i==66)break;sum+=i}print sum}'    break [n]    continue [n]7.next    提前结束对本行处理而直接进入下一行处理（awk自身循环）        awk -F: '{if($3%2!=0) next; print $1,$3}' /etc/passwd    用户ID被2取余，如果不等于0则执行next，提前进入下一行处理，如果等于0则继续执行后续命令

awk数组

关联数组：array[index-expression]    index-expression:        • (1) 可使用任意字符串；字符串要使用双引号括起来        • (2) 如果某数组元素事先不存在，在引用时，awk会自动创建此元素，并将其值初始化为“空串”        • (3) 若要判断数组中是否存在某元素，要使用“index in array” 格式进行遍历    若要遍历数组中的每个元素，要使用for循环        for(var in array) {for-body}        注意：var会遍历array的每个索引

awk函数

数值处理：    rand()：返回0和1之间一个随机数        awk 'BEGIN{srand();print int(rand()*100)}'        awk 'BEGIN{srand(); for (i=1;i<=10;i++)print int(rand()*100) }'字符串处理：    • length([s])：返回指定字符串的长度    • sub(r,s,[t])：对t字符串搜索r表示模式匹配的内容，并将第一个匹配内容替换为s        echo "2008:08:08 08:08:08" | awk 'sub(/:/,-",$1)'    • gsub(r,s,[t])：对t字符串进行搜索r表示的模式匹配的内容，并全部替换为s所表示的内容        echo "2008:08:08 08:08:08" | awk ‘gsub(/:/,“-",$0)'    • split(s,array,[r])：以r为分隔符，切割字符串s，并将切割后的结果保存至array所表示的数组中，第一个索引值为1,第二个索引值为2,…

转载于:https://blog.51cto.com/14230410/2378128

你可能感兴趣的文章