博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
文本三剑客grep、sed、awk
阅读量:6964 次
发布时间:2019-06-27

本文共 6407 字,大约阅读时间需要 21 分钟。

文本三剑客

grep (Global search REgular expression and Print out the line ):文本过滤(模式:pattern)工具

grep(支持正则表达式)    egrep(支持扩展正则表达式)    fgrep(不支持正则表达式搜索)

sed:stream editor,文本编辑工具

awk:文本报告生成器,功能更强大,

grep

grep(Global search REgular expression and Print out the line) 文本过滤工具

作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行

--color=auto: 对匹配到的文本着色显示    -m # 匹配#次后停止    -v 显示不被pattern匹配到的行    -i 忽略字符大小写    -n 显示匹配的行号    -c 统计匹配的行数    -o 仅显示匹配到的字符串    -q 静默模式,不输出任何信息    -A # after, 后#行    -B # before, 前#行    -C # context, 前后各#行    -e 实现多个选项间的逻辑or关系    grep –e ‘cat ’ -e ‘dog’ file    -w 匹配整个单词    -E 使用ERE   相当于egrep    -F 相当于fgrep,不支持正则表达式    -f file 根据模式文件处理

sed

sed工作原理

sed是一种流编辑器,它一次处理一行内容。
处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。然后读入下行,执行下一个循环。如果没有使诸如‘D’ 的特殊命令,那会在两个循环之间清空模式空间,但不会清空保留空间。这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。
sde除了有模式空间外,还有一个保持空间,sde在使用高级编辑命令时则会激活保持空间可以简单理解为:”模式空间“是sde的加工车间,而”保持空间“则为半成品仓库

常用选项

-n    不输出模式空间内容到屏幕,即不自动打印-e    多点编辑-f  /PATH/SCRIPT_FILE     从指定文件中读取编辑脚本-r     支持使用扩展正则表达式-i.bak     备份文件并原处编辑

编辑命令

d     删除模式空间匹配的行,并立即启用下一轮循环p     打印当前模式空间内容,追加到默认输出之后a \text     在指定行后面追加文本,支持使用\n实现多行追加i \text      在行前面插入文本c \text     替换行为单行或多行文本w /path/file     保存模式空间中的内容至本地文件r /path/file      读取指定文件的文本至模式空间中匹配到的行后=     为模式空间中的行打印行号!      模式空间中匹配行取反处理

高级编辑命令

P:    打印模式空间开端至\n内容,并追加到默认输出之前h:    把模式空间中的内容覆盖至保持空间中H: 把模式空间中的内容追加至保持空间中g:    从保持空间取出数据覆盖至模式空间G: 从保持空间取出内容追加至模式空间x:    把模式空间中的内容与保持空间中的内容进行互换n:    读取匹配到的行的下一行覆盖至模式空间N: 读取匹配到的行的下一行追加至模式空间d:    删除模式空间中的行D: 删除多行模式空间中的所有行

注意:如果模式空间包含换行符,则删除直到第一个换行符的模式空间中的文本,并不会读取新的输入行,而使用合成的模式空间重新启动循环。如果模式空间不包含换行符,则会像发出d命令那样启动正常的新循环

awk

awk介绍awk:Aho, Weinberger, Kernighan,报告(报表)生成器,格式化文本输出有多种版本:New awk(nawk),GNU awk( gawk)  gawk:模式扫描和处理语言基本用法:awk [options] 'program'     var=value       file...awk [options] 'program'     -f programfile  var=value       file...awk [options] 'program' 'BEGIN{action;...}pattern{action;...}END{action...}'    file...awk程序可由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块共3部分组成program通常是被放在单引号中,可以有多个,语句用分号分隔print,printf选项:-F  “分割符”       指明输入时用到的字段分割符-v  var=value       变量赋值

awk语言

基本格式:awk [options] 'program' file…    Program:pattern{action statements;..}        pattern和action            • pattern部分决定动作语句何时触发及触发事件        BEGIN,END            • action statements对数据进行处理,放在{}内指明                print, printf分割符、域和记录    • awk执行时,由分隔符分隔的字段(域)标记$1,$2...$n称为域标识。 $0为所有域        注意:此时和shell中变量$符含义不同    • 文件的每一行称为记录    • 省略action,则默认执行 print $0 的操作

awk工作原理

  • 第一步:执行BEGIN{action;… }语句块中的语句
  • 第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ action;… }语句块,它逐行描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。
  • 第三步:当读至输入流末尾时,执行END{action;…}语句块
  • BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中
  • END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块
  • pattern语句块中的通用命令是最重要的部分,也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块

    awk变量

    变量:内置变量和自定义变量       内建变量:        FS(input field seperator):输入字段分隔符,默认为空白字符            awk -v FS=':' '{print $1,FS,$3}’ /etc/passwd            awk –F: '{print $1,$3,$7}’ /etc/passwd        OFS(output field seperator):输出字段分隔符,默认为空白字符            awk -v FS=‘:’ -v OFS=‘:’ '{print $1,$3,$7}’ /etc/passwd        RS(input record seperator):输入记录分隔符,指定输入时的换行符            awk -v RS=' ' ‘{print }’ /etc/passwd        ORS(output record seperator):输出记录分隔符,输出时用指定符号代替换行符            awk -v RS=' ' -v ORS='###'‘{print }’ /etc/passwd        NF(number of field):字段数量            awk -F:‘{print NF}’ /etc/fstab 引用内建变量时,变量前不需加$            awk -F:‘{print $(NF-1)}' /etc/passwd打印每一行最后一个字段        NR(number of record):行数            awk ‘{print NR}’ /etc/fstab ; awk END‘{print NR}’ /etc/fstab        FNR:各文件分别计数,行数(后面这几个内建变量知道就好,很少会用到)        FILENAME:当前文件名        ARGC:命令行参数的个数        ARGV数组,保存的是命令行所给定的各参数自定义变量(区分字符大小写)    (1) -v  var=value    (2) 在program中直接定义

    操作符

    算术操作符:    x+y, x-y, x*y, x/y, x%y, x^y    - x:转换为负数    +x:将字符串转换为数值字符串操作符:没有符号的操作符,字符串连接赋值操作符:    =, +=, -=, *=, /=, %=, ^=,++, --    下面两语句有何不同        • awk ‘BEGIN{i=0;print ++i,i}’        • awk ‘BEGIN{i=0;print i++,i}’比较操作符:    ==, !=, >, >=, <, <=模式匹配符:    ~:左边是否和右边匹配,包含    !~:是否不匹配    示例:    awk -F: '$0 ~ /root/{print $1}‘ /etc/passwd    awk '$0~“^root"' /etc/passwd    awk '$0 !~ /root/‘ /etc/passwd    awk -F: ‘$3==0’ /etc/passwd逻辑操作符:与&&,或||,非!    示例:        • awk -F: '$3>=0 && $3<=1000 {print $1}' /etc/passwd        • awk -F: '$3==0 || $3>=1000 {print $1}' /etc/passwd        • awk -F: ‘!($3==0) {print $1}' /etc/passwd        • awk -F: ‘!($3>=500) {print $3}’ /etc/passwd

awk控制语句

1.if-else    语法:if(condition){statement;…}[else statement]        if(condition1){statement1}else if(condition2){statement2}else{statement3}    使用场景:对awk取得的整行或某个字段做条件判断2.while循环    语法:while(condition){statement;…}        条件“真”,进入循环;条件“假”,退出循环    使用场景:        对一行内的多个字段逐一类似处理时使用        对数组中的各元素逐一处理时使用3.do-while循环    语法:do {statement;…}while(condition)    意义:无论真假,至少执行一次循环体4.for循环    语法:for(expr1;expr2;expr3) {statement;…}    常见用法:        for(variable assignment;condition;iteration process)        {for-body}    特殊用法:能够遍历数组中的元素        语法:for(var in array) {for-body}5.switch语句(多分支的if语句)(更多的作为字符串比较判断)    语法:    switch(expression) {case VALUE1 or /REGEXP/: statement1; caseVALUE2 or /REGEXP2/: statement2; ...; default: statementn}6.break和continue    awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)        {if(i%2==0)continue;sum+=i}print sum}'    awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)        {if(i==66)break;sum+=i}print sum}'    break [n]    continue [n]7.next    提前结束对本行处理而直接进入下一行处理(awk自身循环)        awk -F: '{if($3%2!=0) next; print $1,$3}' /etc/passwd    用户ID被2取余,如果不等于0则执行next,提前进入下一行处理,如果等于0则继续执行后续命令

awk数组

关联数组:array[index-expression]    index-expression:        • (1) 可使用任意字符串;字符串要使用双引号括起来        • (2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”        • (3) 若要判断数组中是否存在某元素,要使用“index in array” 格式进行遍历    若要遍历数组中的每个元素,要使用for循环        for(var in array) {for-body}        注意:var会遍历array的每个索引

awk函数

数值处理:    rand():返回0和1之间一个随机数        awk 'BEGIN{srand();print int(rand()*100)}'        awk 'BEGIN{srand(); for (i=1;i<=10;i++)print int(rand()*100) }'字符串处理:    • length([s]):返回指定字符串的长度    • sub(r,s,[t]):对t字符串搜索r表示模式匹配的内容,并将第一个匹配内容替换为s        echo "2008:08:08 08:08:08" | awk 'sub(/:/,-",$1)'    • gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容        echo "2008:08:08 08:08:08" | awk ‘gsub(/:/,“-",$0)'    • split(s,array,[r]):以r为分隔符,切割字符串s,并将切割后的结果保存至array所表示的数组中,第一个索引值为1,第二个索引值为2,…

转载于:https://blog.51cto.com/14230410/2378128

你可能感兴趣的文章
单例模式的线程安全
查看>>
page cache和buffer cache的区别
查看>>
python基本数据类型零碎知识点
查看>>
云时代架构读后感2
查看>>
new运算符与malloc函数(还需要修改)
查看>>
nginx禁止特定UA访问
查看>>
HNU Suiting Weavers 【最大流】
查看>>
在用户原有网络基础上,用wifi广告软件为用户搭建wifi营销平台方法
查看>>
走在网页游戏开发的路上(十一)
查看>>
ex8.py
查看>>
django框架之Ajax,自定义分页器...
查看>>
表结法和账结法
查看>>
drf笔记
查看>>
Single Log Out with OpenSAML
查看>>
【Spark篇】---Spark中资源和任务调度源码分析与资源配置参数应用
查看>>
FlexPaper及二次开发
查看>>
在github创建用户
查看>>
数据库递归函数
查看>>
乐观锁&CAS问题
查看>>
C++ map的基本操作和使用
查看>>