首页 资讯 > > 正文

世界即时看!study - 一文入门正则表达式

来源:腾讯云 发布日期:2023-03-08 13:07:13 分享到:

正则表达式是什么

校验数据的有效性、查找符合要求的文本以及对文本进行切割和替换等操作。


(资料图片仅供参考)

正则表达式的目的是真正的强大之处就在于可以查找符合某个规则的文本。

元字符

1.特殊字符串

. 除换行符外任意字符\d 表示任意单个数字 \w 表示任意单个数字或字母或下划线\s 表示任意单个空白符

\D \W \S,意思正相反。

2.空白符

\r 回车符\n 换行符\f 换页符\t 制表符\v 垂直制表符\s 任意空白符

3.量词

* 代表0次到多次+ 1次到多次? 0到1次{m} 出现m次{m,} 出现至少m次{m,n} m到n次

4.范围

|或 ,如ab|bc代表ab或bc... 多选一,括号中任意单个元素a-z 匹配a-z之间任意单个元素^.. 取反,不能包括括号中的任意单个元素

贪婪匹配、非贪婪匹配和独占模式

贪婪模式的特点就是尽可能进行最大长度匹配非贪婪模式会尽可能短地去匹配。独占模式和贪婪模式很像,独占模式会尽可能多地去匹配,如果匹配失败就结束,不会进行回溯,这样的话就比较节省时间。具体的方法就是在量词后面加上加号(+),例如xy{1,3}+yz

注意: Python 和 Go 的标准库目前都不支持独占模式。

(“.+?”)|\w{2,6}

分组和引用

如图所示的正则,将日期和时间都括号括起来。这个正则中一共有两个分组,日期是第 1 个,时间是第 2 个。

1.不保存子组

分组的作用就是后续可能还会被引用到,但是如果不需要引用的时候可以添加不保存子组,表达式(?:xxx),优点是正则性能会更好,在子组计数时也更不容易出错。

2.括号嵌套

分组引用在查找中使用

...略

四种匹配模式

1.不区分大小写模式(Case-Insensitive)

不区分大小写模式,正则表达式(?i)cat,这样匹配的字符就不区分大小写了

如果我们想要前面匹配上的结果,和第二次重复时的大小写一致,那该怎么做呢?我们只需要用括号把修饰符和正则 cat 部分括起来,加括号相当于作用范围的限定,让不区分大小写只作用于这个括号里的内容。正则表达式((?i)cat)

2.点号通配模式(Dot All)

元字符里讲.可以匹配除了换行以外的任何元素,用单行模式中使用.,正则表示式(?s).

3.多行匹配模式

多行模式的表达式(?m)^...|...$,这样的匹配好处是每一行

断言

断言是指对匹配到的文本位置有要求。

1.单词边界

在准确匹配单词时,我们使用 \b...\b就可以实现了,也可以指定表达式的开头和结尾^...$

2.环视

环视的主要是定义清晰的边界。

(?<=Y),左边是Y(?<=!Y),左边不是Y(?=Y),右边是Y(?!Y),右边不是Y

左尖括号代表看左边,没有尖括号是看右边,感叹号是非的意思。

常用正则Demo

正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。

匹配中文字符的正则表达式: [u4e00-u9fa5]匹配双字节字符(包括汉字在内):[^x00-xff]匹配空白行的正则表达式:ns*r匹配HTML标记的正则表达式:<(S*?)[^>]*>.*?|<.*? />匹配首尾空白字符的正则表达式:^s*|s*$匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*匹配网址URL的正则表达式:[a-zA-z]+://[^s]*匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$匹配国内电话号码:d{3}-d{8}|d{4}-d{7}( 匹配形式如 0511-4405222 或 021-87888822)匹配中国邮政编码:[1-9]d{5}(?!d)匹配身份证:d{15}|d{18}

2.匹配特定数字:

匹配正整数 ^[1-9]d*$匹配负整数 ^-[1-9]d*$匹配整数 ^-?[1-9]d*$匹配非负整数(正整数 + 0)^[1-9]d*|0$匹配非正整数(负整数 + 0)^-[1-9]d*|0$匹配正浮点数 ^[1-9]d*.d*|0.d*[1-9]d*$匹配负浮点数 ^-([1-9]d*.d*|0.d*[1-9]d*)$匹配浮点数 ^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$匹配非负浮点数(正浮点数 +0) ^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$匹配非正浮点数(负浮点数 + 0)^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$

3.匹配特定字符串:

匹配由26个英文字母组成的字符串 ^[A-Za-z]+$匹配由26个英文字母的大写组成的字符串 ^[A-Z]+$匹配由26个英文字母的小写组成的字符串 ^[a-z]+$匹配由数字和26个英文字母组成的字符串 ^[A-Za-z0-9]+$匹配由数字、26个英文字母或者下划线组成的字符串 ^w+$只能输入数字:^[0-9]*$只能输入n位的数字:^d{n}$只能输入至少n位数字:^d{n,}$只能输入m-n位的数字:^d{m,n}$只能输入零和非零开头的数字:^(0|[1-9][0-9]*)$只能输入有两位小数的正实数:^[0-9]+(.[0-9]{2})?$只能输入有1-3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$只能输入非零的正整数:^+?[1-9][0-9]*$只能输入非零的负整数:^-[1-9][0-9]*$只能输入长度为3的字符:^.{3}$只能输入由26个英文字母组成的字符串:^[A-Za-z]+$只能输入由26个大写英文字母组成的字符串:^[A-Z]+$只能输入由26个小写英文字母组成的字符串:^[a-z]+$只能输入由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$只能输入由数字、26个英文字母或者下划线组成的字符串:^w+$验证用户密码:^[a-zA-Z]w{5,17}$正确格式为:以字母开头,长度在6-18之间,只能包含字符、数字和下划线。验证是否含有^%&"",;=?$"等字符:[^%&"",;=?$x22]+只能输入汉字:^[u4e00-u9fa5],{0,}$验证Email地址:^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$验证InternetURL:^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$验证电话号码:^((d{3,4})|d{3,4}-)?d{7,8}$

关键词:

x 广告

河北印发出台通用机场布局规划(2021-2030年)

到2030年,全省形成以A类通用机场为主体、B类通用机场为补充,功能完善、覆盖广泛的通用机场体系,全省通用机场达到23个。其中,到2025年全

复原民国旧菜单 一批“消失的名菜”重现羊城

  中新网广州12月5日电 (记者 程景伟)“粤宴中国·消失的名菜”活动4日晚在广州博物馆镇海楼广场举行,一批业已失传或十分罕见的传统粤

青海再度“双清零”:战“疫”催生定点救治医院反思与成长

  中新网西宁12月5日电 题:青海再度“双清零”:战“疫”催生定点救治医院反思与成长  作者 潘雨洁  全面停诊、四下无人;火线冲

世界海拔最高高铁客运站山丹马场站运营

  中新网兰州12月5日电 (记者 杨艳敏)记者从中国铁路兰州局集团有限公司获悉,12月5日10时29分随着嘉峪关南至西安北D2696次动车组列车

千年古都洛阳为何要建青年友好型城市?

  中新网洛阳12月5日电 题:千年古都洛阳为何要建青年友好型城市?  记者 肖开霖 李贵刚  千年古都洛阳日前公布《洛阳市建设青年

甘肃万余河长公示牌拥有“电子身份证” 局地启“千里眼”治水

  中新网兰州12月5日电 (记者 冯志军)记者5日从甘肃省水利厅获悉,今年以来,甘肃全面推动河长公示牌信息化建设,为全省河流换发“电子

满洲里市向呼伦贝尔市“手递手”异地转运3批次隔离人员

  (抗击新冠肺炎)满洲里市向呼伦贝尔市“手递手”异地转运3批次隔离人员  中新网呼伦贝尔12月5日电 (记者 张玮)5日,内蒙古自治区呼

2021年度法治人物沈云如:让群众过上“有身份的生活”

  中新网杭州12月5日电 题:2021年度法治人物沈云如:让群众过上“有身份的生活”  作者 郭其钰 张先登  行程10余万公里,为辖区3

x 广告

Copyright   2015-2032 凤凰海洋网版权所有  备案号:京ICP备2023000331号-62   联系邮箱: 434 922 62@qq.com