Python正则怎么使用_Python正则表达式应用与实例讲解

Python中正则表达式通过re模块实现,用于字符串匹配、查找、替换。常用函数有re.match()、re.search()、re.findall()、re.sub()、re.split();关键元字符包括\d、\w、.、*、+、?、^、$等。示例应用:提取邮箱、清理空格、分割多分隔符字符串,需注意贪婪模式与细节处理。

Python中的正则表达式是处理字符串的强大工具,通过re模块实现。它能用于匹配、查找、替换符合特定规则的文本内容。掌握正则不仅能提升数据清洗效率,还能简化文本处理逻辑。

re模块基础用法

使用正则前需导入re模块。常见函数包括:

  • re.match():从字符串起始位置匹配,成功返回Match对象,否则返回None
  • re.search():扫描整个字符串,返回第一个匹配结果
  • re.findall():返回所有非重叠的匹配结果列表
  • re.sub():替换匹配到的内容
  • re.split():按正则规则分割字符串

例如:

import re
text = "Hello 123 world 456"
result = re.findall(r'\d+', text)  # 匹配所有数字
print(result)  # 输出: ['123', '456']

常用正则符号与含义

正则表达式由普通字符和特殊符号组成。关键元字符包括:

  • \d:匹配任意数字,等价于[0-9]
  • \w:匹配字母、数字、下划线
  • .:匹配任意单个字符(换行符除外)
  • *:匹配前面的字符零次或多次
  • +:匹配前面的字符一次或多次
  • ?:匹配前面的字符零次或一次
  • ^$:分别匹配字符串开头和结尾
  • []:定义字符集合,如[a-z]匹配小写字母

例如验证手机号:

phone = "13812345678"
if re.match(r'^1[3-9]\d{9}$', phone):
    print("手机号格式正确")

实际应用场景示例

正则在日常开发中用途广泛,以下是几个典型例子:

提取网页中的邮箱地址

text = "联系我:admin@example.com 或 support@test.org"
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)
print(emails)  # 输出: ['admin@example.com', 'support@test.org']

清理文本中的多余空格

text = "  这是   一个   多余空格  的句子  "
cleaned = re.sub(r'\s+', ' ', text.strip())
print(cleaned)  # 输出: "这是一个 多余空格 的句子"

分割包含多种分隔符的字符串

data = "apple,banana;cherry|date"
parts = re.split(r'[,;|]', data)
print(parts)  # 输出: ['apple', 'banana', 'cherry', 'date']

基本上就这些。熟练使用正则需要多练习常见模式,理解贪婪与非贪婪匹配的区别,以及如何组合元字符构建复杂规则。不复杂但容易忽略细节。