php字符串的截取方式

推荐使用mb_substr()处理中文字符截取,如mb_substr("你好世界", 0, 2, 'UTF-8')输出“你好”;2. 单字节字符可用substr(),如substr("Hello World", 0, 5)输出“Hello”;3. 复杂场景可用正则preg_match('/^.{1,4}/u', "今天天气真好啊", $m)提取“今天天气”;4. 可封装兼容函数优先调用mb_substr(),无mbstring时降级使用substr(),确保环境兼容。

PHP中截取字符串有多种方式,主要根据字符编码和具体需求选择合适的方法。以下是几种常用且实用的字符串截取方式。

1. substr() 函数(适用于单字节字符)

substr() 是 PHP 内置函数,用于按字节位置截取字符串。它适合处理英文或 ASCII 字符,但在处理中文等多字节字符时容易出现乱码。

语法:

substr(string $string, int $start, ?int $length = null)

示例:

$str = "Hello World";
echo substr($str, 0, 5); // 输出:Hello

注意:

如果字符串包含中文,使用 substr() 可能会截断汉字导致乱码,比如:

$str = "你好世界";
echo substr($str, 0, 3); // 可能输出乱码,因为一个中文通常占3字节

2. mb_substr() 函数(推荐用于多字节字符)

处理中文、日文等多字节字符时,应使用 mb_substr(),它是多字节安全的函数,能正确按“字符”截取。

前提:

确保服务器启用了 mbstring 扩展。

语法:

mb_substr(string $str, int $start, ?int $length = null, ?string $encoding = null)

示例:

$str = "你好世界";
echo mb_substr($str, 0, 2, 'UTF-8'); // 输出:你好

说明:
  • 第四个参数指定编码,常用 'UTF-8'
  • 如果不写编码,依赖 php.ini 的设置,建议显式指定

3. 使用正则表达式截取(灵活匹配)

当需要根据特定模式提取内容时,可用 preg_match()preg_replace() 配合正则表达式。

示例:提取前4个中文字符

$str = "今天天气真好啊";
preg_match('/^.{1,4}/u', $str, $matches);
echo $matches[0]; // 输出:今天天气

说明:
  • 'u' 修饰符表示启用 UTF-8 模式
  • 适合复杂场景,如按词、标点或规则截取

4. 自定义函数实现安全截取

为避免不同环境下的编码问题,可以封装一个通用截取函数。

示例:

function cutStr($str, $start, $length) {
  if (function_exists('mb_substr')) {
    return mb_substr($str, $start, $length, 'UTF-8');
  } else {
    return substr($str, $start, $length);
  }
}

优点:

兼容性好,在没有 mbstring 扩展时降级使用 substr。

基本上就这些。日常开发中,只要涉及中文,优先使用 mb_substr(),并明确指定编码,可避免绝大多数问题。简单英文场景用 substr 也没问题。关键是根据项目编码环境选择合适方法。不复杂但容易忽略。