XPath如何获取节点的字符串值 string()函数

月夜之吻 2025-12-27 00:00:00 次阅读

string()函数返回节点及其后代文本节点的合并字符串值，自动归并空白符为单个空格；对节点集仅取首个节点，空节点返回空字符串，元素节点递归提取并拼接所有后代文本。

XPath 中的 string() 函数用于获取节点的**合并文本内容（即字符串值）**，它会把目标节点及其所有后代文本节点的内容拼接成一个单一字符串，忽略元素标签、注释、处理指令等非文本节点，并自动将空白符（如换行、缩进）归并为普通空格。

string() 的基本用法

语法：string(node-set) 或 string()（无参数时作用于当前上下文节点）。

如果传入节点集，只取第一个节点的字符串值；
如果节点为空（不存在），返回空字符串；
对文本节点、属性节点、注释节点等，直接返回其内容；
对元素节点，则递归提取其所有后代文本节点，按文档顺序拼接，中间空白被规范化为单个空格。

常见使用场景与示例

假设有如下 HTML 片段：

产品

型号：A100

价格：¥299

string(//div[@id='info']) → 返回 "产品型号：A100 价格： ¥299"（注意空格和换行被压缩）；
string(//p[2]/span) → 返回 "¥299"；
string(@class)（在有 class 属性的元素上）→ 返回该属性值；
//div[string() = '产品型号：A100 价格： ¥299'] 可用于匹配整个 div 的归一化文本内容（但需注意空格敏感性）。

注意事项与陷阱

string() 不等于 text() 的简单拼接：text() 只选直接子文本节点，而 string() 会递归合并全部后代文本，并做空白规范化。

若需精确控制文本提取（如排除某些子元素内容），应先用路径定位到具体文本节点，再用 string() 或直接取值；
在比较操作中慎用 string()，因空格压缩可能导致意外匹配或不匹配；
在 XPath 1.0 中，string() 无法作用于节点集以外的类型（如布尔值、数字），否则报错；
XPath 2.0+ 支持更灵活的字符串函数（如 string-join()），但 string() 行为保持一致。

替代方案与补充技巧

当 string() 不够精准时，可考虑：

用 normalize-space(string(...)) 进一步去除首尾空格、合并内部多余空白；
用 concat() 拼接多个明确路径的字符串（如 concat(//h2, ' - ', //p[1])）；
用 //div[@id='info']//text()[normalize-space()] 提取所有非空文本节点，再在程序层处理。

Go 模块：现代 Go 依赖管理的标准化实践

上一篇文章

Go 模块：现代 Go 依赖管理的标准化实践

2025-12-27 964次阅读

Polars高效生成分段线性采样点列表（替代Python循环

下一篇文章

Polars高效生成分段线性采样点列表（替代Python循环

2025-12-27 1189次阅读