使用“Get data from XML”步骤读取XML文件最可靠,需规范XML格式、设对重复节点路径(如/orders/order),嵌套项(如items/item)需二级解析,注意编码、XPath及命名空间配置。
用 Pentaho Data Integration(Kettle)读取 XML 文件,核心是使用 “Get data from XML” 步骤,它专为解析结构化 XML 设计,比通用的 “Text file input” 更可靠、更灵活。
准备 XML 文件和了解结构
确保 XML 文件格式规范(有根节点、标签闭合、无非法字符),并提前查看其层级结构。例如:
Alice 299.99Laptop Mouse
注意:Kettle 默认按“重复节点”提取数据。上例中, 是重复节点,应设为循环路径; 是嵌套重复节点,需额外处理(见下文)。
配置 “Get data from XML” 步骤
在转换中添加该步骤后,关键设置包括:
-
XML source:选择“File”并指定路径(支持变量如
${FILE_PATH}) -
Repeat node:填写相对 XPath,如
/orders/order—— 这决定每行输出对应一个 -
Fields 标签页中定义字段:
- Field name:如
customer - Element XPath:相对于 repeat node 的路径,如
customer(直接子元素)或../@id(取父节点属性) - Type:选 String / Number / Date 等,匹配实际值类型
- Format/Length/Precision:按需填写,如金额设为 Number + 2 位小数
- Field name:如
处理多层嵌套(如 items/item)
“Get data from XML” 本身不支持跨层级展开多个重复组。若需把每个 拆成独立行,推荐组合方案:
- 先用 “Get data from XML” 提取
级数据(含内容作为 XML 片段字段) - 再接一个 “Get data from XML” 步骤,将上一步输出的
items_xml字段作为 XML source(选 “XML from field”),repeat node 设为items/item - 用 “Join Rows (Cartesian product)” 或 “Stream lookup” 关联主订单信息(需提前加唯一键,如 order_id)
常见问题与提示
避免踩坑:
-
中文乱码?在步骤的 “Content” 标签页中,显式设置 Encoding 为
UTF-8(即使文件声明了也建议指定) - 字段为空?检查 XPath 是否正确,是否用了
text()(如customer/text()),或启用 “Ignore empty elements” - 性能慢?大文件建议开启 “Use memory mapping”(在 Content 页),并限制预览行数
- 需要命名空间?在 “Content” 页勾选 “Support namespaces”,并在 XPath 中用前缀(如
ns:customer),同时在 “Namespaces” 表格里定义前缀与 URI 映射








