如何用Python解析PubMed的XML数据

幻夢星雲 2025-12-26 00:00:00 次阅读

Python解析PubMed XML需先用Biopython Entrez获取数据（设邮箱、控频次），再用ElementTree解析嵌套结构：标题//ArticleTitle、摘要//AbstractText、作者//AuthorList/Author等，注意命名空间、字段缺失及HTML标签清理，最后封装为返回结构化字典列表的健壮函数。

用Python解析PubMed的XML数据，核心是读取NCBI提供的XML格式文献记录（如通过Entrez.esearch和Entrez.efetch获取），再用标准库xml.etree.ElementTree或第三方库（如lxml）提取所需字段。关键不在于“能不能”，而在于理解PubMed XML的嵌套结构和常用标签路径。

获取PubMed XML数据

先通过Biopython的Entrez模块获取原始XML。需设置邮箱（NCBI强制要求），并指定数据库、检索词和返回格式：

使用Entrez.esearch获取PMID列表（限制条数避免超时）
用这些PMID调用Entrez.efetch，参数rettype="xml"确保返回XML而非摘要文本
注意处理HTTP错误、频率限制（加time.sleep(1)）和编码问题（响应默认为字节，需解码为字符串）

用ElementTree解析XML结构

PubMed XML是典型的嵌套层级结构，顶层为PubmedArticleSet，每个文献是PubmedArticle，内部包含MedlineCitation和PubmedData两大部分。常用字段路径示例：

标题：.//ArticleTitle/text()
摘要：.//AbstractText/text()（可能有多个AbstractText节点，含Label属性区分背景/方法等）
作者列表：.//AuthorList/Author/LastName/text() 和 .//AuthorList/Author/Initials/text()
DOI：.//ArticleId[IdType="doi"]/text()
出版年份：.//PubDate/Year/text()（注意有些只有MedlineDate，需回退提取）

处理常见陷阱

实际解析中容易踩坑，需针对性处理：

命名空间问题：PubMed XML带默认命名空间（如xmlns="http://www.nlm.nih.gov/..."），直接用find()会失败。解决方法：忽略命名空间（用{*}通配符）或预定义命名空间字典传入findall()
缺失字段：不是每篇都有摘要、DOI或完整作者名。务必用find()而非findtext()，再判空，避免AttributeError
特殊字符与换行：标题/摘要中含&、等实体，ElementTree会自动解码；但AbstractText可能含等HTML标签，需额外清理（如用re.sub(r"]+>", "", text)）