将嵌套字典转换为带多级列索引的Pandas表格

碧海醫心 2026-01-25 00:00:00 次阅读

本文介绍如何将三层嵌套字典（block → text → key）高效转换为结构清晰的pandas dataframe，通过转置、`json_normalize`、`concat`与`multiindex.from_product`组合实现自动化的多级列构建。

在实际数据处理中，我们常遇到类似 {"block1": {"text1": {"key1": "v1", "key2": "v2"}, ...}} 这样的三层嵌套字典结构，目标是将其展平为具备语义化层级的表格：行索引为 block 名（如 "block1"），一级列名为 text 标签（如 "text1"），二级列名为原始键名（如 "key1"）。这本质上是构建一个具有 MultiIndex 列 的 DataFrame。

以下为完整、可复现的解决方案：

import pandas as pd

data = {
    "block1": {
        "text1": {
            "key1": "value1",
            "key2": "value2",
        },
        "text2": {
            "key1": "value3",
            "key2": "value4",
        },
    },
    "block2": {
        "text1": {
            "key1": "value5",
            "key2": "value6",
        },
        "text2": {
            "key1": "value7",
            "key2": "value8",
        },
    },
}

# Step 1: 初始化基础 DataFrame（按 block 为列）
df = pd.DataFrame(data)

# Step 2: 转置 → block 变为行索引，text 变为列名
df_t = df.T  # shape: (2, 2), index=['block1','block2'], columns=['text1','text2']

# Step 3: 对每一列（即每个 text）用 json_normalize 展开其内部字典
# 每个 textX 列对应一个 dict → json_normalize 生成单列 DataFrame（key1/key2 为列）
normalized_parts = [pd.json_normalize(df_t[col]) for col in df_t.columns]

# Step 4: 水平拼接所有展开结果，并设置行索引对齐原 df_t.index
new_df = pd.concat(normalized_parts, axis=1).set_index(df_t.index)

# Step 5: 构建 MultiIndex 列：外层为 text 名，内层为 key 名（需预先确定键名）
# 注意：此处假设所有 text 下的键结构一致；若不一致，建议先统一提取 keys = list(data["block1"]["text1"].keys())
keys = ["key1", "key2"]
new_df.columns = pd.MultiIndex.from_product([df_t.columns, keys], names=["text", "key"])

print(new_df)

输出结果如下（已自动对齐并支持分层访问）：

text   text1           text2        
key     key1    key2    key1    key2
block1 value1  value2  value3  value4
block2 value5  value6  value7  value8

✅ 关键说明与注意事项：

json_normalize 是处理嵌套字典的利器，它能将 {"key1":"v1","key2":"v2"} 直接转为含两列的 DataFrame；
pd.concat(..., axis=1) 实现横向拼接，确保各 textX 部分并列；
set_index(df_t.index) 确保最终行索引与原始 block 顺序一致；
MultiIndex.from_product 要求明确知道所有子键（如 ["key1","key2"]），若键名动态变化，可统一提取：
```
all_keys = sorted(set(k for block in data.values() for text in block.values() for k in text.keys()))
```
若某 text 缺失某个 key，json_normalize 会自动填 NaN，保持列对齐。

该方法简洁、可扩展，适用于任意数量的 block 和 text，且天然支持 Pandas 的 .xs()、.loc[] 等多级索引操作，是构建结构化报表的理想选择。