将嵌套字典转换为带多级列索引的Pandas表格

本文介绍如何将三层嵌套字典(block → text → key)高效转换为结构清晰的pandas dataframe,通过转置、`json_normalize`、`concat`与`multiindex.from_product`组合实现自动化的多级列构建。

在实际数据处理中,我们常遇到类似 {"block1": {"text1": {"key1": "v1", "key2": "v2"}, ...}} 这样的三层嵌套字典结构,目标是将其展平为具备语义化层级的表格:行索引为 block 名(如 "block1"),一级列名为 text 标签(如 "text1"),二级列名为原始键名(如 "key1")。这本质上是构建一个具有 MultiIndex 列 的 DataFrame。

以下为完整、可复现的解决方案:

import pandas as pd

data = {
    "block1": {
        "text1": {
            "key1": "value1",
            "key2": "value2",
  

}, "text2": { "key1": "value3", "key2": "value4", }, }, "block2": { "text1": { "key1": "value5", "key2": "value6", }, "text2": { "key1": "value7", "key2": "value8", }, }, } # Step 1: 初始化基础 DataFrame(按 block 为列) df = pd.DataFrame(data) # Step 2: 转置 → block 变为行索引,text 变为列名 df_t = df.T # shape: (2, 2), index=['block1','block2'], columns=['text1','text2'] # Step 3: 对每一列(即每个 text)用 json_normalize 展开其内部字典 # 每个 textX 列对应一个 dict → json_normalize 生成单列 DataFrame(key1/key2 为列) normalized_parts = [pd.json_normalize(df_t[col]) for col in df_t.columns] # Step 4: 水平拼接所有展开结果,并设置行索引对齐原 df_t.index new_df = pd.concat(normalized_parts, axis=1).set_index(df_t.index) # Step 5: 构建 MultiIndex 列:外层为 text 名,内层为 key 名(需预先确定键名) # 注意:此处假设所有 text 下的键结构一致;若不一致,建议先统一提取 keys = list(data["block1"]["text1"].keys()) keys = ["key1", "key2"] new_df.columns = pd.MultiIndex.from_product([df_t.columns, keys], names=["text", "key"]) print(new_df)

输出结果如下(已自动对齐并支持分层访问):

text   text1           text2        
key     key1    key2    key1    key2
block1 value1  value2  value3  value4
block2 value5  value6  value7  value8

关键说明与注意事项:

  • json_normalize 是处理嵌套字典的利器,它能将 {"key1":"v1","key2":"v2"} 直接转为含两列的 DataFrame;
  • pd.concat(..., axis=1) 实现横向拼接,确保各 textX 部分并列;
  • set_index(df_t.index) 确保最终行索引与原始 block 顺序一致;
  • MultiIndex.from_product 要求明确知道所有子键(如 ["key1","key2"]),若键名动态变化,可统一提取:
    all_keys = sorted(set(k for block in data.values() for text in block.values() for k in text.keys()))
  • 若某 text 缺失某个 key,json_normalize 会自动填 NaN,保持列对齐。

该方法简洁、可扩展,适用于任意数量的 block 和 text,且天然支持 Pandas 的 .xs()、.loc[] 等多级索引操作,是构建结构化报表的理想选择。