c++如何用perf工具分析性能 c++ Linux性能剖析【教程】

Linux下用perf分析C++性能需编译时加-g和-O2保留调试信息与清晰调用栈,采集时选准事件如cycles和cache-misses,再通过perf report、annotate及火焰图定位到函数与源码行级瓶颈。

在 Linux 下用 perf 分析 C++ 程序性能,核心是采集运行时的硬件事件(如 CPU 周期、缓存未命中、分支预测失败等),再结合符号信息定位热点函数和指令。关键前提是编译时保留调试信息、禁用过度优化干扰调用栈,并确保 perf 能正确解析二进制符号。

编译:带调试信息 + 合理优化

使用 -g 生成 DWARF 调试信息,方便 perf 关联源码行;用 -O2(而非 -O3-flto)保持函数边界清晰、内联可控,避免栈帧丢失:

  • g++ -g -O2 -o myapp main.cpp utils.cpp
  • 若用 CMake,添加:set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -g -O2")
  • 避免 strip 二进制,否则 perf 无法解析函数名和行号

采集:选对事件,关注用户态

默认 perf record 只采样用户态,适合分析应用逻辑。常用命令:

  • perf record -e cycles,instructions,cache-misses ./myapp arg1 arg2 —— 同时采集多个事件
  • perf record -g ./myapp —— 启用调用图(需 kernel 支持 frame pointers,推荐加 -fno-omit-frame-pointer 编译)
  • perf record -e cycles:u -p $(pidof myapp) —— 对已运行进程按 PID 采样

分析:从火焰图到源码行

perf report 查看汇总,perf script 导出原始调用流,配合 FlameGraph 工具生成直观火焰图:

  • perf report -n --sort comm,dso,symbol —— 按进程、共享库、函数排序,显示采样次数
  • perf report -g --no-children —— 展开调用栈,查看各层耗时占比
  • 生成火焰图:perf script | ~/FlameGraph/stackcollapse-perf.pl | ~/FlameGraph/flamegraph.pl > flame.svg
  • 若看到大量 `[unknown]`,说明缺少符号:检查是否 strip、是否用了动态链接且无 debuginfo 包(如 debuginfo-install glibc

进阶:结合源码与汇编定位瓶颈

perf 支持反汇编热点函数并标注采样热点行:

  • perf report -F overhead,symbol,dso --no-children 找出 top 函数
  • perf annotate —— 显示该函数的汇编+源码混合视图,每行标注采样数
  • 关注高采样指令:如 mov 后跟 cache-miss 高,可能为内存带宽瓶颈;cmp/jne 高可能有分支预测失败
  • perf mem record ./myapp 单独采集内存访问模式(需 Intel PEBS 支持)

perf 不依赖代码插桩,开销低、精度高,是 C++ 性能调优的第一工具。重点在于编译选项扎实、采集目标明确、分析时善用调用图和 annotate 定位到行级细节。