c++如何用perf工具分析性能 c++ Linux性能剖析【教程】

穿越時空 2025-12-26 00:00:00 次阅读

Linux下用perf分析C++性能需编译时加-g和-O2保留调试信息与清晰调用栈，采集时选准事件如cycles和cache-misses，再通过perf report、annotate及火焰图定位到函数与源码行级瓶颈。

在 Linux 下用 perf 分析 C++ 程序性能，核心是采集运行时的硬件事件（如 CPU 周期、缓存未命中、分支预测失败等），再结合符号信息定位热点函数和指令。关键前提是编译时保留调试信息、禁用过度优化干扰调用栈，并确保 perf 能正确解析二进制符号。

使用 -g 生成 DWARF 调试信息，方便 perf 关联源码行；用 -O2（而非 -O3 或 -flto）保持函数边界清晰、内联可控，避免栈帧丢失：

默认 perf record 只采样用户态，适合分析应用逻辑。常用命令：

perf record -e cycles,instructions,cache-misses ./myapp arg1 arg2 —— 同时采集多个事件
perf record -g ./myapp —— 启用调用图（需 kernel 支持 frame pointers，推荐加 -fno-omit-frame-pointer 编译）
perf record -e cycles:u -p $(pidof myapp) —— 对已运行进程按 PID 采样

用 perf report 查看汇总，perf script 导出原始调用流，配合 FlameGraph 工具生成直观火焰图：

perf report -n --sort comm,dso,symbol —— 按进程、共享库、函数排序，显示采样次数
perf report -g --no-children —— 展开调用栈，查看各层耗时占比
生成火焰图：perf script | ~/FlameGraph/stackcollapse-perf.pl | ~/FlameGraph/flamegraph.pl > flame.svg
若看到大量 `[unknown]`，说明缺少符号：检查是否 strip、是否用了动态链接且无 debuginfo 包（如 debuginfo-install glibc）