如何使用Golang实现日志分析工具_读取日志文件并统计信息

Go日志分析工具用bufio.Scanner逐行读取大文件,正则解析Nginx日志字段,map统计状态码、路径、IP及QPS,支持命令行对齐输出与CSV导出。

用 Go 语言写一个轻量级日志分析工具,核心是:按行读取日志文件、解析每条日志(如时间、状态码、路径)、用 map 或结构体做统计,最后输出结果。不需要依赖复杂框架,标准库 bufiostringsregexpfmt 就够用了。

逐行读取大日志文件不卡顿

日志文件可能几百 MB,不能一次性加载进内存。用 bufio.Scanner 是最稳妥的方式,它默认缓冲 64KB,支持超长行(可调 Scanner.Buffer),也比 bufio.Reader.ReadLine 更简洁。

  • 设置最大扫描长度,避免因某行过长导致 panic:
    scanner := bufio.NewScanner(file)
    buf := make([]byte, 1024*1024) // 1MB 缓冲
    scanner.Buffer(buf, 1024*1024)
  • 跳过空行和注释行(如以 # 开头)可加简单判断:
    line := strings.TrimSpace(scanner.Text())
    if line == "" || strings.HasPrefix(line, "#") { continue }

解析常见日志格式(如 Nginx access.log)

典型 Nginx 日志形如:
192.168.1.1 - - [10/Jan/2025:14:23:05 +0800] "GET /api/users HTTP/1.1" 200 1243 "https://example.com" "Mozilla/..."
推荐用正则提取关键字段,比字符串切分更健壮。

  • 定义正则(支持 IPv4/IPv6、带时区的时间、请求行、状态码等):
    pattern := `^(\S+) \S+ \S+ \[([^\]]+)\] "(\w+) ([^"]+)" (\d{3}) (\d+|-)`
  • regexp.MustCompile 编译一次,循环中反复 FindStringSubmatch 提取子组,分别获取 IP、时间、方法、路径、状态码、字节数
  • 若日志是 JSON 格式(如 Logrus 输出),直接用 json.Unmarshal 解析到结构体,更清晰

统计维度与数据结构设计

统计目标决定怎么存数据。常用维度包括:HTTP 状态码分布、请求路径 TOP10、IP 访问频次、每秒请求数(QPS)趋势(需解析时间戳)。

  • 状态码计数:
    statusCount := make(map[string]int)
    statusCount["200"]++
  • 路径频次(限制只统计前缀,避免 /user/123 /user/456 被当成不同路径):
    path := strings.SplitN(fields[3], "?", 2)[0] // 去掉 query 参数
    pathCount[path]++
  • 按分钟聚合 QPS(将时间字符串转为 time.Time,再用 t.Truncate(time.Minute) 归一化):
    minuteKey := t.Truncate(time.Minute).Format("2006-01-02 15:04")
    qpsPerMinute[minuteKey]++

输出结果:命令行友好 + 可选导出 CSV

终端输出建议按列对齐(用 fmt.Printf 控制宽度),关键指标加粗或高亮;导出 CSV 时注意转义逗号和换行符。

  • 打印 TOP10 路径示例:
    fmt.Printf("%-8s %-12s %s\n", "COUNT", "STATUS", "PATH")
    fmt.Println(strings.Repeat("-", 50))
    for _, p := range topPaths {
      fmt.Printf("%-8d %-12s %s\n", p.Count, p.Status, p.Path)
    }
  • 导出 CSV:用 encoding/csv 包写入,自动处理引号和转义,比手动拼接安全
  • 支持 flag 控制输出格式:
    var exportCSV = flag.String("csv", "", "export to CSV file path")