Drain: 简单有效的日志解析算法

Mon, 20 Apr 2026 00:32:07 +0800

研究背景

很多云平台都有各种日志，但是并不是结构化的，但利用机器学习/数据挖掘从日志中挖掘信息的时候又希望输入是结构化数据

因此，如何从非结构化日志中提取结构化信息是一件很重要的事情，一个朴素的想法是：使用正则表达式自己做解析提取，但是这个方法有很多缺点¹

在 Drain 算法被提出的时候（2017 年），很多日志解析手段都聚焦于离线批处理场景，但云平台的日志经常都是流式产生的，因此 Drain 算法聚焦在线流式处理场景，它可以自动从非结构化日志中挖掘日志模板，从而得到结构化数据