后缀数组:快速查找模式串的所有出现位置 MartinLwx 发布于 2026-01-11 收录于 类别 Algorithm 后缀数组从定义上来说,后缀数组(用 sa 表示)包含了字符串 s 所有后缀的起始索引,它是一个 int 数组,sa[i] 表示对应后缀的起始索引。注意后缀已经按照字典序排好。 以字符串 fizzbuzz 为例,它的后缀数组是 4 0 1 5 7 3 6 2,对应关系如下
RIME 小鹤双拼极简配置:从零搭建 MartinLwx 发布于 2026-01-03 收录于 类别 Ergonomics 为什么用 RIME 输入法MacOS 自带的中文输入法只能说是勉强能用,有很多不舒服的点 它没有第三方词库,很多流行的词都需要自己一个个字打 好不容易自己打的词,多打几次希望它记住,但你会发现它经常记不住 诸如此类的吐槽我已经看到过很多,所以在这个 2026 的元旦假期,我决定做些改变——使用 RIME 输入法 🥳
更好的 TF-IDF: BM25 MartinLwx 发布于 2025-09-23 收录于 类别 Information Retrieval 引言如果你经常翻阅 LLM (RAG) 或者信息检索相关文献的话,想必会经常看到 BM25 算法。BM25 是用来对检索到的东西按照相关性排序的算法。即在给定用户查询(Query)的情况下,计算每一个文档(Document)的相关性(Relevance)并进行排序
t-SNE + K-Means:可视化与聚类 MartinLwx 发布于 2025-09-12 收录于 类别 ML-DL K-Means 算法 Info 每个样本只能属于一个类,因此 K-Means 算法是硬聚类算法 关联规则挖掘:Apriori 算法 MartinLwx 发布于 2025-07-30 收录于 类别 ML-DL 引言最近的工作中需要分析大量安卓 Apk 的特征关联,这些特征包括 IP 特征、URL 特征、权限特征等。特征关联指的是从数据中挖掘哪些特征之间存在关联,比如某些特征组合经常一起出现 如果依靠人工经验的话,数据量太大不大现实,就在这时我想起了以前数据挖掘课程上学过的一个算法:Apriori 算法 :) 异步编程+漏桶算法:批量调用 LLM API MartinLwx 发布于 2025-06-18 收录于 类别 ML-DL 背景最近在工作中着手模型评测平台的搭建,其中有这么一个场景:需要调用其他部门提供的 LLM API 进行在评测集上跑模型评测,但这个 LLM API 有请求速率限制 - 最多 1 秒调用 2 次(2 RPS)。所以我的任务概括来说就是:如何在严格遵守 API 速率请求的情况下,最大提高并发度加快模型评测速度。本文的内容主要记录了对这个任务的尝试,以及最后的解决方案 1 2 3 … 15
关联规则挖掘:Apriori 算法 MartinLwx 发布于 2025-07-30 收录于 类别 ML-DL 引言最近的工作中需要分析大量安卓 Apk 的特征关联,这些特征包括 IP 特征、URL 特征、权限特征等。特征关联指的是从数据中挖掘哪些特征之间存在关联,比如某些特征组合经常一起出现 如果依靠人工经验的话,数据量太大不大现实,就在这时我想起了以前数据挖掘课程上学过的一个算法:Apriori 算法 :)
异步编程+漏桶算法:批量调用 LLM API MartinLwx 发布于 2025-06-18 收录于 类别 ML-DL 背景最近在工作中着手模型评测平台的搭建,其中有这么一个场景:需要调用其他部门提供的 LLM API 进行在评测集上跑模型评测,但这个 LLM API 有请求速率限制 - 最多 1 秒调用 2 次(2 RPS)。所以我的任务概括来说就是:如何在严格遵守 API 速率请求的情况下,最大提高并发度加快模型评测速度。本文的内容主要记录了对这个任务的尝试,以及最后的解决方案