神奇的 torch.einsum API MartinLwx 发布于 2025-04-14 收录于 类别 ML-DL Motivations在 PyTorch 里面存在着很多跟矩阵乘法、矩阵向量乘法等操作相关的 API,这对记忆来说是一种负担。并且,在使用这些 API 的过程中经常需要对矩阵进行 reshape 等操作,确保维度信息对得上
Python 的 2 个进程池相关 API MartinLwx 发布于 2025-03-30 收录于 类别 Programming-Languages Intro作为一名算法工程师,在我的工作中经常都会写各种 Python 脚本来处理大量数据,做数据清洗、信息提取等。通常情况下,这些数据的处理并不涉及竞争条件(Race Condition),而是简单的数据并行(Data Parallel),属于 CPU 密集型任务。通常情况下,这样的任务可以被抽象为 map(fn, data) 的模式
Class Hierarchy Analysis 算法: 快速生成调用图 MartinLwx 发布于 2025-03-19 收录于 类别 Program-Analysis 调用图生成的核心问题对于 OOP 语言来说,搭建调用图的核心问题是有多态的场景下如何确定到底是哪一个方法被调用了,下面是 Java 的一些可能的函数调用 1
前缀和数组: 快速计算数组区间和 MartinLwx 发布于 2025-03-15 收录于 类别 Algorithm Motivations有这么一类问题——给定一个数组 $arr$ 和 $Q$ 个查询,每一个查询的格式是 $query(l, r)$,意思是计算区间和 $arr[l] + arr[l + 1] + … + arr[r]$
语言模型中的 Weight Tying 技术 MartinLwx 发布于 2025-03-11 收录于 类别 ML-DL 引言 Quote In our model, we share the same weight matrix between the two embedding layers and the pre-softmax linear transformation - Attention is All You Need, Section 3.4. Embeddings and Softmax1 多头注意力是什么 MartinLwx 发布于 2025-03-04 收录于 类别 ML-DL 什么是多头注意力在上一篇文章里面我们已经讲完了 Self Attention|自注意力,这里我们在自注意力的基础上多增加一点东西:加上多头注意力(Multi-Head Attention,MHA)。这个其实才是本来 Transformer 的自注意力的完全版本1。因为大部分内容在前文已经讲完,本篇不会太长~ 1 2 3 … 13
多头注意力是什么 MartinLwx 发布于 2025-03-04 收录于 类别 ML-DL 什么是多头注意力在上一篇文章里面我们已经讲完了 Self Attention|自注意力,这里我们在自注意力的基础上多增加一点东西:加上多头注意力(Multi-Head Attention,MHA)。这个其实才是本来 Transformer 的自注意力的完全版本1。因为大部分内容在前文已经讲完,本篇不会太长~