下一个排列问题

MartinLwx 发布于 2023-09-06 收录于类别 Algorithm

引言

有时候我们会想要生成一个序列的「下一个排列」或者是「上一个排列」，你会怎么做呢？如果你对 C++ 很熟悉的话，不难想到可以用 next_permutation¹ 和 prev_permutation²。但是 Python 并没有提供类似的 API。因此今天要探讨的就是如何用 Python 实现这 2 个 API，又因为「上一个排列」和「下一个排列」的方法其实大同小异，因此让我们聚焦其中的「下一个排列」问题

BPE 分词解密 - 实现方法与示例讲解

MartinLwx 发布于 2023-08-24 收录于类别 NLP

BPE 简介

在 NLP 里面，一个核心的问题是，如何对文本进行分词？从分类的角度上面来说，可以分为：

Char level
Word level
Subword level

先看 Char level 分词，顾名思义，就是把文本拆分成一个个字符单独表示，比如 highest -> h, i, g, h, e, s, t，一个显然的好处是，Vocab 不会太大，Vocab 的大小为字符集的大小，也不会遇到 Out-of-vocabulary(OOV) 的问题，但是字符本身并没有传达太多的语义，而且分词之后会有太多的 token，光是一个 highest 就可以得到 7 个 token，难以想象很长的文本分出来会有多少个😨

TF-IDF 模型

MartinLwx 发布于 2023-08-16 收录于类别 NLP

Info

进一步阅读

词袋模型

MartinLwx 发布于 2023-08-11 收录于类别 NLP

什么是词袋模型

在 NLP 中，我们需要将文档（document）表示为向量，这是因为机器学习只能够处理数字。也就是说，我们要找到下面这么一个神奇的函数：

$$ f(\text{document}) = vector $$

今天要讨论的是词袋模型（bag-of-word, BoW），词袋模型可以让我们把输入的文档转变成一个向量表示

机器学习求解梯度的小技巧

MartinLwx 发布于 2023-07-26 收录于类别 ML-DL

引言

也许你和我一样在求解机器学习的梯度时有各种困难，即使看着相关的 Cookbook 一边推导依然是有困惑，今天我要分享的是最近学习到的一个实用技巧：在机器学习中，求解偏导数的时候可以先全部看成标量处理，最后让维度匹配即可

Pytorch 张量的 strides 格式是什么

MartinLwx 发布于 2023-07-14 收录于类别 ML-DL Internal

引言

尽管我已经使用 Numpy 和 Pytorch 好长一段时间了，但我一直不知道他们是如何实现底层的张量（tensor），而且这么高效。最近在看 Deep Learning Systems 这门课，终于有机会尝试自己实现张量，实现一遍之后对张量的理解更深刻了🧐