词元是片段,不一定是词。
它可以是一个字、半个单词、一个空格、一个括号,甚至是一段高频短语。
先记住三句话
它可以是一个字、半个单词、一个空格、一个括号,甚至是一段高频短语。
上下文窗口、输入输出费用、部分缓存与推理开销,通常都围着词元计算。
因为不同模型可能用不同的分词器和词表,所以词元数量并不总是统一的。
动手理解
与其读长篇解释,不如自己点几下。交互越少“猜错”,这个概念就越稳。
点“对”或“错”,马上看解释。
同一段内容,在模型眼里会被拆成不同片段。
这是为了建立直觉的粗略估算,不是某个模型的精确计数。
什么时候最该关心
历史轮次越多,模型每次都要“重读”的内容越多,成本和延迟都会被放大。
它们有很多符号、字段名和重复结构,通常比看起来更耗词元。
如果一次塞进太多片段,窗口会被迅速挤满,反而不利于模型抓重点。
最常见的误解
不等于。一个汉字可能是一个词元,高频双字词也可能合成一个词元,具体要看分词器。
也不是。最重要的是减少无效重复,而不是把必要信息压缩得看不懂。
不等于。窗口变大只是容量更大,不代表模型对所有位置的信息都同样敏感。