要約
英語を中心としたコーパスで訓練された多言語LLMは、内部言語として英語を使用している可能性がある。
LLMの動作メカニズムを理解するために、EPFLの研究者らはLlama 2を対象に実験を行った。
実験の結果、Llama 2内部の「共通語」は英語ではなく、概念であることが判明した。しかし、これらの謎の文字は明らかに英語に偏った概念である。
原文: 新浪 IT之家 新智元 2024/6/3 7
本文(ピンイン)
【新智元导读】在以英语为主的语料库上训练的多语言
LLM,是否使用英语作为内部语言?对此,来自
EPFL
的研究人员针对
Llama
2
家族进行了一系列实验。
大语言模型的「母语」是什么?
我们的第一反应很可能是:英语。
但事实果真如此吗?尤其是对于能够听说读写多种语言的
LLM
来说。
对此,来自
EPFL(洛桑联邦理工学院)的研究人员发表了下面这篇工作来一探究竟:
论文地址:https://arxiv.org/
pdf
/
2402.10588
项目地址:https://github.com/
epfl–dlab
/
llm–latent–language
作者以
Llama2
为对象,向我们展示了具有多语言能力的
Transformer,是如何思考问题的。
像「羊驼」这种在英语区下长大的娃,他的「多语言」到底是本质属性,还是仅仅套了个翻译的壳?
这对于人们理解
LLM
的运行机制至关重要。
要探究大模型的内心世界,虽然听起来有点复杂,但实际上一点也不简单。
研究人员在这里化繁为简,使用特定的提示来保证输出的唯一性,同时把
Llama–2–7B
的
32
层输出全部提取出来
——
一层一层一层地剥开她的心。
于是,我们能在上图清楚地看到,羊驼在得到中文翻译(「花」)时的整个推理过程。
Transformer
将输入
token
进行逐层映射,最终预测出下一个
token,中间那些我们大概能理解或者不能理解的字符串,就是
LLM
使用的「内部语言」。
显然,在中间层的「思考」环节,羊驼用的是偏向于英语的某种神秘文字。这里需要强调一下,这是羊驼的自发行为,因为提示中压根就没有一点英语!
比如上图是其中的一个实验,构建了法语翻译中文的提示,且限制了正确答案只需
1
个
token(花)。
而下图的统计显示:在
Llama2
的大部分前向传递中,正确中文
token(蓝色)的概率远低于英文翻译(橙色)的概率。中文只在最后两层中占据主导地位。
为了方便大家观察,作者还将嵌入在高维空间中的路径的可视化(实际是
8192
个维度,这里使用
2D
展示)。
从输入到输出,轨迹以红色开始,以紫色结束。我们可以看到,这些路径基本都是先绕道英语,然后才返回正确的中文。
不过,这是否确实表明
Llama2
先用英文进行推理,然后将再其翻译成中文?
作者表示,比这更微妙一点。那些看起来像英语的中间嵌入实际上对应于抽象概念,而不是具体的英文
token。
所以,一方面,Llama2
内部的「通用语」不是英语,而是概念;但另一方面,这些神秘字符又显然是偏向于英语的概念。
因此,在语义上,而非纯粹的词汇意义上,英语确实可以被视为羊驼的「母语」。
网友:我早就发现了
有网友表示:恕我直言,不仅仅是羊驼系列,基本上所有
LLM
都是这样。
「对于以英语为母语的人来说,这可能会令人惊讶,但对于其他人来说,这种倾向性是可见的,只不过有时多,有时少。」
「有时我会想
LLM
为什么要这样回答,然后我意识到这个答案在英语中更有意义。」
「这在诗歌中更是显而易见的。LLM
写诗很漂亮,但通常没有押韵
——
如果你把它翻译成英语,就押韵了。」
另一位网友表示,这是大模型带来的偏见,要小心了。
「英语和中文最终将成为
LLM
提示和输出的最佳语言,而随着
LLM
的应用范围越来越广泛,世界其他语言将更加边缘化。」
模型表达空间的探索
当嵌入逐层转换时,它们会经历
3
个阶段:
1.
输入空间:模型消除分词器带来的影响。
2.
概念空间:嵌入进入一个抽象的概念空间中。
3.
输出空间:概念被映射回原本的表达形式。
模型
实验专注于
Llama–2
系列语言模型。Llama–2
系列模型在多语言语料库上进行训练,语料库主要由英语主导(占
89.70%)。
不过考虑到总体训练数据的大小(2
万亿个
token),即...
単語(ピンイン)
研究人员research
worker
一系列a
series
ofa
range
ofrangesequencesuccessionstringroundbatteryconstellationtailparade
语言模型language
model
我们的ours
很可能like
as
notbe
likely
towelleasilypresumablyvery
likelyinclinedin
all
probability
尤其是in
especialin
particularnotablyabove
allthe
more
somost
of
allto
crown
all
多种语言multilingualMultilingualismMultiple
languagesmultilanguage
洛桑LausanneRothamstedEHLLausaneLaussane
理工学院institute
of
technologypolytechniccollege
of
science
and
engineeringpoly
语言能力Language
abilitylinguistic
competence
ディスカッション
コメント一覧
まだ、コメントがありません