单词覆盖范围语料库中 南非电话号码 只有区区万个词。 对英语和精选高资源语言的偏向并非的母公司有意为之;因为语料大部分来自互联网而互联网反映的是个国家和语种的富裕开放和活跃程度。 大语言模型在很大程度上忽了世界上, 种现存语言中的大多数。例如以下使用人数众多的语言贡献了不到 % 的互联网文本内容因此很难收集足够的数据来训练个专门针对这门语言的大语言模型 印地语 亿使用者 阿拉伯语亿使用者 孟加拉语亿使用者 乌尔都语亿使用者 语言使用者和可用文本数据之间的差异导致了语言多样性之间的不平衡。

这个问题的源头更多的是个国家的发展情况和投资力度我们会在下篇博文中详述。 对于旨在支持更广泛语言的大语言模型来说这也是个根本性的挑战如果种语言在网络上只有少量文本那就没有适合这门语言的大语言模型。如果种语言在网络有大量文本也需要其代表国家加大投资力度才能发展出有本身语言特色的大语言模型。 于是我根据的支持力度对世界语言进行了分类 - 对高资源和低资源语种的支持情况 英语是大语言模型 最有效的“编程语言大语言模型有个输入和输出的限制以k数目表示。如果k数太少比如只有区区个那能做的事情就很有限。 这有点像早期的个人电脑只有K的内存跑不了“大程序。