WOT全球技术创新大会2022,门票6折抢购中!购票立减2320元!
近几年,我们已经看到模型规模越来越大,例如 2018 年诞生的 GPT 具有 1.17 亿参数,时隔一年,2019 年 GPT—2 参数量达到 15 亿,2020 年更是将其扩展到 1750 亿参数的 GPT—3根据消息显示,OpenAI 打造的超级计算机拥有 285000 个 CPU 核以及 10000 个 GPU,供 OpenAI 在上面训练所有的 AI 模型
大型语言模型虽然训练昂贵,但也有其重要的一面,例如可以在各种任务中执行小样本学习,包括阅读理解,问答虽然这些模型可以通过简单地使用更多参数来获得更好的性能但是有没有方法可以更有效地训练和使用这些模型呢
为了回答这个问题,谷歌推出了具有万亿权重的通用语言模型 ,该模型的一大特点就是具有稀疏性,可以高效地进行训练和服务,并在多个小样本学习任务上取得有竞争力的性能。
我们来看一下 GLaM 模型的具体情况。
数据集
谷歌首先构建了一个高质量的,具有 1.6 万亿 token 的数据集,该无标签数据集很大一部分来自 Web 页面,其范围从专业写作到低质量的评论和论坛页面此外,谷歌还开发了一个文本质量过滤器,该过滤器是在维基百科和书籍文本数据集上训练而成,由于过滤器训练的数据集质量很高,所以谷歌将其过滤 Web 网页内容的质量最后,谷歌应用这个过滤器来生成 Web 网页的最终子集,并将其与书籍和维基百科数据相结合来创建最终的训练数据集
GLaM 模型架构
GLaM 是混合专家模型 ,这种模型可以被认为具有不同的子模型,每个子模型都专门用于不同的输入每一层的专家由一个门控网络控制,该门控网络根据输入数据激活专家对于每个 token,门控网络选择两个最合适的专家来处理数据完整的 GLaM 总共有 1.2T 参数,每个 MoE 包含 64 个专家,总共 32 个 MoE 层,但在推理期间,模型只会激活 97B 的参数,占总参数的 8%
GLaM 的体系架构,每个输入 token 都被动态路由到从 64 个专家网络中选择的两个专家网络中进行预测。。
与 GShard MoE Transformer 类似,谷歌用 MoE 层替换其他 transformer 层的单个前馈网络MoE 层有多个专家,每个专家都是具有相同架构但不同权重参数的前馈网络
尽管 MoE 层有很多参数,但专家是稀疏激活的,这意味着对于给定的输入 token,只使用两个专家,这样做的优势是在限制计算的同时给模型提供更多的容量在训练期间,每个 MoE 层门控网络都经过训练,使用它的输入来激活每个 token 的最佳两位专家,然后将其用于推理对于 MoE 层的 E 专家来说,这本质上提供了 Etimes, 个不同前馈网络组合的集合,而不是经典 Transformer 中的一个组合,从而带来更大的计算灵活性
最终学习到的 token 表示来自两个专家输出的加权组合,这使得不同的专家可以激活不同类型的输入为了能够扩展到更大的模型,GLaM 架构中的每个专家都可以跨越多个计算设备谷歌使用 GSPMD 编译器后端来解决扩展专家的挑战,并训练了多个变体来了解稀疏激活语言模型的扩展效果
评估设置
谷歌使用 zero—shot 和 one—shot 两种设置,其中训练中使用的是未见过的任务。评估基准包括如下:
完形填空和完成任务, 开放域问答, Winograd—style 任务, 常识推理, 上下文阅读理解, SuperGLUE 任务, 自然语言推理。
谷歌一共使用了 8 项自然语言生成任务,其中生成的短语基于真值目标进行评估,以及 21 项自然语言理解任务,其中几个 options 中的预测通过条件对数似然来选择。
实验结果
当每个 MoE 层只有一个专家时,GLaM 缩减为一个基于 Transformer 的基础密集模型架构在所有试验中,谷歌使用「基础密集模型大小 / 每个 MoE 层的专家数量」来描述 GLaM 模型比如,1B/64E 表示是 1B 参数的密集模型架构,每隔一层由 64 个专家 MoE 层代替
谷歌测试了 GLaM 的性能和扩展属性,包括在相同数据集上训练的基线密集模型与最近微软联合英伟达推出的 Megatron—Turing 相比,GLaM 使用 5% margin 时在 7 项不同的任务上实现了不相上下的性能,同时推理过程中使用的算力减少了 4/5
此外,在推理过程中使用算力更少的情况下,1.2T 参数的稀疏激活模型在更多任务上实现了比 1.75B 参数的密集 GPT—3 模型更好的平均结果。
NLG和 NLU任务上,GLaM 和 GPT—3 的平均得分。
谷歌总结了 29 个基准上,GLaM 与 GPT—3 的性能比较结果结果显示,GLaM 在 80% 左右的 zero—shot 任务和 90% 左右的 one—shot 任务上超越或持平 GPT—3 的性能
此外,虽然完整版 GLaM 有 1.2T 的总参数,但在推理过程中每个 token 仅激活 97B 参数的子网。这就是AI-Writer:的模型,开发者亲切地称之为“智力低下的人工写作”,由GPT魔改而成。
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。