|
同时,为了让训练数据具有足够高的质量,开发了一系列数据过滤管道。 过滤器、语义去重方法和文本分类器,用来预测数据质量。 在这个过程中一个有意思的点就是—— 前几代的 在识别高质量数据方面居然出奇得好,因此,使用 来生成了用于训练 的文本质量分类器的训练数据。 此外,为了评估在最终的预训练数据集中混合来自不同来源的数据的最佳方式,还进行了大量实验。 最终,就能够选择一个数据组合,让 在、编码、
历史知识等各种使用场景中,都能表现良好。 依旧是王道 为了有效利用预 立陶宛电话号码数据 训练数据,团队在扩大预训练规模上,投入了大量精力。 针对下游基准评估,开发了一系列详细的缩放定律。这就保证团队能够选择最佳的数据组合,同时最佳地利用训练计算资源。 而缩放定律可以帮助团队在实际训练模型之前,预测最大模型在关键任务上的性能,这是至关重要的,因为这就能确保,模型在各种使用场景和能力方面,都有出色的表现。 在这个过程中,

团队对缩放行为观察到了有了几个有趣的新现象。 比如,虽然一个参数模型的最优训练计算量,对应于约亿个,但发现,即使在模型接受了两个数量级以上的数据训练后,模型性能仍在继续提高! 而和参数的 在接受了高达个的训练后,继续呈对数线性提高。 更大的模型可以用更少的训练计算,来匹配这些较小模型的性能,不过,由于小模型在推理过程中的效率更高,因此反而更受青睐。
|
|