您现在的位置是:恒山凌易网 > 热点
「教科书级」数据能有多大熏染?微软超强小模子引热议
恒山凌易网2024-11-06 03:44:53【热点】0人已围观
简介随着大模子掀起新一轮 AI 热潮,人们开始思考:大模子的强盛能耐源头于甚么?之后,大模子不断在由不断削减的「大数据」来增长。「大模子 + 大数据」彷佛已经成为构建模子的尺度范式。但随着模子规模以及数据
随着大模子掀起新一轮 AI 热潮,教科人们开始思考 :大模子的书级数据强盛能耐源头于甚么?
之后,大模子不断在由不断削减的熏染小模「大数据」来增长。「大模子 + 大数据」彷佛已经成为构建模子的微软尺度范式 。但随着模子规模以及数据量的超强不断削减 ,算力的引热议需要会快捷缩短 。一些钻研者试验探究新思绪 。教科
6 月,书级数据微软宣告了一篇题为《Textbooks Are All You Need》的熏染小模论文 ,用规模仅为 7B token 的微软「教科书品质」数据磨炼了一个 1.3B 参数的模子 ——phi-1。尽管在数据集以及模子巨细方面比竞品模子小多少个数目级 ,超强但 phi-1 在 HumanEval 的引热议 pass@1 上抵达了 50.6% 的精确率,在 MBPP 上抵达了 55.5% 。教科
phi-1 证实高品质的书级数据「小数据」可能让模子具备精采的功能。最近,熏染小模微软又宣告了论文《Textbooks Are All You Need II: phi-1.5 technical report》,对于高品质「小数据」的后劲做了进一步钻研 。
论文地址:https://arxiv.org/abs/2309.05463
模子简介
架构
钻研团队运用 phi-1 的钻研措施,并将钻研重点放在做作语言知识推理使命上,建树了具备 1.3B 参数的 Transformer 架构语言模子 phi-1.5 。phi-1.5 的架构与 phi-1 残缺相同 ,有 24 层 ,32 个头 ,每一个头的维度为 64 ,并运用旋转维度为 32 的旋转嵌入,高下文长度为 2048 。
此外 ,该钻研还运用 flash-attention 妨碍磨炼减速,并运用 codegen-mono 的 tokenizer。
磨炼数据
phi-1.5 的磨炼数据是由 phi-1 的磨炼数据(7B token)以及新建树的「教科书品质」数据(约莫 20B token)组成的。其中 ,新建树的「教科书品质」数据旨在让模子把握知识推理 ,钻研团队精心筛选了 20K 个主题来天生新数据 。
值患上留意的是,为了品评辩说收集数据(LLM 罕用)的紧张性,该钻研还构建了 phi-1.5-web-only 以及 phi-1.5-web 两个模子。
钻研团队展现:建树强盛且周全的数据集需要的不光是原始合计能耐,还需要重大的迭代、实用的主题抉择,以及对于知识的深入清晰,具备这些因素 ,能耐确保数据的品质以及多样性