5000美元迭代百亿大模型,算力市场如何“卷”出新花样

转载
375 天前
7218
Model进化论

文章转载来源:Model进化论

原文来源:大模型之家

作者:王昊达

图片来源:由无界 AI生成

2023年,Colossal-AI团队仅用85亿tokens、15小时和几百美元完成了对 LLaMA-2 7B的性能优化。升级后的Chinese LLaMA-2 7B在多个基准评估测试中都有着更出色的表现。

2024年伊始,Colossal-AI在初始框架的基础上开启模型的下一轮迭代,利用250亿tokens构建了一个更精致和全面的数据架构,最终打造了一个精细化的13B模型——Colossal-LLaMA-2-13B-base。并且Colossal-AI开源了Colossal-LLaMA-2的模型代码和特定权重。

图源:Colossal-AI

在英文测试MMLU排名中,Colossal-LLaMA-2-13B-base在英文性能方面稳步提升,这主要是因为Colossal-AI采用低成本的渐进式预训练。值得注意的是,在GSM8k评估中,Colossal-LLaMA-2-13B-base的英文数学和推理能力有了显著提升,位列所有参评的13B大模型第一。

在中文测试中,Colossal-LLaMA-2-13B-base在CMMLU、AGIEVAL、GAOKAO和C-Eval测试中都更优于其他中文模型。甚至在介绍中Colossal-AI表示,团队优化的大模型比花费高昂研发经费的国内大厂推出的大模型更加优秀。

图源:Colossal-AI

通过模型训练过程中记录下来的损失值的历史数据,可以很明显地发现,Colossal-LLaMA-2-13B-base在不同训练阶段的性能表现,以及模型是如何逐渐学习提高预测准确性的。Colossal-AI系统能够为大模型开发降本增效的特性,可以确保模型在训练过程中逐渐趋于稳定状态。并且Colossal-AI仅需要250亿tokens以及5000美元的训练费。与当前市场中流行的要求使用数万亿个tokens进行训练的大模型进行对比,Colossal-AI将节省更多的算力开支。


优化数据利用,节约算力成本


Colossal-AI认为高质量数据集是大模型降低训练成本的关键因素,特别是在增量预训练的背景下,对数据的质量和分布有着严格的要求,早在Chinese LLaMA-2 7B训练期间,Colossal-AI团队便建立了一个数据清理系统和工具包,以过滤高质量的数据用于增量预训练。

与7B版本相比,Colossal-LLaMA-2-13B-base的训练采用了更精细的数据架构,将数据分类为基于知识的、功能性的和内存回放的数据。基于知识的数据细分为十几个主要类别,包括金融、法律、教育等,每个主要类别进一步划分为子类别,以实现对不同数据的精确控制。此外,各个垂直领域的数据规模增加,以确保模型对来自多样领域的数据具有牢固地把握。

为了满足社区对大型模型功能性能的需求,Colossal-AI针对不同的自然语言处理任务进行了有针对性地增强。确保了在预训练期间,模型在文本摘要、信息提取以及理解复杂问题解决链等常见自然语言处理任务中达到一定水平的理解和熟练度。同时,Colossal-AI还将Experience Replay(经验回放)数据作为实现模型对已获知知识的掌握的关键组成部分,这也有效提升了模型的整体性能和泛化能力。

值得一提的是,考虑到为了社会对于大模型安全性日益增长的担忧,Colossal-AI团队实施了多维度的增强措施,以确保基础大模型具有强大的安全性并符合正确的价值观。


2024,算力为王?


根据大模型之家发布的《2024人工智能产业趋势预测》中指出,随着深度学习、机器学习等技术的广泛应用,对GPU算力的需求将持续飙升。预计2024年,智能算力将成为AI领域的主要瓶颈之一,引发算力市场的竞争加剧。

为了满足不断增长的计算能力需求,企业将增加投资,推动人工智能芯片技术的发展。与此同时,云计算业务将持续扩张,成为缓解计算能力不足的重要途径。此外,国家级人工智能中心的兴起,也将成为推动人工智能技术发展的重要动力。

2023年10月,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,其中提出2025年建成50个智能计算中心等量化指标。而计算力方面,到2025年规模将超过300EFLOPS,智能算力占比达到35%。

图源:工信部官网

在23年末的百度云智大会·智算大会上百度智能云表示,为满足大模型落地需求,正在基于「云智一体」战略重构云计算服务,完成了从底层基础设施到大模型开发与应用再到AI原生应用开发的端到端升级。

在云计算全面升级方面,百度智能云发布了20多款全栈产品,覆盖了智能计算、通用计算、数据库和大数据、分布式云、应用开发平台等五大领域。包括百舸·AI异构计算平台3.0,专门优化了大模型的训练、推理等环节,提高了产品能力,实现了模型训练时长和带宽有效性的显著提升。

图源:百度智能云

在数据基础设施领域,百度智能云发布了一系列重磅新品,包括沧海·存储、云原生数据库GaiaDB等,以满足大模型落地对数据存储、管理和分析的需求。为了解决算力的供给平衡问题,百度智能云还发布了智算网络平台,支持全域接入智算节点,通过算力调度算法智能分析和统一调度各类算力资源,实现智算资源的灵活、稳定、高效地交付。

在未来的算力市场中,硬件技术的疾速演进和云计算业务的蓬勃增长,是整个应用环境的深刻变迁。大模型高歌猛进的发展态势正让人们经历着前所未有的算力生态变革。

随着算力技术浪潮的升腾,在算力大幅提升的同时,企业和社会必须更加关切数据隐私、安全性等方面的问题,确保人工智能技术的成功不仅止步于技术的巅峰,同时在伦理和社会的高度上实现平衡。

大模型之家认为,未来的算力市场将由硬件和技术的单一竞争,演变为对智能算力如何更好地服务社会、推动创新、维护道德底线的深刻思考。在这个飞速发展的时代,我们期盼着算力市场和应用环境的协同演进,为构建一个更加智能、可持续、人性化的未来奠定坚实基础。