GPU经济学:如何在“不破产”的情况下训练AI模型
尽管AI技术的革新潜力巨大,高昂的训练成本却让许多中小企业望而却步。然而,在预算有限的情况下,通过混合精度训练、激活检查点及多GPU训练等创新软件策略,企业能显著优化AI模型训练,降低成本并提升效率。本文将深入探讨这些策略,助力中小企业在不增加过多硬件投资的情况下,也能享受AI带来的变革红利。
许多公司寄希望于人工智能(AI)能够彻底革新他们的业务,但这些希望往往会因为训练复杂AI系统的高昂成本而迅速破灭。
埃隆·马斯克(Elon Musk)曾指出,工程问题通常是进展停滞的原因。这一点在优化硬件(如GPU)以高效处理训练和微调大型语言模型所需的巨大计算量时尤为明显。
虽然大型科技巨头可以承受数百万甚至数十亿美元的培训和优化成本,但对于那些资金有限、发展时间紧迫的小型和中型企业以及初创公司来说,往往只能望而却步。
在本文中,我们将探讨一些策略,帮助那些资源有限的开发者在不破产的情况下完成AI模型的训练。
一、一不做,二不休
正如你所了解的那样,创建和推出一款人工智能产品,无论是基础模型/大型语言模型(LLM)还是经过微调的下游应用程序,都严重依赖于专门的AI芯片,尤其是GPU。
这些GPU不仅价格昂贵,而且难以获得,以至于SemiAnalysis在机器学习(ML)社区中创造了“GPU富裕”和“GPU贫困”这两个术语。
训练大型语言模型的高昂成本主要来自硬件的费用,包括购买和维护,而不是机器学习算法或专家知识。
训练这些模型需要在强大的计算集群上进行大量运算,且模型越大,训练时间越长。
例如,训练LLaMA 2 70B模型涉及将700亿个参数暴露于2万亿个标记上,需要至少10的24次方浮点运算。如果你属于“GPU贫困”群体,是否就该放弃呢?答案是否定的。
二、替代策略
如今,许多科技公司正在寻找替代方案,以减少对昂贵硬件的依赖,从而节省成本。
其中一种策略是调整和优化训练硬件。虽然这一途径仍然处于实验阶段,并且需要大量投资,但它在未来优化大型语言模型训练方面展现出了潜力。
这类硬件相关的解决方案包括微软和Meta推出的定制AI芯片,Nvidia和OpenAI的新半导体项目,百度的单一计算集群,Vast提供的GPU租赁服务,以及Etched公司推出的Sohu芯片等。
尽管这是推动进步的重要一步,但这种方法更适合那些能够在现在投入大量资金,以期未来降低成本的大型公司。对于那些希望在当下创建AI产品,却财力有限的新兴公司来说,这并不是一个可行的选择。
三、应对之策:创新软件
在预算有限的情况下,还有另一种优化大型语言模型训练并降低成本的方法通过创新软件。
这种方法更经济,并且对于大多数机器学习工程师来说更加容易上手,无论他们是经验丰富的专业人士,还是希望进入这一领域的AI爱好者和软件开发人员。让我们来详细探讨一些基于代码的优化工具。
四、混合精度训练
什么是混合精度训练:想象一下,你的公司有20名员工,却租用了足够容纳200人的办公空间,显然这是一种资源浪费。在模型训练过程中也会发生类似的低效情况,机器学习框架往往分配了比实际需要更多的内存。混合精度训练通过优化这一过程,提高了速度和内存使用效率。
工作原理:混合精度训练结合了较低精度的b/float16操作和标准的float32操作,从而减少了任意时刻的计算量。对于非工程师来说,这听起来可能有些复杂,但它的核心意义在于:AI模型可以在不降低精度的前提下,更快地处理数据并减少内存需求。
改进效果:这种技术可以使GPU的运行速度提高多达6倍,TPU(谷歌的张量处理单元)的速度提高2-3倍。像Nvidia的APEX和Meta AI的PyTorch这样的开源框架支持混合精度训练,使得这种技术易于集成到现有的流程中。通过实施这种方法,企业可以在保持模型性能的同时,大幅减少GPU成本。
激活检查点
什么是激活检查点:如果你受到内存限制的困扰,但同时愿意多花点时间,激活检查点可能是你需要的技术。简而言之,它通过将计算保持在最低限度,大幅降低内存消耗,从而使得在不升级硬件的情况下进行大型语言模型训练成为可能。
工作原理:激活检查点的核心思想是在模型训练过程中,仅存储一部分必要的值,其他部分仅在需要时才重新计算。这意味着系统不会将所有中间数据保存在内存中,而是只保留至关重要的部分,从而释放内存空间。这类似于“到桥头自然直”的原则,意思是在问题迫在眉睫之前不去过度关心。
改进效果:在大多数情况下,激活检查点可以减少多达70%的内存使用,尽管它也会将训练时间延长大约15-25%。这种公平的权衡意味着企业可以在现有硬件上训练大型AI模型,而无需额外投入资金到基础设施中。PyTorch库支持检查点功能,使得该技术更易于实施。
多GPU训练
什么是多GPU训练:想象一下,一个小面包店需要快速制作大量法棍。如果一个面包师独自工作,可能需要很长时间。加上第二个面包师,速度会加快。再加上第三个面包师,进度会更快。多GPU训练的工作原理与此类似。
工作原理:多GPU训练不再只使用一块GPU,而是同时利用多块GPU。这意味着AI模型训练分布在这些GPU上,让它们协同工作。从逻辑上讲,这与前面提到的检查点方法正好相反,后者是以延长运行时间为代价,减少硬件购置成本。这里,我们通过使用更多硬件来最大化效率,从而缩短运行时间并降低运营成本。
改进效果:以下是用于多GPU训练大型语言模型的三个强大工具,按照实验结果的效率递增排序:
- DeepSpeed:这是一个专门为多GPU训练AI模型设计的库,能够实现比传统训练方法快多达10倍的速度。
- FSDP:PyTorch中最受欢迎的框架之一,解决了DeepSpeed的一些固有限制,将计算效率进一步提高了15-20%。
- YaFSDP:最近发布的FSDP增强版本,在模型训练中提供了比原版FSDP方法高出10-25%的速度提升。
五、结论
通过采用混合精度训练、激活检查点和多GPU使用等技术,即使是中小型企业也能在AI模型的微调和创建方面取得显著进展。这些工具不仅提高了计算效率,缩短了运行时间,还降低了整体成本。
此外,它们还允许在现有硬件上训练更大的模型,减少了对昂贵硬件升级的需求。通过使更多企业能够获取先进的AI能力,这些方法推动了技术的普及,帮助更多的科技公司在这个快速发展的领域中创新和竞争。
正如那句俗话所说:“人工智能不会取代你,但使用人工智能的人会。” 是时候拥抱AI了,而且通过上述策略,即使在预算有限的情况下,这也是完全可行的。(VentureBeat)
本文由运营派作者【AI新智能】,微信公众号:【AI新智能】,原创/授权 发布于运营派,未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议。
没有休息,没有节日,没有周末,日日夜夜,希望能不断磨出好内容,对得起自己。
万物之中,希望最美,感谢作者分享。
整理得还挺全,解读得也很透彻,值得一读。
必须评论支持一下!!!