农业机械

低成本复制 ChatGPT 训练流程，仅须 1.68GB GPU 即可使用，方法现已开源！

时间：2023/05/13 12:17:24 来源：农业机械

培训，以及第三前期的加大奋斗学习培训，这是流程中所最复杂的前期。

此外，Colossal-AI 通过用作 ZeRO、Gemini、LoRA、AutoChunk 内核管理等，大大降高于了 ChatGPT 培训的 GPU 内核开销。它需用要一半的显卡资源就可以开始 1750 亿个模板的静态培训（从 64 张卡到 32 张卡），大大降高于了 ChatGPT 应用的费用。

倘若在上述相同的显卡资源下，Colossal-AI 并不需要在来得短的时间内同步进行培训，节省时间培训费用，加速产品迭代。

为了让来得多的自由软件跑 ChatGPT 培训现实生活，除了原有的 1750 亿模板旧版本，Colossal-AI 还提供高效的单 GPU、独立的 4/8GPU 的类 ChatGPT旧版本以降低显卡限制：

在单台多 GPU 链接上，即使用作最高端的 A100 80GB GPU，由于 ChatGPT 的复杂性和内核碎片化，PyTorch 也只能启动基于 GPT-L（774M）等小静态的 ChatGPT。因此，用 PyTorch 的 DistributedDataParallel（DDP）将多 GPU 立体化扩展到 4 或 8 个 GPU，结果性能增强有限。

根据数据分析的团队引介，Colossal-AI 不仅在单 GPU 上有相对来说的培训和逻辑推理速度快优势，而且可以随着立体化规模的缩减而再有所提高，单链接培训速度快可达 7.73 倍，单 GPU 逻辑推理速度快可达 1.42 倍，并且并不需要继续缩减到大规模的直角度，大大降高于 ChatGPT 镜像的费用。

为了尽量减少地降高于培训费用和易用性，Colossal-AI 还提供了一个可以在单GPU 上下线的 ChatGPT 培训现实生活。与 PyTorch 相对来说，在 14999 美元的 A100 80GB 上最多只能启动 7.8 亿个模板静态，Colossal-AI 将单个 GPU 的发电能力提高了 10.3 倍，达到 80 亿模板。对于基于 1.2 亿个模板的小静态的 ChatGPT 培训，至少需 1.62GB 的 GPU 内核，任何单独购物级 GPU 都可以做到。

此外，Colossal-AI 在致力于降高于基于可不培训的大型静态的更正任务的费用。例如，关于 OPT 静态的 ChatGPT 的更正任务，Colossal-AI 并不需要将单个 GPU 上的更正静态的发电能力比 PyTorch 提高 3.7 倍，同时以足够高的速度快文书工作。

一行编译器即可启动

一切准备就绪，只欠采取行动。根据数据分析人员引介，Colossal-AI 提供了开箱即用的 ChatGPT 培训编译器。在此，以 GPT 为例，需用要一行编译器就可以指定用作 Colossal-AI 作为系统手段来启动。

用作都有命令，自由软件可以快速启动单 GPU 规模、单机多 GPU 规模、早期 1750 亿模板规模旧版本的培训，并对各种设计标准（都有最大GPU内核用作率、处理量和TFLOPS）同步进行评估。

# Training GPT2-S using a single card, a minimum batch size, Colossal-AI Gemini CPU strategytorchrun ---standalone ---nproc_pero_node 1 benchmark_gpt_dummy.py ---model s ---strategy colossalai_gemini_cpu ---experience_batch_size 1 ---train_batch_size 1# Training GPT2-XL with a 4-GPU machine, Colossal-AI Zero2 strategytorchrun ---standalone ---nproc_per_node 4 benchmark_gpt_dummy.py ---model xl ---strategy colossalai_zero2# Training GPT-3 with 4 8-GPU servers, Colossal-AI Gemini CPU strategytorchrun ---nnodes 4 ---nproc_per_node 8 ---rdzv_id=$JOB_ID ---rdzv_backend=c10d ---rdzv_endpoint=$HOST_NODE_ADDR benchmark_gpt_dummy.py ---model 175b ---strategy colossalai_gemini_cpu ---experience_batch_size 1 ---train_batch_size 1

最上层优化

高于费用的 LoRA 更正

镜像 ChatGPT 的付诸现实生活一般来说发挥作用 Colossal-AI。Colossal-AI 支持通过高于秩线性更正（LoRA，Low-Rank Adaptation）方法同步进行高效更正。该方法结论大型语种静态是过度模板化的，更正现实生活中所的模板变量是一个高于秩线性，它可以分解为两个小线性的行列式：

由于大型语种静态的模板是固定的，在更正现实生活中所只有调整线性的模板，从而降低培训模板的数量。在同步进行布防逻辑推理时，将线性的行列式加来到早期线性中所，如，不不良影响逻辑推理提前。

LoRA 在结构上，只培训 A、B

Zero+Gemini 来降低内核冗余

与传统的统计数据立体化手段相对来说，Colossal-AI 用作零冗余优化器（ZeRO）来消除内核冗余，并在不不良影响计算一般而言和通信经济性的情况下，提高内核用作率。此外，为再有所提高了 ZeRO 的性能，Colossal-AI 还提出了基于 Chunk 的内核管理机制，它可以将连续的模板集按操作方法顺序存储在一个连续的、分量再分的内核空间中所，由此来得能有效地利用网络带宽（PCI-e 和 GPU 彼此之间），降低通信费用，并避开潜在的内核碎片。

此外，Colossal-AI 的异构内核管理器 Gemini 通过将优化器长时间安全地到 CPU ，以此降低 GPU 内核占用，而无须同时用作 GPU 内核和 CPU 内核（都有 CPU DRAM 或 NVMe SSD 内核）来培训大于单个 GPU 内核限制的大规模静态。

撰写在最后

目前，该数据分析的团队之前GNU了完整的插值和软件设计来镜像 ChatGPT 的付诸现实生活：。

不过，同样是基于费用考虑，他们表示，「对于这样一个巨型的计算机科学静态，它需来得多的统计数据和计算资源来实际续期和布防。无疑，用 1750 亿个模板培训一个 GPT-3 需价值数百万美元的计算能力。因此，大型可不培训静态长期以来只为少数大科技产业该公司所具备。」

因此，他们也希望并不需要以GNU的方式为，吸引来得多的数据分析人员、该机构主导参与通通，仅以上文中所所镜像 ChatGPT 培训流程的实践探索为终点，未来可以向大静态的黄金时代做出奋斗。

来得多详情请内容可可查阅官方核定：

请注意：

。

肠道菌群失调怎么调理
体内湿气重拉肚子吃什么药
体内湿气重怎么改善
治疗类风湿的好方法
骨关节炎贴什么膏药好

上一篇：社会发展参考报：数字化转型提速紧催国产基础软件突破

下一篇：退休金太低该怎么生活？这3点说明白了，调整成见，老有所依