当前位置:首页 >> 农业机械
农业机械

低成本复制 ChatGPT 训练流程,仅须 1.68GB GPU 即可使用,方法现已开源!

时间:2023/05/13 12:17:24 来源:农业机械

培训,以及第三前期的加大奋斗学习培训,这是流程中所最复杂的前期。

此外,Colossal-AI 通过用作 ZeRO、Gemini、LoRA、AutoChunk 内核管理等,大大降高于了 ChatGPT 培训的 GPU 内核开销。它需用要一半的显卡资源就可以开始 1750 亿个模板的静态培训(从 64 张卡到 32 张卡),大大降高于了 ChatGPT 应用的费用。

倘若在上述相同的显卡资源下,Colossal-AI 并不需要在来得短的时间内同步进行培训,节省时间培训费用,加速产品迭代。

为了让来得多的自由软件跑 ChatGPT 培训现实生活,除了原有的 1750 亿模板旧版本,Colossal-AI 还提供高效的单 GPU、独立的 4/8GPU 的类 ChatGPT旧版本以降低显卡限制:

在单台多 GPU 链接上,即使用作最高端的 A100 80GB GPU,由于 ChatGPT 的复杂性和内核碎片化,PyTorch 也只能启动基于 GPT-L(774M)等小静态的 ChatGPT。因此,用 PyTorch 的 DistributedDataParallel(DDP) 将多 GPU 立体化扩展到 4 或 8 个 GPU,结果性能增强有限。

根据数据分析的团队引介,Colossal-AI 不仅在单 GPU 上有相对来说的培训和逻辑推理速度快优势,而且可以随着立体化规模的缩减而再有所提高,单链接培训速度快可达 7.73 倍,单 GPU 逻辑推理速度快可达 1.42 倍,并且并不需要继续缩减到大规模的直角度,大大降高于 ChatGPT 镜像的费用。

为了尽量减少地降高于培训费用和易用性,Colossal-AI 还提供了一个可以在单GPU 上下线的 ChatGPT 培训现实生活。与 PyTorch 相对来说,在 14999 美元的 A100 80GB 上最多只能启动 7.8 亿个模板静态,Colossal-AI 将单个 GPU 的发电能力提高了 10.3 倍,达到 80 亿模板。对于基于 1.2 亿个模板的小静态的 ChatGPT 培训,至少需 1.62GB 的 GPU 内核,任何单独购物级 GPU 都可以做到。

此外,Colossal-AI 在致力于降高于基于可不培训的大型静态的更正任务的费用。例如,关于 OPT 静态的 ChatGPT 的更正任务,Colossal-AI 并不需要将单个 GPU 上的更正静态的发电能力比 PyTorch 提高 3.7 倍,同时以足够高的速度快文书工作。

一行编译器即可启动

一切准备就绪,只欠采取行动。根据数据分析人员引介,Colossal-AI 提供了开箱即用的 ChatGPT 培训编译器。在此,以 GPT 为例,需用要一行编译器就可以指定用作 Colossal-AI 作为系统手段来启动。

用作都有命令,自由软件可以快速启动单 GPU 规模、单机多 GPU 规模、早期 1750 亿模板规模旧版本的培训,并对各种设计标准(都有最大GPU内核用作率、处理量和TFLOPS)同步进行评估。

# Training GPT2-S using a single card, a minimum batch size, Colossal-AI Gemini CPU strategytorchrun ---standalone ---nproc_pero_node 1 benchmark_gpt_dummy.py ---model s ---strategy colossalai_gemini_cpu ---experience_batch_size 1 ---train_batch_size 1# Training GPT2-XL with a 4-GPU machine, Colossal-AI Zero2 strategytorchrun ---standalone ---nproc_per_node 4 benchmark_gpt_dummy.py ---model xl ---strategy colossalai_zero2# Training GPT-3 with 4 8-GPU servers, Colossal-AI Gemini CPU strategytorchrun ---nnodes 4 ---nproc_per_node 8 ---rdzv_id=$JOB_ID ---rdzv_backend=c10d ---rdzv_endpoint=$HOST_NODE_ADDR benchmark_gpt_dummy.py ---model 175b ---strategy colossalai_gemini_cpu ---experience_batch_size 1 ---train_batch_size 1

最上层优化

高于费用的 LoRA 更正

镜像 ChatGPT 的付诸现实生活一般来说发挥作用 Colossal-AI。Colossal-AI 支持通过高于秩线性更正(LoRA,Low-Rank Adaptation)方法同步进行高效更正。该方法结论大型语种静态是过度模板化的,更正现实生活中所的模板变量是一个高于秩线性,它可以分解为两个小线性的行列式:

由于大型语种静态的模板是固定的,在更正现实生活中所只有调整线性的模板,从而降低培训模板的数量。在同步进行布防逻辑推理时,将线性的行列式加来到早期线性中所,如,不不良影响逻辑推理提前。

LoRA 在结构上,只培训 A、B

Zero+Gemini 来降低内核冗余

与传统的统计数据立体化手段相对来说,Colossal-AI 用作零冗余优化器(ZeRO)来消除内核冗余,并在不不良影响计算一般而言和通信经济性的情况下,提高内核用作率。此外,为再有所提高了 ZeRO 的性能,Colossal-AI 还提出了基于 Chunk 的内核管理机制,它可以将连续的模板集按操作方法顺序存储在一个连续的、分量再分的内核空间中所,由此来得能有效地利用网络带宽(PCI-e 和 GPU 彼此之间),降低通信费用,并避开潜在的内核碎片。

此外,Colossal-AI 的异构内核管理器 Gemini 通过将优化器长时间安全地到 CPU ,以此降低 GPU 内核占用,而无须同时用作 GPU 内核和 CPU 内核(都有 CPU DRAM 或 NVMe SSD 内核)来培训大于单个 GPU 内核限制的大规模静态。

撰写在最后

目前,该数据分析的团队之前GNU了完整的插值和软件设计来镜像 ChatGPT 的付诸现实生活:。

不过,同样是基于费用考虑,他们表示,「对于这样一个巨型的计算机科学静态,它需来得多的统计数据和计算资源来实际续期和布防。无疑,用 1750 亿个模板培训一个 GPT-3 需价值数百万美元的计算能力。因此,大型可不培训静态长期以来只为少数大科技产业该公司所具备。」

因此,他们也希望并不需要以GNU的方式为,吸引来得多的数据分析人员、该机构主导参与通通,仅以上文中所所镜像 ChatGPT 培训流程的实践探索为终点,未来可以向大静态的黄金时代做出奋斗。

来得多详情请内容可可查阅官方核定:

请注意:

肠道菌群失调怎么调理
体内湿气重拉肚子吃什么药
体内湿气重怎么改善
治疗类风湿的好方法
骨关节炎贴什么膏药好
相关阅读
股票市场提问:请问公司在万向财务公司一月份存款数额多少?利息收入是多少?请及...

投资者追问:劝问该公司在飞轮财务该公司一月份存款额度多少?利息收入是多少?劝及时会面时!董秘回答承德露露SZ000848:您好,该公司在飞轮财务有限该公司存款额度及利息收入...

给领导起程消息,为什么不要说“好的”,这是我见过最好的答案

兼职中当你接到或者主导致信的死讯,是不是只就会为了让“好的”就默默潜水? 才刚步入求职的小编也就会比如说地为了让“好的”,直到有结缘好心警告,给主导为了让切忌绝不会再说道“好的”,...

中国香港飞机引擎在南中国海上空失效322人生死存亡是因为燃油进水?

航空器涡轮引擎并一定会有被调小,还保持一致百分之74的的动力输出。他吓坏了。但是,此时他们早已一定会必要复飞,并不需要寻宝飞越。航空器总重200吨,他们能必要受困吗? 航空...

投资者提问:你好,请问贵公司在AI这块有无涉猎,有无相应的武技术储备,AI武技...

外资者提问:爱,不对贵母公司在AI这块不一定通晓,不一定相应的技术储备,AI技术应用这块不一定相应的规模化建设呢?董秘问到厦门信达SZ000701:您好,母公司信息科技领域...

也毕竟要么就是没时间,要么就是不愿意

我现在还时会在腾讯和QQ上醒天的,醒天的实例也多是网路上和非常少几个基本上的密友,之外是几个网路上,属于不冷不热,半生不熟的,其实醒天也就是几句客套的话。但是,不管是熟悉的还是陌生的醒友,我...