全面開(kāi)放:NVIDIA加速M(fèi)eta Llama 3的推理
Meta 最新的開(kāi)放式大型語(yǔ)言模型采用 NVIDIA 技術(shù)構(gòu)建,經(jīng)過(guò)優(yōu)化,可在從云和數(shù)據(jù)中心到邊緣和 PC 的 NVIDIA GPU 上運(yùn)行。
NVIDIA 今天宣布對(duì)其所有平臺(tái)進(jìn)行優(yōu)化,以加速最新一代大型語(yǔ)言模型 (LLM) Meta Llama 3。
開(kāi)放模式與 NVIDIA 加速計(jì)算相結(jié)合,使開(kāi)發(fā)人員、研究人員和企業(yè)能夠在各種應(yīng)用程序中負(fù)責(zé)任地進(jìn)行創(chuàng)新。
Meta 工程師在包含 24,576 個(gè) NVIDIA H100 Tensor Core GPU 的計(jì)算機(jī)集群上訓(xùn)練了 Llama 3,這些 GPU 與 RoCE 和 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)相連。
為了進(jìn)一步推進(jìn)生成式 AI 的最新技術(shù),Meta 最近描述了將其基礎(chǔ)設(shè)施擴(kuò)展到 350,000 個(gè) H100 GPU 的計(jì)劃。
在 NVIDIA GPU 上加速的 Llama 3 版本現(xiàn)已可用于云、數(shù)據(jù)中心、邊緣和 PC。
在瀏覽器上,開(kāi)發(fā)人員可以 ai.nvidia.com 試用 Llama 3。它被打包為 NVIDIA NIM 微服務(wù),具有可以部署在任何地方的標(biāo)準(zhǔn)應(yīng)用程序編程接口。
企業(yè)可以使用 NVIDIA NeMo 對(duì)其數(shù)據(jù)進(jìn)行微調(diào) Llama 3,這是一個(gè)面向 LLM 的開(kāi)源框架,是安全、受支持的 NVIDIA AI Enterprise 平臺(tái)的一部分。自定義模型可以針對(duì) NVIDIA TensorRT-LLM 的推理進(jìn)行優(yōu)化,并使用 NVIDIA Triton 推理服務(wù)器進(jìn)行部署。
Llama 3 還在 NVIDIA Jetson Orin 上運(yùn)行,用于機(jī)器人和邊緣計(jì)算設(shè)備,創(chuàng)建類(lèi)似于 Jetson AI Lab 中的交互式代理。
此外,適用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 可加快 Llama 3 的推理速度。這些系統(tǒng)為開(kāi)發(fā)人員提供了全球超過(guò) 1 億個(gè) NVIDIA 加速系統(tǒng)的目標(biāo)。
為聊天機(jī)器人部署 LLM 的最佳實(shí)踐涉及低延遲、良好的讀取速度和最佳 GPU 使用之間的平衡,以降低成本。
這樣的服務(wù)需要以大約兩倍于用戶(hù)的讀取速度(大約每秒 10 個(gè)令牌)來(lái)交付令牌(大致相當(dāng)于 LLM 的單詞)。
應(yīng)用這些指標(biāo),在使用具有 700 億個(gè)參數(shù)的 Llama 3 版本的初始測(cè)試中,單個(gè) NVIDIA H200 Tensor Core GPU 每秒生成約 3,000 個(gè)令牌,足以同時(shí)為大約 300 個(gè)用戶(hù)提供服務(wù)。
這意味著具有 8 個(gè) H200 GPU 的單個(gè) NVIDIA HGX 服務(wù)器可以提供 24,000 個(gè)代幣/秒,通過(guò)同時(shí)支持 2,400 多個(gè)用戶(hù)來(lái)進(jìn)一步優(yōu)化成本。
對(duì)于邊緣設(shè)備,具有 80 億個(gè)參數(shù)的 Llama 3 版本在 Jetson AGX Orin 上生成了高達(dá) 40 個(gè)令牌/秒,在 Jetson Orin Nano 上生成了 15 個(gè)令牌/秒。
作為活躍的開(kāi)源貢獻(xiàn)者,NVIDIA 致力于優(yōu)化社區(qū)軟件,幫助用戶(hù)應(yīng)對(duì)最棘手的挑戰(zhàn)。開(kāi)源模型還提高了 AI 的透明度,并允許用戶(hù)廣泛分享 AI 安全性和彈性方面的工作。
詳細(xì)了解 NVIDIA 的 AI 推理平臺(tái),包括 NIM、TensorRT-LLM 和 Triton 如何使用最先進(jìn)的技術(shù)(如低秩自適應(yīng))來(lái)加速最新的 LLM
接受過(guò) NVIDIA AI 培訓(xùn)
讓 Llama 3 投入使用
將 Llama 3 帶到設(shè)備和 PC
使用 Llama 3 獲得最佳性能
推進(jìn)社區(qū)模式
上述所有配置,代表最新硬件架構(gòu),同時(shí)保證是最完美,最快,如有不符,可直接退貨
欲咨詢(xún)機(jī)器處理速度如何、技術(shù)咨詢(xún)、索取詳細(xì)技術(shù)方案,提供遠(yuǎn)程測(cè)試,請(qǐng)聯(lián)系
UltraLAB圖形工作站供貨商:
咨詢(xún)微信號(hào):
2024年人工智能訓(xùn)練與推理工作站、服務(wù)器、集群硬件配置推薦
https://xasun.com/article/110/2508.html
西安坤隆計(jì)算機(jī)科技有限公司
國(guó)內(nèi)知名高端定制圖形工作站廠家
業(yè)務(wù)電話:400-705-6800