您的位置：UltraLAB圖形工作站方案網(wǎng)站 > 人工智能 > 深度學(xué)習(xí) > 全面開(kāi)放：NVIDIA加速M(fèi)eta Llama 3的推理

全面開(kāi)放：NVIDIA加速M(fèi)eta Llama 3的推理

時(shí)間：2024-04-24 00:45:47 來(lái)源：UltraLAB圖形工作站方案網(wǎng)站 人氣：11428 作者：管理員

Meta 最新的開(kāi)放式大型語(yǔ)言模型采用 NVIDIA 技術(shù)構(gòu)建，經(jīng)過(guò)優(yōu)化，可在從云和數(shù)據(jù)中心到邊緣和 PC 的 NVIDIA GPU 上運(yùn)行。

NVIDIA 今天宣布對(duì)其所有平臺(tái)進(jìn)行優(yōu)化，以加速最新一代大型語(yǔ)言模型（LLM） Meta Llama 3。

開(kāi)放模式與 NVIDIA 加速計(jì)算相結(jié)合，使開(kāi)發(fā)人員、研究人員和企業(yè)能夠在各種應(yīng)用程序中負(fù)責(zé)任地進(jìn)行創(chuàng)新。

接受過(guò) NVIDIA AI 培訓(xùn)

Meta 工程師在包含 24,576 個(gè) NVIDIA H100 Tensor Core GPU 的計(jì)算機(jī)集群上訓(xùn)練了 Llama 3，這些 GPU 與 RoCE 和 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)相連。

為了進(jìn)一步推進(jìn)生成式 AI 的最新技術(shù)，Meta 最近描述了將其基礎(chǔ)設(shè)施擴(kuò)展到 350,000 個(gè) H100 GPU 的計(jì)劃。

讓 Llama 3 投入使用

在 NVIDIA GPU 上加速的 Llama 3 版本現(xiàn)已可用于云、數(shù)據(jù)中心、邊緣和 PC。

在瀏覽器上，開(kāi)發(fā)人員可以 ai.nvidia.com 試用 Llama 3。它被打包為 NVIDIA NIM 微服務(wù)，具有可以部署在任何地方的標(biāo)準(zhǔn)應(yīng)用程序編程接口。

企業(yè)可以使用 NVIDIA NeMo 對(duì)其數(shù)據(jù)進(jìn)行微調(diào) Llama 3，這是一個(gè)面向 LLM 的開(kāi)源框架，是安全、受支持的 NVIDIA AI Enterprise 平臺(tái)的一部分。自定義模型可以針對(duì) NVIDIA TensorRT-LLM 的推理進(jìn)行優(yōu)化，并使用 NVIDIA Triton 推理服務(wù)器進(jìn)行部署。

將 Llama 3 帶到設(shè)備和 PC

Llama 3 還在 NVIDIA Jetson Orin 上運(yùn)行，用于機(jī)器人和邊緣計(jì)算設(shè)備，創(chuàng)建類(lèi)似于 Jetson AI Lab 中的交互式代理。

此外，適用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 可加快 Llama 3 的推理速度。這些系統(tǒng)為開(kāi)發(fā)人員提供了全球超過(guò) 1 億個(gè) NVIDIA 加速系統(tǒng)的目標(biāo)。

使用 Llama 3 獲得最佳性能

為聊天機(jī)器人部署 LLM 的最佳實(shí)踐涉及低延遲、良好的讀取速度和最佳 GPU 使用之間的平衡，以降低成本。

這樣的服務(wù)需要以大約兩倍于用戶(hù)的讀取速度（大約每秒 10 個(gè)令牌）來(lái)交付令牌（大致相當(dāng)于 LLM 的單詞）。

應(yīng)用這些指標(biāo)，在使用具有 700 億個(gè)參數(shù)的 Llama 3 版本的初始測(cè)試中，單個(gè) NVIDIA H200 Tensor Core GPU 每秒生成約 3,000 個(gè)令牌，足以同時(shí)為大約 300 個(gè)用戶(hù)提供服務(wù)。

這意味著具有 8 個(gè) H200 GPU 的單個(gè) NVIDIA HGX 服務(wù)器可以提供 24,000 個(gè)代幣/秒，通過(guò)同時(shí)支持 2,400 多個(gè)用戶(hù)來(lái)進(jìn)一步優(yōu)化成本。

對(duì)于邊緣設(shè)備，具有 80 億個(gè)參數(shù)的 Llama 3 版本在 Jetson AGX Orin 上生成了高達(dá) 40 個(gè)令牌/秒，在 Jetson Orin Nano 上生成了 15 個(gè)令牌/秒。

推進(jìn)社區(qū)模式

作為活躍的開(kāi)源貢獻(xiàn)者，NVIDIA 致力于優(yōu)化社區(qū)軟件，幫助用戶(hù)應(yīng)對(duì)最棘手的挑戰(zhàn)。開(kāi)源模型還提高了 AI 的透明度，并允許用戶(hù)廣泛分享 AI 安全性和彈性方面的工作。

詳細(xì)了解 NVIDIA 的 AI 推理平臺(tái)，包括 NIM、TensorRT-LLM 和 Triton 如何使用最先進(jìn)的技術(shù)（如低秩自適應(yīng)）來(lái)加速最新的 LLM

2024年人工智能訓(xùn)練與推理工作站、服務(wù)器、集群硬件配置推薦

https://xasun.com/article/110/2508.html

上述所有配置，代表最新硬件架構(gòu)，同時(shí)保證是最完美，最快，如有不符，可直接退貨

欲咨詢(xún)機(jī)器處理速度如何、技術(shù)咨詢(xún)、索取詳細(xì)技術(shù)方案，提供遠(yuǎn)程測(cè)試，請(qǐng)聯(lián)系

UltraLAB圖形工作站供貨商：
西安坤隆計(jì)算機(jī)科技有限公司
國(guó)內(nèi)知名高端定制圖形工作站廠家
業(yè)務(wù)電話：400-705-6800

咨詢(xún)微信號(hào)：

關(guān)閉此頁(yè)

上一篇：如何在本地運(yùn)行 Llama 3 8B 和 Llama 3 70B及硬件配置推薦

下一篇：700億(70B)規(guī)模的多模態(tài)大模型微調(diào)和推理的硬件配置分析與推薦

一级毛片aaaaaa视频免费看|超人碰碰碰人人成碰人|一边吃奶一边扎下边爽了,亚洲欧美日韩中文高清一,真实破99年美女的处,欧美精品18videose×性欧美

全面開(kāi)放：NVIDIA加速M(fèi)eta Llama 3的推理

接受過(guò) NVIDIA AI 培訓(xùn)

讓 Llama 3 投入使用

將 Llama 3 帶到設(shè)備和 PC

使用 Llama 3 獲得最佳性能

推進(jìn)社區(qū)模式

2024年人工智能訓(xùn)練與推理工作站、服務(wù)器、集群硬件配置推薦

相關(guān)文章

工程技術(shù)(工科)專(zhuān)業(yè)工作站/服務(wù)器硬件配置選型

新聞排行榜

最新信息

應(yīng)用導(dǎo)航:

一级毛片aaaaaa视频免费看|超人碰碰碰人人成碰人|一边吃奶一边扎下边爽了,亚洲欧美日韩中文高清一,真实破99年美女的处,欧美精品18videose×性欧美

全面開(kāi)放：NVIDIA加速M(fèi)eta Llama 3的推理

接受過(guò) NVIDIA AI 培訓(xùn)

讓 Llama 3 投入使用

將 Llama 3 帶到設(shè)備和 PC

使用 Llama 3 獲得最佳性能

推進(jìn)社區(qū)模式

2024年人工智能訓(xùn)練與推理工作站、服務(wù)器、集群硬件配置推薦

相關(guān)文章

工程技術(shù)(工科)專(zhuān)業(yè)工作站/服務(wù)器硬件配置選型

新聞排行榜

最新信息

應(yīng)用導(dǎo)航:

2024年人工智能訓(xùn)練與推理工作站、服務(wù)器、集群硬件配置推薦