現貨庫存,2小時發貨,提供寄樣和解決方案
熱搜關鍵詞:
在PC上運行人工智能(AI)模型面臨的一個主要挑戰是模型的龐大尺寸。特別是對于大型語言模型(LLMs),其參數數量可能達到數十億乃至數萬億,這要求大量的存儲空間和內存資源來存儲和加載模型。例如,美光的內部實驗顯示,一個擁有700億個參數且采用4位精度的Llama2模型(一種廣泛應用于自然語言生成的LLM)需要約42GB的內存來加載并執行推理任務,其輸出速度為每秒1.4個Token。然而,普通PC通常無法提供如此大量的內存資源。這一矛盾揭示了一個核心問題,同時也為AI PC的未來發展指明了方向。
未來的模型分化
未來的AI模型很可能會出現分化,以適應不同規模的硬件資源。700億參數級別的大型模型可能更適合于內存和存儲空間充裕的高級系統,用于運行經過精細微調并針對特定對話用例優化的應用程序,比如聊天補全等。同時,這類大型模型也可能被用于本地設備上的個人助手。另一方面,參數數量少于100億的較小模型則更適合于主流設備,因為它們只需增加大約2GB的內存即可實現諸如文本補全、列表完成和分類等語言處理任務。
內存的重要性
不同大小的AI模型需要相應的內存容量支撐,尤其是在PC環境中。除了內存容量外,內存的帶寬和能效也是至關重要的因素。隨著PC(特別是移動設備)從DDR向LPDDR內存的過渡,帶寬和能效得到了顯著提升。例如,LPDDR5X在活躍使用期間的功耗比DDR5降低了44%-54%,而在自刷新模式下的功耗降低了86%。同時,LPDDR5的帶寬達到了6.4Gb/s,高于DDR5的4.8Gb/s。如果AI技術能在PC上迅速普及,LPDDR5的普及率也會隨之加快。此外,將一部分處理任務直接在內存中完成的研究和開發工作也在進行中,這有望進一步提高能源效率。
存儲中的處理技術
另一個重要議題是:AI模型的最佳運行環境在哪里?當模型尺寸相對較大時,是否有可能減少對內存的依賴,將部分模型放置在存儲設備中?如果可行,就需要提高存儲帶寬以滿足模型數據的頻繁交換需求。這可能促使Gen5 PCIe存儲設備在主流PC中的普及,或是加速Gen6 PCIe存儲設備的發展。
最近,蘋果公司發表了一篇關于此話題的論文,題目為“閃存中的LLM:在有限內存中進行高效的大型語言模型推理”。該論文提出了一種在可用DRAM容量不足的設備上運行大型語言模型的方法。作者建議將模型參數存儲在閃存中,并按需將其加載至DRAM中。此外,論文還介紹了一系列優化數據傳輸量以及提高讀取吞吐量的方法,以顯著提升推理速度。在論文中,評估不同閃存加載策略的主要指標是延遲,分為三個部分:從閃存加載數據的I/O成本、使用新加載數據時的內存管理開銷以及推理操作的計算成本。總的來說,這篇論文提供了一種解決方案,即通過將模型參數存儲在閃存中并在需要時加載至DRAM中,解決了“如何有效運行超出可用DRAM容量的LLM”的難題。