Arm 推出了一款新的 Cortex-A CPU 內核,旨在將生成式 AI 引入邊緣設備。Cortex-A320 是首款用于物聯網的 Arm v9 內核,與 Arm 的 Ethos-U85 NPU 配合使用,它將在物聯網設備中實現生成式和代理式 AI 用例,包括具有超過 10 億個參數的模型。
“就在幾年前,邊緣 AI 工作負載比現在簡單得多,專注于基本的降噪或異常檢測,”Arm 物聯網業務線高級副總裁兼總經理 Paul Williamson 說,“但現在工作負載變得更加復雜,我們正在努力滿足更復雜的用例的需求。
他說,這些用例包括大型模型和 AI 代理。
Williamson 說:“這不僅僅是向前邁出的一步,它代表了我們處理邊緣計算和 AI 處理方式的根本轉變,我們相信它將在未來幾年推動邊緣 AI 革命。
升級到 Arm v9 架構使 Cortex-A320 與位于 Arm v8 上的前身 A35 相比具有更好的 AI 性能和更好的安全功能。新指令將 GEMM(矩陣乘法)提高了一個數量級,標量計算速度提高了 30%。SVE2 (scalable vector extension 2) 用于矢量處理;這是 Arm 的 Neon 矢量擴展和公司的 SIMD(單指令、多數據)指令集 SVE 的組合。增加了對 AI 友好數據類型的支持,包括 BF16。一個集群中最多可以配置四個 Cortex-A320 內核。
至關重要的是,作為新平臺的一部分,新的 CPU 內核將能夠直接驅動 Ethos-U85 NPU,這是以前為 Cortex-M 內核保留的功能。支持常見 transformer作的 NPU 現在可以通過 A320 訪問更大的內存空間,這對于大型模型推理是必需的。
Arm Cortex-A320 將允許 Ethos-U85 訪問比 Cortex-M85 更大的內存地址空間,這對于運行大型語言模型至關重要(來源:Arm)
“具有更好內存訪問性能的系統對于執行更復雜的用例變得越來越必要,”Williamson 說。“Cortex-A 處理器解決了這一挑戰,因為它們比基于 Cortex-M 的平臺具有對更大可尋址內存的內在支持,并且在處理多層內存訪問延遲方面更加靈活。”
結合使用后,Arm 預計 Cortex-A320 和 Ethos-U85 的性能將提高約 8×,而驅動 NPU 的 Cortex-M85 則不同。
Cortex-A320 還可以利用 Arm v9 的安全功能。指針身份驗證和分支目標識別可緩解面向跳轉和返回的編程攻擊。Williamson 補充說,Arm 的內存標記擴展還使黑客更難利用內存安全問題。
作為 Cortex-A CPU,A320 可以利用 Arm 的 Cortex-A AI 內核庫,統稱為 Kleidi AI。
Williamson 說,在許多用例中,即使系統具有 NPU,在 CPU 上運行 AI 工作負載也可能是高效的。他的例子是一個相機系統,它使用 NPU 進行始終在線的圖像處理,然后拍攝標記為有趣的圖像,并在 CPU 上使用小型 LLM 處理它們。
“[在那種情況下],直接在 CPU 上運行它可能更有效,因為你沒有卸載到神經處理器和更改上下文的開銷,”他說。
對于這些情況,A320 需要優化的 AI 性能。KleidiAI 去年在客戶端計算領域為 Cortex-A 推出,但 A320 將把它帶到物聯網中。
采用邊緣 AI 的主要障礙之一是軟件開發和部署的復雜性。Arm 確保了跨 Cortex-A 內核的軟件兼容性,因此現有代碼可以在 A320 上使用。
它與 Linux 和 Android 開箱即用兼容,但也支持常見的實時作系統,因此如果需要,可以為 MCU 流程開發的代碼可以遷移到具有更大內存地址空間的系統。通過這種方式,A320 為當今基于 Cortex-M 的 AI 工作負載提供了一條面向未來的途徑。
“這使 [開發人員] 能夠訪問過去實時系統可能無法獲得的 AI 模型,”Williamson 說。“我認為你會看到一些有趣的全新配置,這些配置擴展了以前在微控制器中完成的邊界,但也為基于 Linux 的開發人員提供了優化的性能。”
基于 Cortex-A320 的產品已經在與客戶一起開發中,Williamson 預計明年將看到該內核進入硅片。