日,在韓國首爾舉辦的頂級學術會議SOSP 2025(操作系統原理研討會)上,阿里云發布了其“Aegaeon”計算池化解決方案(相關論文已被入選),該方案可解決AI模型服務中普遍存在的GPU資源浪費問題,將大型語言模型所需的GPU數量減少了82%,大幅提升GPU資源利用率,顯著降低了AI模型服務中的成本。目前該核心技術已應用在阿里云百煉平臺。

SOSP(操作系統原理研討會)由ACM SIGOPS主辦,是計算機系統領域頂級學術會議,平均每年收錄的論文數量僅有數十篇,被譽為計算機操作系統界的“奧斯卡”,入選論文代表了操作系統和軟件領域最具代表的研究成果。本屆SOSP大會上,系統軟件與AI大模型技術的融合成為新的趨勢。
阿里云推出的Aegaeon 是一種推理時間調度器,旨在最大限度地提高許多需求突發或不可預測的模型的 GPU 利用率。它打破了“一個模型綁定一個GPU”的低效模式,而是在Token級別虛擬化 GPU 訪問,從而允許它在共享池中安排微小的工作片段。這意味著一個GPU可以同時為多個不同的模型提供服務。
簡單來說,Aegaeon多模型混合服務系統在每次生成下一個token后動態決定是否切換模型,實現精細化管理。同時,通過組件復用、顯存精細化管理和KV緩存同步優化等全棧技術,Aegaeon將模型切換開銷降低97%,確保了token級調度的實時性,可支持亞秒級的模型切換響應。
據介紹,Aegaeon系統支持單GPU同時服務多達7個不同模型,在基準測試中,Aegaeon 以 1.5 倍到 9 倍的有效吞吐量優勢擊敗了 ServerlessLLM 和 MuxServe 的 goodput,實現2-2.5倍的請求處理能力。
數據顯示,在阿里云模型市場為期超三個月的Beta測試中,Aegaeon系統在服務數十個參數量高達720億的大模型時,所需的英偉達H20 GPU數量從1192個減至213個,削減比例高達82%。GPU用量削減82%意味著公司硬件采購成本將顯著降低,這對于動輒使用成千上萬張GPU的大型模型服務商至關重要。
在真實的模型服務場景中,如阿里的Qwen等少數熱門模型承載了絕大多數用戶請求,而大量不常被調用的“長尾”模型卻各自獨占著GPU資源。數據顯示,在阿里云模型市場中,曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置嚴重。
阿里巴巴表示,其“Aegaeon”計算池化解決方案的收益來自兩種主要技術:為每個 GPU 打包多個模型,以及使用token級自動擴展器在生成輸出時動態分配計算,而不是在請求級別保留資源。
雖然阿里云在其論文中并沒有詳細說明哪些型號的GPU對節省貢獻最大,但《南華早報》的報道稱,這些測試是使用英偉達的 H20 進行的,這是在此前的美國出口管制下,中國企業仍然合法使用的少數進口AI加速器之一。