IT之家 4 月 18 日消息,在云原生調度中,一次調度往往無法解決所有問題,需要配合重調度來優(yōu)化資源分配和任務擺放。今日,字節(jié)跳動技術團隊宣布開源 Godel-Rescheduler,號稱是“適用于云原生系統(tǒng)的全局最優(yōu)重調度框架”。
據字節(jié)官方介紹,這是一個基于全局最優(yōu)調度策略的重調度框架。它不僅能識別集群中的異常節(jié)點和任務,還能智能推薦任務到最合適的位置,并通過圖算法生成詳細的遷移步驟,確保集群的整體穩(wěn)定性,真正實現(xiàn)全局最優(yōu)調度。
Godel-Rescheduler 由兩個核心模塊組成:Policy Manager 和 Movement Manager。其中,Policy Manager 負責輸出重調度決策,而 Movement Manager 則負責拆解并執(zhí)行這些決策。整個框架的目標是通過重調度,使集群朝向全局最優(yōu)狀態(tài)發(fā)展。

目前字節(jié)跳動已經成功將 Godel-Rescheduler 應用到多個內部項目中,支持多種重調度策略的協(xié)同工作。例如:
合并部署重調度:優(yōu)化上下游應用實例在相同節(jié)點上的調度。
負載均衡重調度:在負載、內存帶寬、網絡帶寬等方面進行優(yōu)化。
碎片整理重調度:有效減少 CPU、GPU 等資源的碎片率等。
在實際應用中,Godel-Rescheduler 已幫助字節(jié)跳動的數萬卡 GPU 集群將碎片率控制在 5% 以下,同時在大規(guī)模混合部署集群中,熱點節(jié)點比例控制在 0.1% 以下。
IT之家附 Godel ReScheduler 項目地址:
https://github.com/kubewharf/godel-rescheduler
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。