Kubernetes成本持續攀升,AI能否帶來轉機?
容器化應用在云端為企業帶來諸多優勢,但該行業一個鮮為人知的秘密是,管理這些應用的成本卻并非優勢之一。
根據最近的一項調查,絕大多數使用Kubernetes進行容器編排的企業在過去一年中花費更多,如今許多企業正轉向AI來幫助控制成本。
Kubernetes管理供應商Spectro Cloud的調查顯示,約88%的受訪者表示其總擁有成本在過去一年中有所增長,而92%的受訪者表示正在投資基于AI的成本優化工具。
Spectro Cloud現場首席技術官杰里米·奧基(Jeremy Oakey)表示,盡管成本上升不僅體現在硬件、云服務和支持合同上,但這些成本的增加往往伴隨著Kubernetes使用量的增加。
他補充道,員工成本也是一個因素,平臺工程師的年薪往往接近20萬美元,其他成本還包括部署和維護邊緣集群的現場工程費用,以及開發人員花費過多時間管理集群時產生的生產力成本。
奧基說,雖然使用量的增加是總體成本上升的主要原因,但其他問題,如資源過度配置,也會加劇這一問題。
他補充道:“預測Kubernetes資源需求頗具挑戰性,因此開發人員往往會設置寬松的配置參數以防萬一,大規模部署時,這種行為會導致集群數量顯著增加。”
奧基表示,架構決策是另一個主要的成本驅動因素,云間的數據進出可能費用高昂,而在邊緣運行多節點集群也會增加支出。
他說,Kubernetes團隊在使用該工具時需要保持自律。奧基建議,他們應考慮是否停用未使用的集群、縮減資源規模、設置適當的自動擴展閾值,并審查日志保留和存儲配置等策略。
部署選擇不當
數字化轉型和云遷移公司Pvotal Technologies的首席執行官亞辛·曼拉杰(Yashin Manraj)認為,配置不當、資源過度配置和未優化是企業在基于Kubernetes的環境中花費更多的主要原因。
曼拉杰說:“人們傾向于將Kubernetes視為靜態虛擬機或服務器,這種做法會留下許多孤立資產,并且無法真正理解其應有的作用,我認為,主要問題在于在使用Kubernetes時面臨壓力,但卻沒有一支了解編排復雜性或有效管理集群的控制平面的團隊。”
云管理平臺供應商CloudBolt Software的首席運營官亞斯敏·拉賈比(Yasmin Rajabi)補充道,過度配置Kubernetes是默認的部署方式,大多數團隊會為CPU和內存配置充足的緩沖,以避免在深夜被緊急呼叫。
她說:“開發人員和平臺工程師的激勵機制并不一致,開發人員的考核標準在于他們能多快部署新應用并推動業務發展,他們沒有受到成本效率方面的壓力,因此最簡單、最安全的做法就是確保工作負載有充足的資源緩沖。”
但拉賈比補充道,這些緩沖成本在數千個Kubernetes工作負載中會迅速累積。
拉賈比說,此外,動態工作負載難以預測,而且大多數企業沒有所需的工具來根據不斷變化的工作負載需求持續調整資源請求和限制,同時,調整資源規模是一個手動且耗時的過程。
她說:“部署到Kubernetes很容易,但管理起來卻很難,Kubernetes使企業能夠以所需的速度部署影響業務的應用,并具備創新和更快進入市場所需的靈活性,然而,承諾的便捷性和速度與大規模管理Kubernetes的復雜性及其帶來的成本相矛盾。”
CPU利用率不足
數字營銷機構NEWMEDIA.com的創始人兼首席執行官史蒂夫·莫里斯(Steve Morris)表示,過去一年,該公司的Kubernetes支出增長了18%,主要原因是勞動力成本和莫里斯所說的分散的擴展選擇。當該公司審查其Kubernetes自動擴展選擇時,發現31%的工作負載在一天中95%的時間里CPU使用率低于25%。
他說:“當發布團隊管理自己的集群并定義自己的[自動擴展器]規則時,會導致保守的過度配置被鎖定在他們的配置文件中,工程師們不愿下調資源,因為他們擔心這可能會引發事故或導致無法滿足服務水平協議(SLA)。”
莫里斯說,當兩名平臺工程師每周有一半的時間用于調整容量和處理嘈雜的警報時,勞動力成本就會增加。“隨著每個新服務的增加,運營開銷也會增加,而不僅僅是隨著流量的增加,當你讓團隊自行做出資源決策時,雖然可以加快交付速度,但也會分散成本責任并隱藏浪費。”
Kubernetes的普及加劇了人們對成本的擔憂。Pvotal的曼拉杰說,由于Kubernetes是許多客戶IT基礎設施的核心,因此成本上升不太可能消失,他說:“我們認為,隨著采用率的提高,以及設計不佳的工具的泛濫和對第三方的依賴,這個問題只會愈發嚴重。”
Pvotal尚未找到管理Kubernetes成本的自動化解決方案。“我們定期測試所有新工具和技術,”他說,“不幸的是,除了一個比谷歌云平臺(GCP)默認工具更能跟蹤使用情況的儀表盤外,我們還沒有發現任何能為我們或我們的客戶帶來價值的其他工具。”
轉向AI
盡管如此,其他人表示,管理Kubernetes的復雜性促使從業者考慮使用AI驅動的管理工具。
CloudBolt的拉賈比說:“資源分配是復雜且多維的,這實際上意味著它是一個復雜的數學問題,這正是AI和機器學習工具可以發揮作用的地方,它們可以幫助解決應該設置什么資源的復雜數學問題,并結合自動化,用正確的設置來實際配置工作負載。”
Spectro Cloud的奧基說,現在有少數供應商提供自主調整資源規模和智能自動擴展服務。
奧基說:“我們看到AI成本優化工具領域正在迅速發展,Kubernetes管理和FinOps領域的供應商正在匯聚。在管理方面,這些工具持續監控實時容器組利用率,從歷史使用模式中學習,并自動調整資源請求、節點規模,甚至調整競價實例和按需實例之間的平衡。”
與此同時,FinOps供應商正在集成AI和機器學習功能,以實現主動成本控制措施。
奧基說:“雖然并非所有這些功能都代表了最先進的AI形式,但我們確實看到,整個工具鏈正在明顯地向嵌入更強大的智能和自動化功能的方向轉變,這種融合正在創造一種更復雜、更主動的Kubernetes成本優化方法——將運營控制與財務責任相結合。”
奧基補充道,CIO應采用一切可用策略來控制成本,包括與云供應商談判和使用自動擴展功能,他還建議,CIO應使廣泛的架構決策與企業的業務目標保持一致。
這些決策可能包括CIO是用基于云的操作費用取代數據中心租賃費用,還是通過自動化簡化運營來戰略性地減少IT人員數量。
然而,他補充道,CIO還應確保區分成本和投資,特別是在AI時代。
他說:“部署Kubernetes集群以支持具有變革性、能創造收入的應用,不僅僅是一項開支,更是對創新和競爭優勢的投資,那么,核心問題就變成了:你的Kubernetes基礎設施是否在為你的應用團隊提供速度、選擇和靈活性等方面的最大價值。”