撥開互聯網春晚這道“屏風”,我們可以看到中國云計算技術發展的清晰脈絡。
作為中文世界的超級IP與流量洪峰,春晚互動自2015年起便成為大廠爭奪的流量戰場。在巨大流量之下,互聯網春晚也是一次對互聯網后臺技術保障的大考。
互聯網春晚開始的頭幾年恰是云計算方興未艾之時,那是一個后臺保障全靠人力與物力堆砌,硬抗的時代。面對春晚互動十億量級的流量沖擊,能做的無非是在服務器集群基礎上擴容,拉上數百人規模的運維團隊,時刻緊盯系統水位,騰挪計算資源。即便如此,宕機事故仍無法完全杜絕。
如果說,拼資源做加法是春晚保障的上半場,那么,降成本做減法就是春晚保障的下半場。隨著分布式、自動化、高彈性云計算架構的日益形成,中國云計算思維方式,也從升維走向降維——資源與人力的多寡不再是玩家們“亮劍”的重點,外部經濟環境的壓力與提高競爭力的內驅力推動技術降本增效成為業界主流敘事。
這對2024年央視春晚互動合作伙伴京東來說尤為重要,其在龍年春晚既要發放30億紅包,又要派送1億好物,還要確保年貨供應鏈服務履約。這樣聯動旗下幾乎所有業務矩陣的打法,明顯指向京東主打的低價心智。
為了充分挖掘春晚的商業價值,從技術維度出發的基礎設施降本是實現其低價的關鍵一環。盡可能降本增效亦成為京東的必選題。
或因如此,我們看到京東今年不僅未在春晚保障中堆砌資源,還要將整體資源成本下降50%。這不僅是對技術的挑戰,更是對團隊智慧和創新能力的考驗。
?
數據顯示,春晚當天,全球華人參與京東系應用累計互動量達552億次。減少資源的動作看似兵行險招,實則體現了京東云獨有的核心技術優勢,折射了春晚保障從“拼陣仗”到“拼效率”,從硬抗到“智抗”的數智進化。
按圖索驥,中國云計算力量歷經9年互聯網春晚的鍛打,由互聯網技術力量構建的“中國式超越”也在日漸形成。在外部環境愈發復雜,逆全球化浪潮不時襲來的當下,中國云廠商的商業理性和技術自信無疑更具現實意義。
技術降本的關鍵時刻
回顧歷年春晚互動合作,讓各玩家如臨大敵的當屬規模堪稱中文互聯網之最的并發流量。
例如2024年春晚互動,京東發出的紅包總額加碼至30億元,更大的互動獎池意味著更大規模的互動流量,數以十億計的流量壓力,無疑全方位考察團隊的技術保障能力。
另一方面,本次春晚互動明顯有別于往年:京東云既要支撐春晚紅包與抽獎互動,扛住高并發流量,又需要保障業務體系內的電商購物和履約能力——多場景均會出現流量高峰,算力調度需要做到高頻甚至實時切換,技術挑戰極大。
對此,京東云給出的解法是業內首個混合云操作系統云艦。
數年前,京東在大促時發現云上痛點,催生了云艦。彼時的京東雖已打造出適配自身的公有云及同源同棧的私有云,但二者的底層架構卻有所差別。計算資源的調度先天需要跨越架構差異所形成的障壁,最初打通兩朵云的解決方案便是云艦系統的“雛形”。
而后,京東自底層向上重構技術棧與調度系統,云艦才真正具備實戰能力。廣為外部感知的第一場戰役便是2022年春晚互動。彼時,天生善于處理復雜場景計算資源調度的云艦“小試牛刀”。
數據顯示,2022年全球華人參與京東APP累計互動量達691億次,京東物流的“全年不打烊寄遞服務”范圍達全國200多個城市。這背后是春晚互動項目有近600個需求要被快速拆分,3000多個任務要被有效跟蹤,保證600多個上下游系統快速交付,數百萬核資源快速擴縮容。
?
京東如何做到混合復雜場景中的算力資源調度?答案藏在云艦系統的自研調度算法中,通過管理虛擬機的方式管理容器化的業務集群,實時監測服務器CPU利用率,進行秒級分配與調度。
時間來到2024年,云艦的精細化管理與調度能力在京東云拓展的交通、零售、物流、能源等多個產業集群中持續迭代。不同產業有各自邏輯,在實踐中又產生了新問題,首當其沖的是不同業務之間為算力“打架”。
要知道,即使是我們平日接觸到的PC,在面對多項任務同時進行、CPU使用率過高的情況時,也極易引發系統性能不穩定,遑論離線混布的計算集群。
而云艦自虎年保障以來,其混部集群的規模和應用數量增加3-4倍,云艦可調度資源隨之大幅增長。更重要的是,迭代的調度算法可以無視傳統模式下的CPU時間片,將服務器之間的干擾率由5%降為1%。
當業務之間基本不用再為計算資源相互掐架,高優先級業務自然能更迅速搶占算力。這一突破的直觀反映是GPU性能利用率的大幅提升——京東云混部計算集群的 CPU 整體利用率控制在60%左右,而業界的 CPU 整體利用率卻大多在40%和50%之間徘徊。
自京東自身業務來看,以云艦為代表的云上創新逐漸向體系內其他業務遷移,圍繞降本增效主題的“擠水分”革命讓供應鏈的成本效率得以持續優化,為京東體系內如零售、物流、金融等板塊擠出更多利潤空間,為“低價”的發展戰略積蓄勢能。
將視域放寬至整個行業,云艦這樣的混合多云部署與調度能力的重要性亦在凸顯。過去一年我們見過不少因云計算IaaS層的種種故障帶來的宕機事故,業內對下云自建與多云部署的呼聲愈發高漲。何況單一云架構還將面臨議價能力低、業務依賴性高等次生問題。
需要肯定的是,多云混合的技術基底一定程度上展現了京東云內生的前瞻性。另一方面,我們也可由此一窺京東在本次春晚保障中,減少服務器的“自虐”式行為的底氣所在。
“臨摹”流量:從被動應戰到主動挑戰
“在我們一貫對用戶極致體驗的追求和海內外用戶的大規模互動下,我們二次籌備春晚保障的挑戰不能說不大”,京東零售技術負責人表示,“但相比虎年,龍年的我們明顯更從容了”。
當我們進一步問及京東從容在哪,他首先提到的是龍年春晚的流量預估,“我們從原來的半自動化方式演變成現在的全自動化,相比虎年的時候更精準、更靈活了”。
應對大流量并發場景的解決方案往往一體兩面,除了算力調配外,更重要的是對不同時刻的流量峰值預估。如果說購物大促的流量峰值往往出現在用戶集中結算自己購物車的開門紅時刻,那么歷屆春晚紅包互動的流量峰值便出現在主持人每一輪紅包口令口播時。
?
屆時,全球各地的互動流量將瞬間飆至數億級別,系統壓力陡增。即使服務器緊急擴容數倍,這種高頻的脈沖式洪峰也極難僅憑人力來疏導,互聯網春晚早期所遭遇的宕機事故大多源自于此。
就像外科醫生做手術前,需要精準臨摹病情,擬定方案,以便實施手術。業內并非不知道流量預測的重要性,往年參與者都會根據口播紅包口令的時間節點繪制流量地圖。
只是過去的流量地圖的繪制缺乏精度,不僅難以cover多輪洪峰的全局,而且容易在首輪峰值預測錯誤的情況下“滿盤皆輸”,給保障帶來的幫助有限。比如2018年,淘寶春晚項目組就曾慨嘆,“我們對春晚的力量一無所知”。
反觀京東保障的龍年春晚,AI大模型以一個新的歷史性變量的身份參與其中。
春晚保障流量預測的兩大痛點在于精度與敏捷響應。我們了解到,京東通過分析歷史數據和虎年春晚保障經驗,從數千個數據維度預測并繪制流量地圖,預測準確率達到了95%。應對流量沖擊時,大模型能自動調整了后續幾輪的紅包策略,確保流量平穩分配,更高效地服務零售、物流與整體供應鏈的運營。
此外,AI大模型還可以依據流量大小、用戶訪問輪次分布,以無代碼形式生成用戶權益策略,如春晚互動中的1億好物的用戶權益策略。運營人員基于交互式策略畫布,在5分鐘內無代碼生成大型晚會的用戶權益并上線,這相當于5個工程師用寫代碼的形式,連續工作100個小時,靈活性和策略的上線效率大幅度提升。
歸根結底,AI大模型的出現已經開始深入改變我們所熟知的業務范式,而模型化的預測功能僅是大模型與AI能力深入千行百業的一隅。在大模型尋找合適“落腳點”的當下,行業仍在等待有足夠深度與新意的AI應用方式的出現。
大模型:舉重若輕的操盤手
2023年,大模型激起千層浪,為云計算打開了一片新天地。自去年初至今,云廠商們接連入局,紛紛交出屬于自己的大模型答卷。
云與大模型的耦合并不令人意外。
云計算中占比最重的IaaS板塊已經實現規模化,上云本身已不具備稀缺性,這意味著同質化、內卷、價格戰的時代到來。而剛需算力、存儲能力與分布式計算環境的大模型不僅提供了新的算力需求,更是為云廠商的服務提供了新的載體。
然而就落地情況來看,國內的模型底座的能力競爭尚不明朗,能率先構建競爭力甚至護城河的,是各家應用AI大模型的產業深度。針對這一點,我們在京東云前后兩次春晚保障的對比中窺得一二。
據悉,京東云為備戰春晚保障,推出了春晚保障Agent“AI指揮官”。它通過大模型等新一代人工智能技術,連接多個系統數據,拆分出若干關鍵環節,將春晚保障工作及相應系統統籌起來并跟進進度,使春晚保障效率提升30%,成本降低50%。
?
作為一個去年下半年才逐漸進入主流語境的應用范式,Agent于云廠商而言像是一塊商業化“無人區”。以AI指揮官為例,京東打開始起就給指揮官布置了“以己之矛攻己之盾”,通過自我對抗而持續迭代的能力。
如此便不得不提京東本次在春晚互動上的創新玩法——不登錄搶紅包。
眾所周知,不登錄即可參與活動為用戶提供了匿名性和便利性,同時也讓系統難以區分正常用戶和惡意攻擊者,使系統遭受攻擊的可能大大提高。而DDos這樣的自動化攻擊可以迅速消耗服務器資源,導致正常用戶無法訪問服務。
AI指揮官的第一戰是在安全大模型模擬匿名環境下對系統發起DDos攻擊。防守端,京東云安全大模型在分辨攻擊者與用戶的同時,為安全運營提供輔助決策核心信息,包括告警涉及的攻擊手法、預測攻擊鏈路、以及防護策略等,最后根據系統個性化防御組件能力,一鍵生成防護意見。
模擬攻防演練、預測攻擊與給出策略等功能分別對應了Agent對某個任務目標的拆解、執行與自我學習。從京東在龍年春晚的戰果來看,其對Agent的應用無疑是成功的。深入云計算技術棧肌理的AI能力不僅為春晚互動保障了新玩法,同時推動了云計算解決方案的迭代。
當然,安全大模型也僅是京東云技術棧中的一環,面對春晚保障的宏大目標,Agent的能力更多地體現在玩家們必須經歷的春晚全鏈路壓測上,考題也自DDos攻擊延伸至更寬泛的云算力層面。
京東云為此研發了集成ForceBot全鏈路軍演機器人和故障分析大模型的泰山平臺,將Agent的能力引入傳統的系統壓測中。
京東方面提到,“如果說ForceBot像是制造問題的高手,那么故障分析大模型就是解決問題的高手。”在壓測中,ForceBot可以輕松模擬千萬量級的流量,對壓測系統形成高并發壓力。而壓測過程中發現的問題則通過故障分析大模型解決。
故障分析大模型在壓測期間承擔故障診斷、故障分析、故障記錄等工作。借助故障大模型的支持,壓測平臺的監控工具實時收集系統性能指標以確定故障的具體位置;分析日志文件,找出異常行為或錯誤信息,快速定位并解決問題。
與此前的DDos攻擊相比,全鏈路壓測雖然同樣采用內部攻防模式,但涉及的技術棧與信息數據則不可同日而語。這背后是云計算行業因循的規模化邏輯,正如IaaS層能力的規模化推動云計算行業走上盈利正軌,Agent能力應用的規模化亦昭示京東云的大模型能力邁出商業化腳步。
據悉,2022年京東內部足足進行7次壓測方有把握做好春晚保障,而今年的京東卻只需要2-3次即可,這也自側面佐證了京東的AI技術能力。AI指揮官像一個舉重若輕的操盤手,助推京東云的計算資源調度與分布進入自動化時代。
春晚背后的“中國式”超越
一年一度的春晚是承載著中國乃至華人的文化記憶的載體,那么互聯網春晚亦是技術記憶的載體。
即使“搖一搖”與“集五福”后,業內外對互聯網春晚的關注往往集中于互動操盤手是否曾打破陳規并建立新路徑,但更具現實意義的是中國云計算行業在保障中文世界流量洪峰時的技術演變。我們從龍年春晚保障可以看到,巨頭面對春晚這個“名利場”的求變之心正在從表層的玩法,過渡到深層的技術創新上。
?
打破陳規往往需要 “中國式超越”。
所謂的“中國式超越”,體現在技術應用的廣泛范圍和深入程度上的雙維擴展,這種“坐標軸”的全方位發展展現了一種極致的工程化水平。京東云在春晚這一“高并發+超復雜場景”的挑戰中,兩次成功驗證了自己標準化保障方法論的有效性,其技術應用的普適性和可復制性顯然很高,能夠迅速適用于更多場景,實現質量提升、成本降低和效率增強。
工程化之下的暗線是中國企業過去十年的數字化向數智化過渡。單從保障這一維度看,京東云的行業創新在于從拼資源堆人力到搞架構寫算法,計算資源在智能化的保障架構下得以被解放。
保障維度之外,京東在春晚互動的APP“新春爆品樓層”中引入專屬模型,個性化推薦從過去的“千人千面”升級為“千人千模”,京東長期秉承的“用戶極致體驗”得以更進一步。另一方面,玲瓏、領航者、京小智、言犀數字人等多款AI經營工具的出現也將智能化的輕風吹向商家側。
正如埃弗雷特·羅杰斯曾提出創新擴散理論,智能化的普及推廣也是由點至面的過程。而“中國式超越”的出現與成熟意味著云計算行業乃至AI賽道的創新已行至一道關鍵分水嶺,身后是單點突破,身前則是全面智能化的序幕。
9年互聯網春晚,10年中國云計算。時至今日,云計算終于有底氣與高鐵、5G網絡、供應鏈等并行,共同上演一個個從追隨到并行再到超越的中國故事。