摘要:讓大模型在產業中先跑起來
業內關于如何最大限度激發大模型潛力,以及打造“新質生產力”的爭論似乎將在今年落下帷幕。眼下,大模型成為 “爆改”千行百業的抓手,讓一切相關技術的突破都來得熱鬧且快速。
不過,大多數突破都只是停留在基礎模型層面和淺層應用,我們能看到無數大模型的落地妙想,只是于生產力的本質和商業化程度而言,卻與此前大差不差。究其原因在于這些技術性的突破大多停留在Demo階段,技術產品化難言成熟,以至于有人用“期貨”調侃。
比如于年初掀起多模態革命的Sora,這款產品迄今都未曾正式發布。而引爆全球的LLaMA 3.1,仍舊是基于Scaling Law的基礎模型。就算其為開源派壯了不少聲勢,但受限于Meta一次性可調用的GPU數量,這個爆點對渴望落地的國內大模型賽道的推動亦有限。
在眾多卷基礎大模型能力的企業中,我們發現京東云選了不一樣的路徑。
7月30日,京東云峰會上,京東集團技術委員會主席、京東云事業部總裁曹鵬提出,通用大模型是靠算力堆起來,企業大模型要靠業務跑出來。供應鏈是京東跑馬大模型前沿技術和產業應用的天然練兵場,當其他企業還在訓練大模型或攻堅智能體時,京東內部已經上了“手”。
據了解,過去一段時間中,京東在超100個AI場景已經全面鋪開大模型應用,近35萬京東自有配送員、超23萬商家、超5萬副主任級別以上醫生、超2萬采銷運營、超1萬研發人員都在使用,并拿下了大模型時代的首個大規模商業化應用里程碑——京東云言犀數字人。
透過數字人的商業化突破,京東言犀大模型無論是技術能力還是應用落地,都得到了來自大量實際場景專業數據的“喂養”。可以說,本次京東云在峰會上發布的包括言犀數字人3.0平臺、言犀智能體平臺以及企業構建大模型全棧服務等產品,不過是其基于深度產業knowhow和供應鏈場景的水到渠成。
讓大模型在產業里先跑起來,數字人吹響前哨
“數字人實際上是諸多技術融合的載體”,京東探索研究院院長、京東科技人工智能業務負責人、IEEE Fellow何曉冬博士提到,文案生成、語音融合、形象渲染、多模態等能力高低都會影響數字人的實際落地情況。
因此,數字人才被視為當下大模型多模態技術落地的諸多場景中,跑得最快,商業化最成熟,且實際應用頻率最高的一個。
眾所周知,不論是大模型的技術產業適配還是多模態的技術內需,其面對的一大挑戰便是需要不同類型的數據對齊,以及圍繞同類型的能力需要不同建模。這需要一個標準化的interface作為校驗多模態能力以及持續迭代,就是數字人。
而今距離“采銷東哥”數字人進入直播間已過去三個多月,一大批大中小商家在此期間入局。一個重要原因是數字人降低了直播電商的門檻。對于零售電商而言,以數字人為代表的AI技術,很大程度上實現降本提效;對于AI而言,零售電商則是一眾大模型服務商突破場景壁壘的關鍵鑰匙。
從品類、客單價、場域的不斷突破,我們能看見數字人突破場景邊界的清晰脈絡。無論是大模型能力還是產品化后的AI應用,場景都是最好的試金石。
據了解,京東云言犀數字人上個階段初步解決了大姿態、交互等貼合實際直播場景中的問題,到目前言犀數字人3.0平臺已經上線了100+個性化角色,50+特色行業屬性場景并以平臺化形態落地。而轉動起場景飛輪的言犀大模型,也在以極快的速度不斷解鎖新能力,逐漸成長為有情感、個性化的數字人。
語言方面,在不同場景中積累了更多數據,放大了模型參數量,讓言犀數字人在零售、金融等領域的長文本理解和推理能力。語音合成方面,超20萬小時訓練量,讓京東數字人音色的自然表現度上有了明顯提升,一些帶口音的微妙變化都能捕捉到。
京東云言犀技術團隊提到,在數字人之間的交互已經可以做到讓其表現出聆聽狀態。聆聽姿態讓數字人直播從“單口”到“群口”,真人與數字人混播以及多數字人直播將變成可能。此外,言犀數字人大模型有更好的通識理解能力,實現“零樣本”數字人生成,這意味著生成新形象,將不再需要預訓練。
實際場景又為大模型提供了更精準的數據來源,從而轉動京東大模型的數據飛輪,加速應用生長。短短幾個約時間,語音合成所需時間從6月份的6秒,縮短到如今的3-5秒左右。
何曉冬博士表示,大模型的核心人機交互介質是智能體、數字人、具身智能,分別滿足了云、端、線下不同場景的交互需求,共同構建起下一代智能交互的完整觸點。
Meta創始人扎克伯格亦在訪談中提到,未來的AI 智能體甚至可能會比人類還多,人們會以各種方式與之互動。
智能體、數字人、具身智能是滿足不同場景需求,但本質上都是基于同一套大模型“底座”“。借由數字人這項業務單點突破而后全面鋪開,在業務中生長與進化,這是京東云獨有的產業驅動導向的大模型落地路徑。
由點及面,大模型應用全面鋪開
“雖然我們面向B端服務,但落腳點卻始終在用戶體驗升級上”,京東云言犀團隊認為,數字人B2B2C的底層邏輯讓這項技術的應用落地可以被快速復制到京東業務的方方面面,甚至開辟新的業務線,為京東開拓更多AI試驗田。
比如,以AI社交為代表的泛娛樂應用固然可以在一定助推甚至是冷啟動的情況下,透過年輕化的公域快速裂變,但這類應用的留存率卻相對“感人”。工具類應用一定程度上平衡了留存與推薦的權重,然而缺乏快速裂變的能力,也限制了應用本身的場景寬度。
近段時間,一眾AI應用層的創業獨角獸均被曝尋求收購,很大程度上便源自于此。如用戶大量流失的AI社交應用Character.AI,以及無法僅依靠訂閱跑通商業模式的AI搜索明星Perplexity。
大模型應用的可靠性,場景和數據飛輪究竟能不能轉起來,呈現互為因果的關系。這也是京東認為“企業大模型靠業務跑出來”的底層邏輯。
從數字人這個點來看,電商場景的應用寬度、深度構建了京東大模型的魯棒性,而不同品類的商詳知識、不同行業領域知識、大規模交互數據則完成了數據的互補。這便是應用深度為大模型能力帶來的快速躍升。
消費是距離用戶最近的場域之一,數字人在零售電商泛場景的錘煉讓京東的多模態大模型技術由點及面成為可能——除電商直播場景外,京東云言犀數字人還在文旅、金融、智能服務、政務咨詢等更廣泛的場景應用落地,通過與億級用戶智能交互,帶來下一代交互體驗。
比較典型的案例是,京東數字人的多模態情感識別能力順暢地延展到了客服場景。我們自京東方面了解到,金融業務目前已有超過半數的用戶在客服場景由數字人接待,迄今已服務超過500萬用戶,24小時問題解決率高達85%,滿意度超90%。
高質量的垂域知識也讓京東加快了云端交互為主的智能體的產品化步伐。本次峰會上正式發布了新一代一站式 AI Agent 開發平臺——言犀智能體平臺。平臺已接入數十個大模型,用戶可以低成本快速搭建基于 AI 模型的各類智能體。如今,活躍在京東內部的智能體超3300個,平臺還沉淀了100多個行業解決方案模版。
從產業中來,到產業中去。業務與問題驅動的京東言犀大模型無意間加速了技術迭代的進度,這反倒催生了以往未被人注意到的需求。線下文旅場景,基于京東大模型能力的山西大同花木蘭數字人、江西新余數字人、云南楚雄數字人小彝妹以展示大屏、短視頻等終端為載體,豐富游客體驗并提速景區商業化;企業側,不少大型企業也萌生了定制數十萬員工數字人形象的需求。
基于大模型這個“大腦”,多模態技術讓用戶的交互界面的變革悄然發生。
“從文字走向視頻化,再走向行業。我們驗證了數字人大規模商業化的突破口,形成了行業標桿的效應”,被問及數字人乃至京東大模型的應用前景時,京東云言犀團隊難掩興奮。
畢竟,長期讓規模跑在商業化前頭的大模型賽道,可算有了能讓兩者并駕齊驅的方法論。
邊用邊訓,轉動產業應用的技術飛輪
越來越多的大模型應用,正在京東供應鏈上生長,并于京東內部超100個AI場景全面鋪開。我們可以隨意像報菜名一樣拉出智能體平臺、總裁數字人、智能客服、AI外呼,還是面向商家的商家客服京小智、AIGC商品圖生成乃至京東供應鏈之內小哥終端智能助手、編程助手Joycoder、康康健康助手等一系列應用。
不過,應用只是大模型服務商能力輸出的前端,如何授人以漁才是重頭戲。包括訓練、精調、壓縮、拉升等在內的大模型能力構建才是AIGC時代下,新質生產力的內生力量。
京東有別于其他模型服務商的不同在于,其將夯實基座模型作為過程,目的是從基礎設施到Agent應用,構建全場景的大模型服務能力,持續推動大模型落地產業,輸出供應鏈的行業knowhow。
就像上半年卷瘋了的長文本,該技術路徑是大模型接受大量文本數據的輸入后,將信息處理并分析推理,最終按不同應用場景和需求輸出多種多樣的結果。
京東透過應用,讓大模型這個新質生產力在產業內跑起來是輸入,那么其對外開放的企業模型構建能力便是輸出。
我們了解到,京東的大模型技術在產品化前,都會率先在內部完全跑通。尤其是業已為其所平臺化的數字人與智能體兩大人機交互介質,無論是數字人的生成還是智能體的構建,京東都做到了讓零經驗的運營們拋開算法部門獨立搭建。
強易用性、“零”樣本、“零”幻覺是京東大模型技術棧產品化的先決條件——可靠性是前提,易用性是基礎。
如果我們再向底層基建下探,就能發現言犀大模型技術棧中與產業完全適配的關鍵,在于其大模型漸進式拉升與壓縮技術。好比科幻電影《黑客帝國》中的Neo,是架構師(Architect)眼中的“唯一”。
去年末起,為了捅破大模型與產業間的那層窗戶紙,大模型的拉升與壓縮能力成為AI軍備競賽的賽點。這本質上是針對企業關于大模型的通用能力、垂域能力、響應時間等不同需求的一種大模型“場景適配”。更重要的是,京東在基礎的拉升與壓縮之上,還做到了同步灌注垂域知識,甚至實現領域數據自進化并注入模型中。
海量垂域數據的灌輸必將產生過擬合,好比一個學生,平時做習題做得很好,考試成績卻很差。為了讓大模型能“舉一反三”,只好不斷增加訓練集,然而這又將導向費時費力的人工標注。如何以較低成本解決過擬合問題,是捅破前述窗戶紙的關鍵。
自技術路徑上看,京東的做法與此前的深度學習框架fast.ai異曲同工。只不過而fast.ai是在數據層,透過漸進式圖像分類數據集,而京東則是在模型層發力。
一般來說,多模態大模型相對更注重全局理解,垂類、細顆粒度理解與情感識別是“短板”。京東之所以能在數字人、智能體等應用上率先取得商業化的突破,根源便在于“邊訓邊用”,讓京東同時轉起了產業和技術的飛輪。
在尋找新質生產力的歷史敘事中,京東云憑借產業供應鏈深度,已然率先跑通了應用乃至基礎設施構建的全鏈路。隨著面向公眾的言犀智能體平臺與言犀數字人3.0平臺的正式發布,來自產業的knowhow又將觸及更廣闊的場景,打造更全面的生態。
角逐基座模型、Demo與某項技術之巔,或許會將行業引入垃圾時間,更多創新與確定性的未來,誕生于產業之中。