相比于兩年前,手機廠商已經(jīng)很少在大參數(shù)的基礎模型上做大投入,而是更多把精力放在了端側多模態(tài)模型上。
文|游勇
編|周路平
手握數(shù)億用戶的手機廠商一直是探索AI終端的先鋒力量。
不久前,vivo、OPPO和榮耀在新手機發(fā)布前,都集中舉辦了開發(fā)者大會。AI已經(jīng)成為最熱鬧的話題,而各家手機廠商也在這一場合,展現(xiàn)了對AI戰(zhàn)略的全新理解,以及各家對模型能力應用的側重。
外界好奇的是,作為用戶日常使用最頻繁的智能設備,國內(nèi)手機上的AI已經(jīng)發(fā)展到什么階段?有哪些應用場景?以及又有哪些難題待解?
01
AI手機進入端側多模態(tài)時代
兩年前,手機AI的應用集中在文本處理上,比如多輪對話、摘要生成、文案續(xù)寫等應用,而且依賴云側大模型的處理。而今年一個明顯的變化是,隨著多模態(tài)端側模型的涌現(xiàn),實現(xiàn)了大量與圖像、語音處理相關的場景。
vivo展示了18個端側智能相關的應用,比如卡證識別、文件名自動填充,以及端側化的UI Agent,通過一句話在備忘錄創(chuàng)建筆記,或者通過一句話在錢包里記一筆詳細的賬單。這些任務相比于過去幫你設置一個鬧鐘,有更復雜的交互邏輯,需要有意圖識別能力和自主規(guī)劃能力。
OPPO則重點演示了一鍵問屏和一鍵閃記的功能。一鍵問屏依托多模態(tài)大模型,AI不僅可以實時理解屏幕內(nèi)容,也能夠讓用戶指著實景進行語音對話。而一鍵閃記則可以自動提取關鍵信息并分類,比如當你通過微信支付買了東西,手機會自動將這筆消費記錄到賬單里,無需任何手動操作,或者能通過掃描小票信息,完成賬單錄入。而取餐碼等信息,則會以小卡片的形式在手機上實時提醒。
榮耀披露了手機可自動執(zhí)行的場景超過3000個,圍繞衣食住行購,解決用戶頻繁跨App調(diào)用的煩惱,比如一鍵比價購物,除了幫你進行比價,把商品添加到購物車,還能幫你領取優(yōu)惠券;比如一鍵打車,通過語音直接讓AI調(diào)用打車軟件。過往需要頻繁切換App,現(xiàn)在通過AI,一個指令就能完成。
“從熱門的大模型跟智能體產(chǎn)品來看,技術上已經(jīng)具備了理解物理世界或者加速物理跟數(shù)字世界融合的能力。”榮耀MagicOS AI產(chǎn)品部總經(jīng)理張沖說,客觀來講,對手機廠商而言,數(shù)字世界包含了天然數(shù)據(jù)和生產(chǎn)數(shù)據(jù),通過這些數(shù)據(jù)可以進行更好的模型微調(diào),以便理解用戶在當前情境下的需求。
不過,在一位手機AI技術專家看來,“AI技術的進步和用戶的需求存在一定的錯配。用戶最高頻的AI使用場景是圖片的處理,但這一代的技術,先成熟的是語言模型。”該人士預測,大概率在明年,圖片處理的成熟度會非常高。
手機廠商的大模型基本經(jīng)歷了三個階段:兩年前,vivo、OPPO都發(fā)布了從幾億參數(shù)到上千億參數(shù)的全尺寸語言模型。一年前,業(yè)內(nèi)的重心從語言模型轉向語音、圖像等多模態(tài)領域,并且更加重視模型的端側化,加速大模型在手機上落地。
vivo、OPPO、榮耀AI進展匯總 整理:數(shù)智前線
而今年的幾個明顯的趨勢是:一是端側模型集中在3B的輕量化模型尺寸上,而且在大語言模型的基礎上新增了多模態(tài)。
比如今年7月,榮耀發(fā)布了7B的多模態(tài)感知大模型MagicGUI。vivo也在同一時間發(fā)布了3B多模態(tài)推理大模型BlueLM-2.5-3B,實現(xiàn)語言、視覺與邏輯推理能力在端側集成。而10月,OPPO發(fā)布了端側多模態(tài)大模型AndesVL,包含了0.6B-4B四檔尺寸套件,除了具備通用多模態(tài)識別、理解和推理能力外,也具有GUI能力和多語言能力。
業(yè)內(nèi)通過低比特混合量化方案和端側Lora訓練方案,快速縮小了模型的體積和對內(nèi)存的開銷,加快了端側多模態(tài)大模型的部署速度。
一位行業(yè)從業(yè)者告訴數(shù)智前線,現(xiàn)在的3B模型已經(jīng)能夠做到之前8B模型的效果。而且,以往這些任務需要多個視覺專家模型和語言模型相結合,但現(xiàn)在能夠做到多種尺寸和模態(tài)的模型集成到一個模型中,帶來更高的識別率。比如vivo采用了1+N架構,讓多模態(tài)和語言模型、邏輯推理等共用一個基座模型,再搭配各模態(tài)的Lora,實現(xiàn)一個模型支撐了十余個業(yè)務場景。
二是端側實現(xiàn)了推理模型的深度思考模式,手機本地能做到像云端一樣進行復雜推理,大幅提升了解決復雜問題的準確率。
三是GUI Agent模型的引入,讓AI主動操控手機界面來完成任務。它的本質(zhì)是模擬人對手機進行點擊、滑動等操作,無需依賴規(guī)則和固定腳本,也不用應用方提供特別的API,從而讓手機智能體實現(xiàn)對第三方應用的操作。
02
端側模型落地面臨哪些挑戰(zhàn)
現(xiàn)在的手機AI助手,背后通常會調(diào)用不同的模型來執(zhí)行不同任務,既有自己蒸餾的模型,也會通過API去調(diào)用外部優(yōu)秀的云側大模型服務,包括阿里通義、字節(jié)跳動豆包是被手機廠商廣泛接入的兩家。
但一位手機行業(yè)人士告訴數(shù)智前線,調(diào)用外部模型,里面還有很多彎彎繞繞,“豆包也好,阿里也好,給手機廠商的API,跟他自己的最新版本不一樣,他慢了至少3到6個月。”上述人士說,云廠商內(nèi)部賣云的人跟開發(fā)模型的人是兩撥人。
云廠商將自己內(nèi)部的能力封裝成商品拿出去賣,但模型廠商也擔心,手機廠商基于自己的數(shù)據(jù)做優(yōu)化后,效果比它的還更好,“這個事情不是說我不想接他,是他不想給我。”
但相比于兩年前,手機廠商已經(jīng)很少在大參數(shù)的基礎模型上做大投入,而是更多把精力放在了端側多模態(tài)模型上。
一位手機AI專家告訴數(shù)智前線,云側模型通過MOE架構實現(xiàn)了大幅壓縮,但端側受限于芯片性能,目前已經(jīng)能做到2B-5B,相當于2023年的32-70B的模型。如果模型廠商的目標是追求智能上限,而終端廠商則是把模型壓縮放到端上。“我們不做0到1基礎模型的訓練,小尺寸的端側模型實際上是云端大尺寸模型的蒸餾。”
“云端的能力已相對比較容易建立。”vivo AI研究院院長周圍說,“真正難的是端側的能力。”
周圍透露,vivo在去年做了13B和7B的端側模型,發(fā)現(xiàn)只有7B基本能用,但7B端側模型的實現(xiàn)效果并不理想,占用內(nèi)存太大,需要占用近4GB的運存空間。vivo最近一年將更多精力放在了3B端側多模態(tài)模型上,如今3B端側模型在文本摘要上的能力已經(jīng)做到了云側大模型97%-98%的能力,“已經(jīng)夠用了”。
但這并非意味著手機廠商不再去做大參數(shù)的模型,而是在能力上會做一些區(qū)分,“如果這個問題已經(jīng)是大部分廠商在解決的,那么我選擇跟他合作。”一位技術專家告訴數(shù)智前線,比如手機廠商不會再去迭代純粹增加世界知識的模型,而是側重基于手機端多維數(shù)據(jù)的理解,追求個人化智能。
所以,盡管目前手機廠商都采用的是端云協(xié)同方案,但不難發(fā)現(xiàn),核心依然在端側模型的優(yōu)化上。
一方面,云端大模型的每一次API調(diào)用都需要成本,而且往返的延遲也影響著用戶體驗;另一方面,用戶對隱私的擔憂,限制了云側大模型對數(shù)據(jù)的使用。而端側大模型除了需要更高性能的芯片和存儲空間,幾乎不會增加其他成本,以及在本地處理帶來更高的隱私安全,這些特性成了端側大模型在手機落地的關鍵。
AI的爆發(fā)正在給手機廠商帶來了一些甜蜜的煩惱。手機廠商的用戶體量龐大,頻繁調(diào)用云側模型的服務,會帶來巨大的成本開支。一位手機AI專家告訴數(shù)智前線,用ASR模型做手機的轉錄翻譯,一個小時需要耗費的云成本達到了2塊錢。而這些費用都需要硬件廠商承擔。
事實上,市面上的AI應用,除了部分大廠的對話類產(chǎn)品,很多專業(yè)的工具都需要收費,比如PPT的生成、深度研究報告等,都開始探索收費模式。
而且,一位業(yè)內(nèi)人士對數(shù)智前線感慨,云廠商并沒有太強烈的意愿去做端側模型的投入,“因為他們更多是賣MaaS服務”,這也更加依賴手機廠商主動去解決端側模型的難題。
但當下面臨的一個問題在于,缺乏爆款AI應用,用戶對AI的感知還非常有限,芯片廠商也出現(xiàn)了觀望情緒。
“芯片廠商一直在找我們,看能不能在手機上找到更多的明星場景。”上述人士說,目前,高通驍龍和聯(lián)發(fā)科天璣最新的旗艦芯片,AI算力都已經(jīng)達到了100TOPS。芯片廠商希望賣更強算力的芯片,但如果沒有足量的應用支撐,算力大,意味著芯片價格也高,最終會影響到芯片的銷量。
03
Agent生態(tài)才剛剛起步
不難發(fā)現(xiàn),目前外界看到的一句話修圖,一句話連Wi-Fi,一句話記賬等自動化任務基本還局限于廠商自己的一方應用,比如備忘錄、相冊等。
但用戶大部分的使用場景是在第三方的應用,“85%的時長是由開發(fā)者給我們提供的服務”,這意味著頭部互聯(lián)網(wǎng)廠商的參與依然是非常關鍵的一環(huán)。
周圍提到,當下手機自動智能體要做任務時,只能做廠商自己的功能。但是想跨應用,在安全授權的標準方面,終端廠商和互聯(lián)網(wǎng)廠商仍然需要復雜的討論。“作為終端廠商,我們要積極推動行業(yè)標準的建立,也要認識到,AI技術從現(xiàn)在到成熟還有幾年的過程。”
隨著單一智能體走向多智能體協(xié)同。各手機廠商除了發(fā)布智能體應用,也都在積極搭建智能體生態(tài)。
比如,vivo將系統(tǒng)中高頻可復用的能力提煉成通用的系統(tǒng)級智能體,包括屏幕感知、任務規(guī)劃等做成“通控設施組”,直接提供給生態(tài)伙伴調(diào)用,然后通過智能體開發(fā)平臺,提供多種端側AI開發(fā)能力,幫助生態(tài)伙伴針對具體的業(yè)務場景去開發(fā)豐富的智能體。
OPPO則將智能體生態(tài)框架作為OPPO AI的三大技術基石,這不僅是OPPO智能體跨設備協(xié)同的核心平臺,也關系到AI智能體實現(xiàn)從單步執(zhí)行升級到復雜任務規(guī)劃與多設備聯(lián)動的關鍵。
榮耀也發(fā)布了系統(tǒng)級的MCP架構,目前已經(jīng)打通了系統(tǒng)底層超過80%的高頻場景,也接入了超過4000個生態(tài)MCP和智能體。除了軟件生態(tài),榮耀也在基于深圳的區(qū)位優(yōu)勢,希望構建AI硬件生態(tài),實現(xiàn)智能體的跨設備協(xié)同。
手機廠商在智能體生態(tài)的構建上相比于其他終端產(chǎn)品,擁有大量的跨應用、跨場景的多模態(tài)數(shù)據(jù)。手機可以與其他終端設備打通,扮演智能中樞的角色,這些特性讓手機在智能體生態(tài)的構建上具備著天然優(yōu)勢。
如今,已經(jīng)開始有互聯(lián)網(wǎng)廠商嘗到了甜頭,比如螞蟻集團幾乎與主流手機廠商都達成了戰(zhàn)略合作,將旗下的智能體服務接入到了手機廠商的生態(tài)里。vivo透露,螞蟻旗下的AI健康智能體AQ在藍心小V的健康場景的流量份額從年初到現(xiàn)在提升了三倍。
但對于大多數(shù)應用廠商而言,智能體生態(tài)背后涉及到流量分配和數(shù)據(jù)權限的難題。不少App廠商擔心,如果由系統(tǒng)級的智能體來直接服務最終用戶,App的價值會受到?jīng)_擊。另外,現(xiàn)在的用戶數(shù)據(jù)是各App自己掌握,如果要由系統(tǒng)級智能體來執(zhí)行,是否需要共享用戶數(shù)據(jù)也是一個讓不少企業(yè)擔憂的問題。
目前,業(yè)內(nèi)的普遍做法是開發(fā)GUI大模型,這是一個更加溫和的解決方案,本質(zhì)上不是由智能體與智能體直接交互,只是將手機界面的操作由AI替代了人,背后依然需要用戶登陸個人賬戶,關鍵節(jié)點需要用戶確認,手機智能體只是扮演著使用者的角色。
而vivo周圍的態(tài)度代表了不少手機廠商的觀點,“第一是愿意跟我們握手的,就一起坐下來商量來做。第二是AI時代到來了,是不是需要有一個全新的江湖地位和影響力,這個就留給時間。”



