麻豆国产va免费精品高清在线,中文字幕乱码人妻二区三区,欧美性猛交xxxx免费看

相比于兩年前，手機廠商已經(jīng)很少在大參數(shù)的基礎模型上做大投入，而是更多把精力放在了端側多模態(tài)模型上。

文｜游勇

編｜周路平

手握數(shù)億用戶的手機廠商一直是探索AI終端的先鋒力量。

不久前，vivo、OPPO和榮耀在新手機發(fā)布前，都集中舉辦了開發(fā)者大會。AI已經(jīng)成為最熱鬧的話題，而各家手機廠商也在這一場合，展現(xiàn)了對AI戰(zhàn)略的全新理解，以及各家對模型能力應用的側重。

外界好奇的是，作為用戶日常使用最頻繁的智能設備，國內(nèi)手機上的AI已經(jīng)發(fā)展到什么階段？有哪些應用場景？以及又有哪些難題待解？

AI手機進入端側多模態(tài)時代

兩年前，手機AI的應用集中在文本處理上，比如多輪對話、摘要生成、文案續(xù)寫等應用，而且依賴云側大模型的處理。而今年一個明顯的變化是，隨著多模態(tài)端側模型的涌現(xiàn)，實現(xiàn)了大量與圖像、語音處理相關的場景。

vivo展示了18個端側智能相關的應用，比如卡證識別、文件名自動填充，以及端側化的UI Agent，通過一句話在備忘錄創(chuàng)建筆記，或者通過一句話在錢包里記一筆詳細的賬單。這些任務相比于過去幫你設置一個鬧鐘，有更復雜的交互邏輯，需要有意圖識別能力和自主規(guī)劃能力。

OPPO則重點演示了一鍵問屏和一鍵閃記的功能。一鍵問屏依托多模態(tài)大模型，AI不僅可以實時理解屏幕內(nèi)容，也能夠讓用戶指著實景進行語音對話。而一鍵閃記則可以自動提取關鍵信息并分類，比如當你通過微信支付買了東西，手機會自動將這筆消費記錄到賬單里，無需任何手動操作，或者能通過掃描小票信息，完成賬單錄入。而取餐碼等信息，則會以小卡片的形式在手機上實時提醒。

榮耀披露了手機可自動執(zhí)行的場景超過3000個，圍繞衣食住行購，解決用戶頻繁跨App調(diào)用的煩惱，比如一鍵比價購物，除了幫你進行比價，把商品添加到購物車，還能幫你領取優(yōu)惠券；比如一鍵打車，通過語音直接讓AI調(diào)用打車軟件。過往需要頻繁切換App，現(xiàn)在通過AI，一個指令就能完成。

“從熱門的大模型跟智能體產(chǎn)品來看，技術上已經(jīng)具備了理解物理世界或者加速物理跟數(shù)字世界融合的能力。”榮耀MagicOS AI產(chǎn)品部總經(jīng)理張沖說，客觀來講，對手機廠商而言，數(shù)字世界包含了天然數(shù)據(jù)和生產(chǎn)數(shù)據(jù)，通過這些數(shù)據(jù)可以進行更好的模型微調(diào)，以便理解用戶在當前情境下的需求。

不過，在一位手機AI技術專家看來，“AI技術的進步和用戶的需求存在一定的錯配。用戶最高頻的AI使用場景是圖片的處理，但這一代的技術，先成熟的是語言模型。”該人士預測，大概率在明年，圖片處理的成熟度會非常高。

手機廠商的大模型基本經(jīng)歷了三個階段：兩年前，vivo、OPPO都發(fā)布了從幾億參數(shù)到上千億參數(shù)的全尺寸語言模型。一年前，業(yè)內(nèi)的重心從語言模型轉向語音、圖像等多模態(tài)領域，并且更加重視模型的端側化，加速大模型在手機上落地。

vivo、OPPO、榮耀AI進展匯總整理：數(shù)智前線

而今年的幾個明顯的趨勢是：一是端側模型集中在3B的輕量化模型尺寸上，而且在大語言模型的基礎上新增了多模態(tài)。

比如今年7月，榮耀發(fā)布了7B的多模態(tài)感知大模型MagicGUI。vivo也在同一時間發(fā)布了3B多模態(tài)推理大模型BlueLM-2.5-3B，實現(xiàn)語言、視覺與邏輯推理能力在端側集成。而10月，OPPO發(fā)布了端側多模態(tài)大模型AndesVL，包含了0.6B-4B四檔尺寸套件，除了具備通用多模態(tài)識別、理解和推理能力外，也具有GUI能力和多語言能力。

業(yè)內(nèi)通過低比特混合量化方案和端側Lora訓練方案，快速縮小了模型的體積和對內(nèi)存的開銷，加快了端側多模態(tài)大模型的部署速度。

一位行業(yè)從業(yè)者告訴數(shù)智前線，現(xiàn)在的3B模型已經(jīng)能夠做到之前8B模型的效果。而且，以往這些任務需要多個視覺專家模型和語言模型相結合，但現(xiàn)在能夠做到多種尺寸和模態(tài)的模型集成到一個模型中，帶來更高的識別率。比如vivo采用了1+N架構，讓多模態(tài)和語言模型、邏輯推理等共用一個基座模型，再搭配各模態(tài)的Lora，實現(xiàn)一個模型支撐了十余個業(yè)務場景。

二是端側實現(xiàn)了推理模型的深度思考模式，手機本地能做到像云端一樣進行復雜推理，大幅提升了解決復雜問題的準確率。

三是GUI Agent模型的引入，讓AI主動操控手機界面來完成任務。它的本質(zhì)是模擬人對手機進行點擊、滑動等操作，無需依賴規(guī)則和固定腳本，也不用應用方提供特別的API，從而讓手機智能體實現(xiàn)對第三方應用的操作。

端側模型落地面臨哪些挑戰(zhàn)

現(xiàn)在的手機AI助手，背后通常會調(diào)用不同的模型來執(zhí)行不同任務，既有自己蒸餾的模型，也會通過API去調(diào)用外部優(yōu)秀的云側大模型服務，包括阿里通義、字節(jié)跳動豆包是被手機廠商廣泛接入的兩家。

但一位手機行業(yè)人士告訴數(shù)智前線，調(diào)用外部模型，里面還有很多彎彎繞繞，“豆包也好，阿里也好，給手機廠商的API，跟他自己的最新版本不一樣，他慢了至少3到6個月。”上述人士說，云廠商內(nèi)部賣云的人跟開發(fā)模型的人是兩撥人。

云廠商將自己內(nèi)部的能力封裝成商品拿出去賣，但模型廠商也擔心，手機廠商基于自己的數(shù)據(jù)做優(yōu)化后，效果比它的還更好，“這個事情不是說我不想接他，是他不想給我。”

但相比于兩年前，手機廠商已經(jīng)很少在大參數(shù)的基礎模型上做大投入，而是更多把精力放在了端側多模態(tài)模型上。

一位手機AI專家告訴數(shù)智前線，云側模型通過MOE架構實現(xiàn)了大幅壓縮，但端側受限于芯片性能，目前已經(jīng)能做到2B-5B，相當于2023年的32-70B的模型。如果模型廠商的目標是追求智能上限，而終端廠商則是把模型壓縮放到端上。“我們不做0到1基礎模型的訓練，小尺寸的端側模型實際上是云端大尺寸模型的蒸餾。”

“云端的能力已相對比較容易建立。”vivo AI研究院院長周圍說，“真正難的是端側的能力。”

周圍透露，vivo在去年做了13B和7B的端側模型，發(fā)現(xiàn)只有7B基本能用，但7B端側模型的實現(xiàn)效果并不理想，占用內(nèi)存太大，需要占用近4GB的運存空間。vivo最近一年將更多精力放在了3B端側多模態(tài)模型上，如今3B端側模型在文本摘要上的能力已經(jīng)做到了云側大模型97%-98%的能力，“已經(jīng)夠用了”。

但這并非意味著手機廠商不再去做大參數(shù)的模型，而是在能力上會做一些區(qū)分，“如果這個問題已經(jīng)是大部分廠商在解決的，那么我選擇跟他合作。”一位技術專家告訴數(shù)智前線，比如手機廠商不會再去迭代純粹增加世界知識的模型，而是側重基于手機端多維數(shù)據(jù)的理解，追求個人化智能。

所以，盡管目前手機廠商都采用的是端云協(xié)同方案，但不難發(fā)現(xiàn)，核心依然在端側模型的優(yōu)化上。

一方面，云端大模型的每一次API調(diào)用都需要成本，而且往返的延遲也影響著用戶體驗；另一方面，用戶對隱私的擔憂，限制了云側大模型對數(shù)據(jù)的使用。而端側大模型除了需要更高性能的芯片和存儲空間，幾乎不會增加其他成本，以及在本地處理帶來更高的隱私安全，這些特性成了端側大模型在手機落地的關鍵。

AI的爆發(fā)正在給手機廠商帶來了一些甜蜜的煩惱。手機廠商的用戶體量龐大，頻繁調(diào)用云側模型的服務，會帶來巨大的成本開支。一位手機AI專家告訴數(shù)智前線，用ASR模型做手機的轉錄翻譯，一個小時需要耗費的云成本達到了2塊錢。而這些費用都需要硬件廠商承擔。

事實上，市面上的AI應用，除了部分大廠的對話類產(chǎn)品，很多專業(yè)的工具都需要收費，比如PPT的生成、深度研究報告等，都開始探索收費模式。

而且，一位業(yè)內(nèi)人士對數(shù)智前線感慨，云廠商并沒有太強烈的意愿去做端側模型的投入，“因為他們更多是賣MaaS服務”，這也更加依賴手機廠商主動去解決端側模型的難題。

但當下面臨的一個問題在于，缺乏爆款AI應用，用戶對AI的感知還非常有限，芯片廠商也出現(xiàn)了觀望情緒。

“芯片廠商一直在找我們，看能不能在手機上找到更多的明星場景。”上述人士說，目前，高通驍龍和聯(lián)發(fā)科天璣最新的旗艦芯片，AI算力都已經(jīng)達到了100TOPS。芯片廠商希望賣更強算力的芯片，但如果沒有足量的應用支撐，算力大，意味著芯片價格也高，最終會影響到芯片的銷量。

Agent生態(tài)才剛剛起步

不難發(fā)現(xiàn)，目前外界看到的一句話修圖，一句話連Wi-Fi，一句話記賬等自動化任務基本還局限于廠商自己的一方應用，比如備忘錄、相冊等。

但用戶大部分的使用場景是在第三方的應用，“85%的時長是由開發(fā)者給我們提供的服務”，這意味著頭部互聯(lián)網(wǎng)廠商的參與依然是非常關鍵的一環(huán)。

周圍提到，當下手機自動智能體要做任務時，只能做廠商自己的功能。但是想跨應用，在安全授權的標準方面，終端廠商和互聯(lián)網(wǎng)廠商仍然需要復雜的討論。“作為終端廠商，我們要積極推動行業(yè)標準的建立，也要認識到，AI技術從現(xiàn)在到成熟還有幾年的過程。”

隨著單一智能體走向多智能體協(xié)同。各手機廠商除了發(fā)布智能體應用，也都在積極搭建智能體生態(tài)。

比如，vivo將系統(tǒng)中高頻可復用的能力提煉成通用的系統(tǒng)級智能體，包括屏幕感知、任務規(guī)劃等做成“通控設施組”，直接提供給生態(tài)伙伴調(diào)用，然后通過智能體開發(fā)平臺，提供多種端側AI開發(fā)能力，幫助生態(tài)伙伴針對具體的業(yè)務場景去開發(fā)豐富的智能體。

OPPO則將智能體生態(tài)框架作為OPPO AI的三大技術基石，這不僅是OPPO智能體跨設備協(xié)同的核心平臺，也關系到AI智能體實現(xiàn)從單步執(zhí)行升級到復雜任務規(guī)劃與多設備聯(lián)動的關鍵。

榮耀也發(fā)布了系統(tǒng)級的MCP架構，目前已經(jīng)打通了系統(tǒng)底層超過80%的高頻場景，也接入了超過4000個生態(tài)MCP和智能體。除了軟件生態(tài)，榮耀也在基于深圳的區(qū)位優(yōu)勢，希望構建AI硬件生態(tài)，實現(xiàn)智能體的跨設備協(xié)同。

手機廠商在智能體生態(tài)的構建上相比于其他終端產(chǎn)品，擁有大量的跨應用、跨場景的多模態(tài)數(shù)據(jù)。手機可以與其他終端設備打通，扮演智能中樞的角色，這些特性讓手機在智能體生態(tài)的構建上具備著天然優(yōu)勢。

如今，已經(jīng)開始有互聯(lián)網(wǎng)廠商嘗到了甜頭，比如螞蟻集團幾乎與主流手機廠商都達成了戰(zhàn)略合作，將旗下的智能體服務接入到了手機廠商的生態(tài)里。vivo透露，螞蟻旗下的AI健康智能體AQ在藍心小V的健康場景的流量份額從年初到現(xiàn)在提升了三倍。

但對于大多數(shù)應用廠商而言，智能體生態(tài)背后涉及到流量分配和數(shù)據(jù)權限的難題。不少App廠商擔心，如果由系統(tǒng)級的智能體來直接服務最終用戶，App的價值會受到?jīng)_擊。另外，現(xiàn)在的用戶數(shù)據(jù)是各App自己掌握，如果要由系統(tǒng)級智能體來執(zhí)行，是否需要共享用戶數(shù)據(jù)也是一個讓不少企業(yè)擔憂的問題。

目前，業(yè)內(nèi)的普遍做法是開發(fā)GUI大模型，這是一個更加溫和的解決方案，本質(zhì)上不是由智能體與智能體直接交互，只是將手機界面的操作由AI替代了人，背后依然需要用戶登陸個人賬戶，關鍵節(jié)點需要用戶確認，手機智能體只是扮演著使用者的角色。

而vivo周圍的態(tài)度代表了不少手機廠商的觀點，“第一是愿意跟我們握手的，就一起坐下來商量來做。第二是AI時代到來了，是不是需要有一個全新的江湖地位和影響力，這個就留給時間。”

特別聲明：本文為合作媒體授權DoNews專欄轉載，文章版權歸原作者及原出處所有。文章系作者個人觀點，不代表DoNews專欄的立場，轉載請聯(lián)系原作者及原出處獲取授權。(有任何疑問都請聯(lián)系idonews@donews.com)