久久精品熟女亚洲av艳妇,日日爽日日操,黑巨人与欧美精品一区

DoNews > 商業(yè) > 對話王小川：大語言模型是起點，AGI時代已經(jīng)到來

對話王小川：大語言模型是起點，AGI時代已經(jīng)到來

精選 2023-04-17 19:40:00

199090

分享到

撰文 | 蘇? ? ?舒

編輯 | 李信馬

題圖 | 官方圖片

中國的互聯(lián)網(wǎng)圈，科技圈的少有這么熱鬧的時候。

上周，王小川在搜狐網(wǎng)絡(luò)大廈召開了一場發(fā)布會，重點講了一件事：我，王小川要加入中國大模型創(chuàng)業(yè)大軍。

為什么說是創(chuàng)業(yè)大軍呢？因為就在發(fā)布會樓上的辦公區(qū)，美團聯(lián)合創(chuàng)始人王慧文也在此開啟了大模型創(chuàng)業(yè)項目“光年之外”。除了他們之外，還有其他不少創(chuàng)業(yè)者們都涌進了大模型創(chuàng)業(yè)賽道。

緊接著，王小川在接受媒體專訪時，被動調(diào)侃了百度的文心一言，隨后百度回嘴，一不小心互聯(lián)網(wǎng)口水戰(zhàn)昔日重現(xiàn)。

這樣的“真性情口水戰(zhàn)”讓寂靜許久的互聯(lián)網(wǎng)圈、科技圈波瀾四起。這不經(jīng)讓人想起了早些年，也是這群人，站在時代的風口，躊躇滿志揮斥方遒，開啟了互聯(lián)網(wǎng)十年黃金期。

而現(xiàn)在，又是這樣一批人，想要抓住AI的風口再創(chuàng)輝煌，就這樣，大模型賽道是真的靠著這樣一群人，熱鬧了起來。這種熱鬧，讓不少互聯(lián)網(wǎng)人、創(chuàng)業(yè)者甚至媒體人淚目。

近日，DoNews對話欄目《方桌說》對王小川進行了專訪。我們試圖從王小川的過去，找尋到他做大模型的底氣，然后去發(fā)現(xiàn)，王小川對大語言模型的理解究竟如何，也嘗試去向他發(fā)問，對于未來的考慮。

在采訪中，我們抽絲剝繭的發(fā)現(xiàn)，王小川去做大語言模型，可以算是“順勢而為”。王小川擁有的技術(shù)實力、產(chǎn)品理念、學(xué)界力量以及極致的技術(shù)主義信念，這些都是他義無反顧去做大語言模型的底氣。

我將這樣一個問題拋給王小川，從在清華讀計算機系到搜狗工作，以及到現(xiàn)在去做大模型方向的創(chuàng)業(yè)，可以總結(jié)說你生命中的底色就是AI么？

王小川給出的回答是，對我自身來講，探索生命的意義是我永恒的主題。廣義上生命分幾種，AGI主要指向創(chuàng)造智力。人最根本的需求是“生存”，我的公開信中也反復(fù)提到繁榮和延續(xù)人類文明，“繁榮”指向“生”，“延續(xù)”指向“存”。我說的“生命”，既不是個體的生命，也不是AGI，而是整個人類文明——讓人類文明能夠更繁榮和延續(xù)是我的終極理想，我希望向文明、向生命致敬。

這似乎也說明，搜狗創(chuàng)業(yè)也好，大模型創(chuàng)業(yè)也好，都是王小川手上的利刃，它們最終目的，是雕刻出一張寫滿人類文明，以生命為底色的畫卷。

以下是采訪原文，為了便于閱讀，我們在不改變原義的基礎(chǔ)上，做了小幅度的調(diào)整。

1、過去：“我與AI結(jié)緣已久”

Q：您是從什么時候接觸的到AI的？那個時候，您對它有什么樣的理解么？

A：我本人在大學(xué)的時候，從大一開始就在學(xué)習(xí)人工智能，到了2016年AlphaGo的出現(xiàn)，徹底將AI帶入了大眾的視野。當時不只是技術(shù)本身的一個突破，在以前，人工智能只存在于高校，現(xiàn)在參與人工智能的企業(yè)是以前的數(shù)倍，從2016年開始人工智能開始真正走向了實用，但那時的AI只能算作數(shù)據(jù)智能，不能叫做人工智能。

到了2021年，AlphaFold的出現(xiàn)，讓我們又能夠明白一件事情，一個基因如何把它變成了一個蛋白質(zhì)三維結(jié)構(gòu)，這種技術(shù)突破就再一次震驚世界。

而最初看到ChatGPT相關(guān)的論文時，我沒把它理解成一個嚴肅科學(xué)問題，比如你問個問題它答錯了，但當你要求它“think step by step”，它就答對了，我最初覺得很好笑，直到今年1月底我開始認真看，才發(fā)現(xiàn)通用人工智能時代真的到了。

Q：在搜狗的時候，您是如何將AI與業(yè)務(wù)結(jié)合起來？那個時候?qū)I技術(shù)應(yīng)用的思考是什么樣的？

A：很多人可能對搜狗有誤解，覺得搜索公司不夠AI，其實搜狗現(xiàn)在都有12000片GPU在跑著，70%是做推理的，搜狗是非常AI化的公司。搜狗的核心是語言相關(guān)工作，NLP是基本功，在大量文本數(shù)據(jù)中篩選高質(zhì)量數(shù)據(jù)的方法和大模型是完全一樣的。所以其實從搜狗的建立之初，我們就致力于利用AI技術(shù)讓大家更好地表達與獲取信息。2019 年，我們把此前的使命跟愿景升級為“讓表達與獲取知識更簡單”。

而今天其實我們說什么產(chǎn)品是能夠把一個這個整個互聯(lián)網(wǎng)的知識裝進來，變成一個超級APP？其實 web 現(xiàn)在就三個東西，一個是現(xiàn)在ChatGPT，一個搜索，還有就是輸入法，就這 3 個東西。整個互聯(lián)網(wǎng)的信息裝在里面形成的一個產(chǎn)品，一個幫助你更好地表達的，一是幫好你更好地獲取內(nèi)容的，但今天ChatGPT在表達上遠超過輸入法，在回答問題的理解深度上也超過搜索，基本上是我們原來這個做事情的巨大的一種跨越或升級版。

Q：離開搜狗后的兩年，您做了什么？

A：離開搜狗的這一年半，我開始釋放自己的這樣一種經(jīng)歷，更多去關(guān)注生命相關(guān)的問題。因為在我讀研究生期間，我當時做的課題就是跟基因測序拼接算法相關(guān)的，研究基因后面的這么一個法則。當時,我就看到一件事情是人的生命的復(fù)雜性遠遠超過了物理世界。我們都知道是牛頓是把物理問題變成了數(shù)學(xué)問題，通過他對萬有引力的探索，通過他的牛頓三大定律，我們可以用數(shù)學(xué)精確的去刻畫物理世界，但生命我們還做不到。

所以我很好奇的一點，就是如何用數(shù)學(xué)模型怎么去刻畫生命，這是從我研究生期間一直帶來的這樣一個困惑。AlphaGO和AlphaFold的這樣一種成功，更激發(fā)了我們用這種計算機用深度學(xué)習(xí)方法去理解生命。所以這一年半的時間里面，我都花了很多精力里面去研究這種生命科學(xué)的問題，希望對于大眾健康產(chǎn)生更多的貢獻。

Q：在此前您對GPT的，對大語言模型有關(guān)注么？

A：其實當時 2021 年的時候，搜狗搜索技術(shù)團隊在CLUE（中文語言理解測評基準）的任務(wù)比賽中，基于自研的中文預(yù)訓(xùn)練模型擊敗了包括華為盤古在內(nèi)的一眾強勁對手，在CLUE總榜、分類總榜、閱讀理解榜再次獲得第一名，刷新業(yè)界記錄。當時我們就已經(jīng)訓(xùn)練過百億的模型了。

Q：ChatGPT發(fā)布的那一天您在做什么？

A：這個確實記不住了。但首先來講，我是覺得特別激動的，對于語言的理解這塊，科學(xué)家們真的把這事給突破了。

Q：您此前一直非常關(guān)注AlphaGo，那現(xiàn)在的ChatGPT就是當初的AlphaGo？并且都開創(chuàng)了不一樣的時代？

A：Alphago 我覺得確實是給我們信心了，就是深度學(xué)習(xí)把這個路給走通了。其實我們有兩種理念，一種理念就是讓機器自己學(xué)習(xí)，就是重演一部進化史。但 Alpha Zero 其實已經(jīng)在一個垂直領(lǐng)域里面做到了最強。所以我覺得AlphaGo的出現(xiàn)，第一讓人對人工智能有了信心，第二是讓人能夠理解到通用人工智能如果真的完成，能夠做什么事情。

而ChatGPT的出現(xiàn)，可以說是讓人工智能照進了現(xiàn)實，通用人工智能時代真的到來了。我們正在創(chuàng)造一種新的生命，它和石頭、蒸汽機、電腦的出現(xiàn)都不一樣，以前都是工具，但AGI不是工具了——它是你的伙伴，新的朋友，是人類進化的下一個階段。

2、現(xiàn)在：“人才是我現(xiàn)在更需要考慮的問題”

Q：為什么一定要下場去做大語言模型？

A：隨著大模型騰空出世的話，我們開始發(fā)現(xiàn)人跟機器能夠產(chǎn)生很好的對話，甚至機器能夠去開始掌握世界的知識。我也意識到在解決生命健康問題的時候，那么不只是研究人的這樣一個生命的結(jié)構(gòu)，而是人跟外部的這么一個這種醫(yī)生，他能夠形成新的一種互動，能夠有新的方式去幫助人更加健康。

因此我認為大模型在醫(yī)療領(lǐng)域同樣會產(chǎn)生作用。坦白講的話，我們?nèi)诉€沒弄明白生命本身數(shù)學(xué)化的問題，但是我們開始發(fā)現(xiàn)我們能夠讓語言變成了一個書寫模型的問題，這跟我的老本行特別相關(guān)。

因此我認為在解決生命的路徑當中，把語言變成數(shù)學(xué)問題，也成為我們該去這樣的一個去應(yīng)用突破的一個支點。有這些方式里面，我們不僅可以能夠去為生命科學(xué)里面建電機，同時我們就已經(jīng)可以通過它去構(gòu)造你的這種虛擬的數(shù)字醫(yī)生，這種數(shù)字的老師或者數(shù)字的律師也已經(jīng)產(chǎn)生很大的應(yīng)用。

我認為這件事情能夠承接未來對生命的探索，并且今天就已經(jīng)對于怎么讓人跟機器更好相處，產(chǎn)生它實際的意義，這是我現(xiàn)在這次下場中間很大的一個原因。

Q：目前項目進展如何？

A：4到月底我們差不多就接近50人了，今年年中會有一個500億參數(shù)的模型訓(xùn)練出來。年底我們就可以做到中國最好的大模型，可以達到GPT-3.5以上的水平。當然，這不代表我們中間沒有產(chǎn)品發(fā)出來。

Q：從萌生創(chuàng)業(yè)想法到現(xiàn)在，遇到過最困難的事情是什么？

A：人才。我現(xiàn)在最關(guān)心的就是，有沒有人愿意來一塊兒干，能和一群有理想的人，用極致的技術(shù)驅(qū)動創(chuàng)造出顛覆性的智能產(chǎn)品。我在公開信中也提到，這一次百川智能將借助語言AI的突破，構(gòu)建中國最好的大模型底座，并在搜索、多模態(tài)、教育、醫(yī)療等方面增強，幫助大眾輕松、普惠的獲取世界知識和專業(yè)服務(wù)。

也歡迎大家?guī)臀覀兺扑屯哆f建立的郵箱：

80@baichuan-inc.com;

90@baichuan-inc.com ；

95@baichuan-inc.com;

00@baichuan-inc.com ；

oier@baichuan-inc.com。

Q：5000萬美元啟動資金，您認為能支撐到創(chuàng)業(yè)的哪個階段，具體會用在哪些地方？比較有意思的是，現(xiàn)在宣布進軍大模型創(chuàng)業(yè)的大佬們，大多是拿到了5000萬美元的啟動資金，這是一個入門的標準線么？為什么？

A：無論是多少錢，比較務(wù)實的思考是如何迅速啟動，設(shè)定合理的里程碑，并且用最高的效率，以及超預(yù)期的結(jié)果到達里程碑，那么后續(xù)的資源才會源源不斷。

同時，這個階段人比錢更重要。這個領(lǐng)域不會像之前打車、外賣一樣，錢能直接轉(zhuǎn)化成市場份額——今天的錢你可以買樓，你可以買卡，你可以買人，但它都不直接變成市場份額，也不一定有那么多網(wǎng)絡(luò)效應(yīng)。

Q：有下一輪融資的計劃么？

A：面向機構(gòu)的融資將會在近期啟動

Q：大模型“燒錢”，不管是算力、算法、人才、數(shù)據(jù)都需要源源不斷的錢，目前在您的規(guī)劃中來看，投入多少錢后可以看到一個“結(jié)果”？

A：我大概估算過，只是從0到1起步，5000萬美元就夠了，但要持續(xù)做到最好，大概需要3-20億美元。

Q：現(xiàn)在無論是大廠也好，創(chuàng)業(yè)者也罷，還有不少專注于人工智能的企業(yè)，都在做大模型，包括多模態(tài)的，圖生文、或者大語言模型等等，您認為您自己和其他創(chuàng)業(yè)者不同的點在哪里，未來的競爭優(yōu)勢又在哪里？

A：因為今天首先是語言模型，搜索公司做語言確實有先天優(yōu)勢。而且搜索公司的經(jīng)驗是比較完整的，從數(shù)據(jù)清洗、轉(zhuǎn)化成模型，到最后上線提供服務(wù)、甚至在數(shù)據(jù)安全這一塊的經(jīng)驗，其實都干過。公司的組織結(jié)構(gòu)和評價體系，也都有相關(guān)性。所以搜索公司起步的時候的確是有優(yōu)勢的。

搜狗的核心是語言相關(guān)工作，NLP是基本功，在大量文本數(shù)據(jù)中篩選高質(zhì)量數(shù)據(jù)的方法和大模型是完全一樣的；其次，在評價方法上，從平臺輸入一個問題，評價它的反饋答案好不好的標準和搜狗也相對一致，所以我們在一頭一尾的原始數(shù)據(jù)治理上相對有更多經(jīng)驗，也更擅長對生成內(nèi)容的好壞做評價。當然，大模型會涉及獨有的經(jīng)驗和算法，但我們學(xué)起來也會很快。

相對于OpenAI，他們可以用幾萬張卡跑模型去通向AGI，但有些深水區(qū)他們就不碰了，比如搜索、醫(yī)學(xué)，他們可能躲著走，但我要去碰這些東西，我需要更考慮落地應(yīng)用。我們雖然理想比OpenAI慢半步，但我們相信我們在AGI的具體應(yīng)用落地上會快半步。

Q：您覺得誰會做出中國版的ChatGPT？您之前在采訪的時候說，要做中國最好的模型？怎么定義中國最好的模型？

A：參數(shù)量、測試集的效果，Chat產(chǎn)品體驗。

Q：ChatGPT爆火背后，不少人也關(guān)注到了數(shù)據(jù)隱私與安全，前有三星公司因為接入ChatGPT導(dǎo)致芯片機密泄露一事，后有意大利就數(shù)據(jù)安全和數(shù)據(jù)隱私的問題，宣布禁用ChatGPT。ChatGPT大爆發(fā)背后，如何平衡數(shù)據(jù)隱私安全和AI能力之間的關(guān)系？

A：我覺得中國的大模型創(chuàng)業(yè)者首先要考慮活下去，做出最好的大模型。

3、未來：“用技術(shù)理想主義的信念去做普惠AI”

Q：您之前提到，到年底產(chǎn)品將會對標ChatGPT3.5，您認為就目前來說，國內(nèi)已經(jīng)有達到ChatGPT3.5標準的大模型么？

A：我覺得國內(nèi)大模型一年內(nèi)可能追上GPT-3.5。

Q：您之前也談到，一直非常關(guān)注應(yīng)用層，未來對大模型應(yīng)用的領(lǐng)域有哪些？未來會做什么樣的一個應(yīng)用呢？

A：什么行業(yè)知識密集，什么行業(yè)就適合大模型。教育服務(wù)高知群體，醫(yī)學(xué)生要學(xué)8年才能走進工作崗位，這明顯是知識密集的兩個領(lǐng)域。會是C端的應(yīng)用，到時候各位就會看到。

Q：創(chuàng)業(yè)九死一生，您已經(jīng)準備好面對接下來的“硬仗”了么？您對接來下想要入行或者正在入行的創(chuàng)業(yè)者有哪些建議？還有哪些可以進行的創(chuàng)業(yè)方向？

A：我這算是二次創(chuàng)業(yè)吧。我是從“人本”來看的——人究竟該怎么跟機器相處，這是我關(guān)心的問題。從這個角度出發(fā)，我更知道C端要什么。

Q：不管是外界，還是您自身，一直會提到技術(shù)理想主義？怎么理解技術(shù)理想主義？在過去搜狗，以及現(xiàn)在大語言模型的創(chuàng)業(yè)中，您會怎么踐行？需要做到極致的技術(shù)么？極致的技術(shù)，是想OpenAI那樣，去觸摸AI的天花板么？

A：我覺得我理解的技術(shù)理想主義是，首先把技術(shù)做好就是目的，而不是用技術(shù)去服務(wù)商業(yè)化；第二，先相信再看見，而不是先看見再相信。我認為任何領(lǐng)域都可能入“道”，茶有茶道，花有花道，而極致的技術(shù)理想主義者一定是一個純粹的理想主義者。

Q：ChatGPT出現(xiàn)可以算是一場效率的大革新，您認為ChatGPT會引發(fā)第四次工業(yè)革命么？

A：過去工業(yè)革命的邏輯是分工越細、效率越高、越規(guī)模化。但我們在智能這扇門的面前，可能是“逆社會分工”。

機器使人被普適性地賦能，更像人類擁有了搜索引擎之后，實現(xiàn)了信息獲取的普惠化。而我們現(xiàn)在是獲得知識和服務(wù)的能力普惠化。

人最終從工作中解放出來。所以產(chǎn)業(yè)未來會變平，深度會壓淺、廣度會拉開。人的工作會更加多元化，未必要像現(xiàn)在一樣，必須處于流水線中串在一起才能獲得結(jié)果。所以是“逆社會分工”。

所以AGI可以給人帶來更平等。它可能會更像是一種文藝復(fù)興，將重新定義人是什么。

Q：您認為大語言模型是通往通用人工智能的路徑么？您也一直提到，現(xiàn)在已經(jīng)進入了強人工智能的時代。在強人工智能時代下，甚至未來AGI時代到來后，AI會怎么樣影響人類生活？

A：我覺得這部分，我用公開信中的內(nèi)容作回答：

智能時代會改寫互聯(lián)網(wǎng)時代的范式。‘連接’會被‘陪伴’取代，‘信息服務(wù)’會被‘知識服務(wù)’取代，‘免費與廣告’會被‘付費與高品質(zhì)’取代。

智能時代也會改寫自工業(yè)時代以來的范式。曾經(jīng)是專業(yè)化社會分工帶來規(guī)模效應(yīng)與效率提升，而未來會是逆專業(yè)化分工：之前需要很多公司協(xié)作完成的工作，會因為AI的賦能‘端到端’的完成。

智能時代將再一次開啟“文藝復(fù)興”。每個人都會因為AI的助力而變得更加強大。用好AI，一個人就可能做一個公司，解決之前難以解決的難題，也更容易成為自己想成為的人。社會也會更加扁平，以前少數(shù)人才能享有的智力服務(wù)，也能更普惠。