文心一言讀書破萬億,五大能力業(yè)內(nèi)領(lǐng)先
人工智能時代,IT技術(shù)棧可分為“芯片層、框架層、模型層和應(yīng)用層”,百度是全球為數(shù)不多、進行全棧布局的人工智能公司。從昆侖芯片、飛槳深度學(xué)習(xí)平臺、文心大模型到應(yīng)用,在技術(shù)棧的每一層,都有領(lǐng)先的關(guān)鍵自研技術(shù),實現(xiàn)了層與層反饋,端到端優(yōu)化,大幅提升效率。文心一言是百度人工智能多年技術(shù)積累和產(chǎn)業(yè)實踐的水到渠成,尤其是飛槳深度學(xué)習(xí)平臺和文心大模型的聯(lián)合優(yōu)化,為文心一言提供了堅實的技術(shù)支撐。
王海峰強調(diào),文心一言完全是百度自主研發(fā)的大語言模型。百度早在2019年就發(fā)布文心大模型ERNIE 1.0,經(jīng)過近4年研發(fā)和迭代,文心大模型已經(jīng)形成了產(chǎn)業(yè)級知識增強大模型技術(shù)體系,包括自然語言處理、視覺、跨模態(tài)、生物計算、行業(yè)大模型,以及支撐大模型應(yīng)用的工具平臺,蘊含了大量百度自主創(chuàng)新、并且在大規(guī)模產(chǎn)業(yè)應(yīng)用中得到驗證的技術(shù)。其中有些關(guān)鍵技術(shù)已申請專利或者發(fā)表論文,還有一些相關(guān)技術(shù)也已開源開放。
文心一言是大語言模型的典型代表。王海峰以“讀書破萬卷,下筆如有神”為例,解讀了大語言模型從海量數(shù)據(jù)中學(xué)習(xí),就相當(dāng)于讀了萬億卷書籍,吸收了萬億知識,做到了理解,在此基礎(chǔ)上,就可以按照用戶的需求去生成文案、回答問題、完成總結(jié)分析了。
關(guān)于 “文心一言”名字由來,王海峰做了具體闡釋:“文”是語言文字,“心”是用心理解,“文心”指致力于理解和運用語言文字的自然語言理解模型,同時也呼應(yīng)了《文心雕龍》,寓意用雕縷龍紋一樣精細的功夫去研究語言文字的內(nèi)涵和魅力;“一言”既有“一言為定、一言九鼎”的寓意,也有對人機之間“你一言我一語”流暢溝通的殷切期盼。文心“一言”既出,即可“一生二、二生三、三生萬言”。
現(xiàn)場還展示了文心一言的文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、推理計算、中文理解和多模態(tài)生成等能力。在文學(xué)創(chuàng)作方面,文心一言不僅可以撰寫《流浪地球2》的影評文案,還可以創(chuàng)作朋友圈配圖,并續(xù)寫《流浪地球3》的后續(xù)劇情;在商業(yè)文案創(chuàng)作方面,文心一言幫助想開店的創(chuàng)業(yè)者做好籌備工作,比如調(diào)研北京中關(guān)村3公里范圍內(nèi)辦公人群口味偏好、設(shè)計店名、創(chuàng)作宣傳語和藏頭詩,以及收集匯總創(chuàng)立餐飲店涉及的政府部門與相關(guān)流程手續(xù);在推理計算方面,文心一言可以準確計算復(fù)雜的數(shù)學(xué)問題,先理解問題,再通過思維鏈推理,最后生成答案;在中文理解方面,文心一言可以準確解答“日照香爐生紫煙,遙看瀑布掛前川”詩句是哪里的自然景象及其背后的物理現(xiàn)象;在多模態(tài)生成方面,文心一言可以準確回答中國古詩的相關(guān)問題,并制表、作畫,用方言朗讀。
六大核心技術(shù)加持,文心一言落地水到渠成
文心一言是文心大模型家族的新成員,在文心知識增強大模型ERNIE及對話大模型PLATO的基礎(chǔ)上研發(fā),基于飛槳深度學(xué)習(xí)平臺訓(xùn)練和部署,其關(guān)鍵技術(shù)包括,有監(jiān)督精調(diào)、人類反饋的強化學(xué)習(xí)、提示、知識增強、檢索增強和對話增強。前三項是這類大語言模型都會采用的技術(shù),在ERNIE和PLATO模型中已經(jīng)有應(yīng)用和積累,文心一言中又進行了進一步強化和打磨,做到了更懂中文、更懂中國文化、更懂中國的使用場景;后三項則是百度已有技術(shù)優(yōu)勢的再創(chuàng)新,也是文心一言越來越強大的技術(shù)底氣。
王海峰以老師教學(xué)生為例,深入淺出地解讀了大語言模型背后的技術(shù)原理。預(yù)訓(xùn)練大模型像博覽群書的學(xué)生,記住了很多知識,但需要老師來指導(dǎo)如何運用,而有監(jiān)督精調(diào)就是老師在教學(xué)生,將提煉出來的知識要點、典型范例等教給模型,讓它知道該如何符合人類規(guī)范、習(xí)慣和價值觀,去執(zhí)行相應(yīng)動作,生成相應(yīng)內(nèi)容。文心一言訓(xùn)練了獎勵模型,為每次輸出的結(jié)果打分并給到反饋,進行強化學(xué)習(xí),隨著真實用戶的反饋越來越多,文心一言的效果會越來越好,能力越來越強,進步“一日千里”。此外,文心一言還融合了不同類型數(shù)據(jù)和知識,自動構(gòu)造提示,包括實例、提綱、規(guī)范、知識點和思維鏈等,提供了豐富的參考信息,激發(fā)模型相關(guān)知識,生成高質(zhì)量結(jié)果。
對于百度已有技術(shù)優(yōu)勢的再創(chuàng)新,王海峰也做了進一步解讀。在知識增強方面,知識是人類認識和改造世界的智慧結(jié)晶。百度構(gòu)建了5500億事實的知識圖譜。文心一言基于龐大的知識圖譜來做知識增強,從海量數(shù)據(jù)和大規(guī)模知識中融合學(xué)習(xí),還可以直接調(diào)用知識圖譜做知識推理,自動構(gòu)建提示,高效滿足用戶需求。在知識的指導(dǎo)下,文心一言如同站在巨人的肩膀上,學(xué)得又好又快,模型效率和效果均大幅提升。
在檢索增強方面,百度擁有世界上最大的中文搜索引擎,百度搜索已經(jīng)發(fā)展到基于語義理解和匹配的新一代搜索架構(gòu),深入理解用戶需求和網(wǎng)頁內(nèi)容,進行語義匹配,得到更精準的搜索結(jié)果,進而為大模型提供準確率高、時效性強的參考信息,更好地滿足用戶需求。
在對話增強方面,基于對話技術(shù)和應(yīng)用積累,文心一言具備記憶機制、上下文理解和對話規(guī)劃能力,實現(xiàn)更好的對話連貫性、合理性和邏輯性。百度深耕對話技術(shù)多年,取得了國際領(lǐng)先的技術(shù)成果,榮獲中國專利金獎、吳文俊人工智能科技進步特等獎等,為文心一言的成功研發(fā)奠定了基礎(chǔ)。
文心一言普惠千行百業(yè),加速產(chǎn)業(yè)智能化變革
大語言模型的飛速發(fā)展已經(jīng)引起社會熱議,對于工作崗位替代、教育模式變革、人工智能安全等問題,王海峰也給出了解答。
他表示,文心一言這樣的人工智能技術(shù),本質(zhì)上是提升生產(chǎn)力的工具,可以替代人類完成一些工作,但同時也會創(chuàng)造更多工作機會,使人類可以去做更具創(chuàng)造力的工作。正如人類歷史上任何一次科技革命和產(chǎn)業(yè)變革都會帶來一些工作被替代,同時創(chuàng)造了更多新的工作機會。在教育模式的轉(zhuǎn)變上,“死記硬背”已經(jīng)落伍,教育將與時俱進,向激發(fā)靈感、培養(yǎng)創(chuàng)造力的方向轉(zhuǎn)變。
在人工智能安全性方面,百度堅定遵守相關(guān)法律法規(guī)和倫理規(guī)范,專門配備了相應(yīng)監(jiān)督機制和管理機制,從各個環(huán)節(jié)做好安全問題。在文心一言的開發(fā)過程中,從最初的數(shù)據(jù)的采集、處理,模型的訓(xùn)練,到最后的使用過程,構(gòu)筑了五道安全防線。百度也成立了數(shù)據(jù)管理委員會,還與社會各界共同合作,不斷完善相關(guān)政策、規(guī)則,強化人工智能安全。關(guān)于人工智能是否會控制人類,王海峰強調(diào),就像人造地球衛(wèi)星永遠也不會和月球這樣的自然衛(wèi)星畫等號一樣,人工智能永遠也不會直接跟人類的智能完全畫等號,研究人工智能是在研究用技術(shù)手段來模擬、延伸和拓展人的智能,最終目的是為人類帶來更先進的科技,服務(wù)于人類更美好的生活和社會的發(fā)展。
當(dāng)下,人工智能已經(jīng)成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,而深度學(xué)習(xí)作為人工智能的核心技術(shù),具備很強的通用性,呈現(xiàn)出標(biāo)準化、自動化、模塊化的工業(yè)大生產(chǎn)特征,推動人工智能進入工業(yè)大生產(chǎn)階段。大模型具有效果好、泛化性強、研發(fā)流程標(biāo)準化的特點,正在成為人工智能技術(shù)及應(yīng)用的新基座。但與此同時,大模型研發(fā)門檻高、難度大,依賴算法、算力和數(shù)據(jù)綜合支撐,產(chǎn)業(yè)化面臨挑戰(zhàn):模型體積大,訓(xùn)練難度高;算力規(guī)模大,性能要求高;數(shù)據(jù)規(guī)模大,數(shù)據(jù)質(zhì)量參差不齊。
如何實現(xiàn)大模型產(chǎn)業(yè)化?王海峰表示,類似芯片代工廠的模式,具有算法、算力和數(shù)據(jù)綜合優(yōu)勢的企業(yè),可以將模型生產(chǎn)的復(fù)雜過程封裝起來,通過低門檻、高效率的生產(chǎn)平臺,為千行百業(yè)提供大模型服務(wù)。未來,文心一言這類大語言模型會成為一個通用的賦能平臺,金融、能源、媒體、政務(wù)等各行各業(yè),都可以基于文心一言實現(xiàn)智能化變革,提高效率,創(chuàng)造巨大的商業(yè)價值。期待社會各界積極擁抱新技術(shù),共同努力,實現(xiàn)高水平科技自立自強,為經(jīng)濟高質(zhì)量增長帶來更多動能。(劉一言)
編輯:李芊諾
責(zé)編:汪黃任
審核:王棕寶
請輸入驗證碼