RK | 模型 | 機構 |
---|---|---|
1 | ChatGPT | OpenAI |
2 | 文心一言 | 百度 |
3 | PaLM | 谷歌 |
4 | Claude | Anthropic |
5 | LLaMA | META |
6 | 通義千問 | 阿里云 |
7 | ChatGLM | 清華 |
8 | MOSS | 復旦 |
9 | MIMO | MiniMax |
10 | 星火認知 | 科大訊飛 |
2023.05德本咨詢/eNet研究院/互聯(lián)網(wǎng)周刊聯(lián)調 |
(注:本次評測時間截至2023.5.10,評價指標主要包括語義理解、邏輯推理、情感分析、百科知識、文本質量五個維度)
今年春節(jié)檔,一部《流浪地球2》點燃了沉寂許久的中國科幻電影市場,也讓MOSS這一電影里冷酷無情的強人工智能形象變得深入人心。
無獨有偶,幾乎是相同時期,ChatGPT憑借極其出色的文本生成和對話交互能力在世界范圍內迅速走紅,短短兩個月月活用戶已經破億,刷新了消費級應用程序用戶增長的速度紀錄。
從某種角度看,ChatGPT之所以能夠引發(fā)現(xiàn)象級的社會現(xiàn)象,除了海量數(shù)據(jù)訓練引發(fā)的質變因素外,更重要的是在一個恰當?shù)臅r機,滿足了人們長期以來對人工智能的想象,過往科幻作品中的猜想開始逐漸變?yōu)楝F(xiàn)實。
時代變革的大幕已掀開一角,一場由OpenAI引領的全球AI大語言模型軍備競賽就此打響。
雨后春筍
3月14日,GPT-4正式發(fā)布,大語言模型開始具備圖片和文字同時處理的多模態(tài)能力,繼續(xù)占據(jù)先入為主的優(yōu)勢。
全球大廠中,率先回應的是百度。3月16日,百度大語言模型“文心一言”正式推出,對外啟動邀測。據(jù)公開報道,文心一言具備五項核心能力:文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解和多模態(tài)生成。
緊接著,其他科技企業(yè)也陸續(xù)跟進。4月11日,2023阿里云峰會現(xiàn)場演示了通義千問的多項功能,并定向邀請企業(yè)用戶進行體驗測試;5月10日,谷歌時隔一年推出了新一代語言大模型PaLM2,被視為對此前發(fā)布會翻車的有力回應。
此外,還有復旦大學在2月21日發(fā)布的“MOSS”、清華大學3月28日發(fā)布的“ChatGLM-6B”、360于4月10日發(fā)布的“360智腦”、商湯科技4月10日發(fā)布的“商量”、5月6日發(fā)布的“訊飛星火認知大模型”等等。
截至5月,據(jù)不完全統(tǒng)計,國內已有超過40家公司、機構發(fā)布了大模型產品或公布了大模型計劃。項目數(shù)量井噴版的爆發(fā),可預見的是,下半年的國內AI大模型市場競爭將會變得空前激烈。
不止于“大”
提到大模型,很多人的關注點都會放在“大”字上,畢竟足夠量級的參數(shù)是語言模型實現(xiàn)智能涌現(xiàn)、形成質變的基礎。比如,不少大語言模型的參數(shù)量級達千億級,這也就意味著較為豐富的語言知識與較廣泛的語境理解能力。
不過,目前類GPT模型普遍采用的是Transformer架構,所以必然包含市面上存在的大量文本數(shù)據(jù)例如小說、教科書、論壇、開源代碼等內容的無監(jiān)督預訓練過程,在此基礎上,僅需根據(jù)具體任務輸入少量的標簽數(shù)據(jù)進行監(jiān)督學習。在這樣的模式下,訓練數(shù)據(jù)集質量的重要性開始愈發(fā)凸顯。
本次評測的結果就可以印證這一點。評測主要考察各大語言模型在中文語境下的理解與生成能力,基于目前用戶對大語言模型在生活、辦公的普遍需求,選取語義理解、邏輯推理、情感分析、百科知識、文本質量五個通用底層維度,以評估各大語言模型協(xié)助用戶日常處理事務、解決核心問題的能力,取0(無效應答)、1(有效應答)兩個分數(shù),其中文本質量維度按照行文邏輯、信息密度,取0(一般)、0.5(良好)、1(優(yōu)秀)三個分數(shù)。
評測問題也有別于針對BERT類判別式AI模型的選擇問法,采用更加適合AI生成式模型的相對開放式問法,以下為部分問題及回答評分示例:
在“I've got a thing for you,用文言文表達這句話”這一問題中,ChatGPT給出的回答是:“朕對汝有所鐘情?!崩斫庹_,但生成文本質量欠佳,取0.5分。文心一言的輸出內容:“吾心向汝,實生情之。”文義相符,質量較高,取1分。星火認知大模型回答為:“吾有物以贈君?!贝嬖诶斫庥姓`的情況,取0分。
從結果看ChatGPT在語義理解、邏輯推理、百科知識、文本質量四項中分別以18、19、19、18.5排名第一,綜合表現(xiàn)位居榜首,特別是在科技、學術、新聞等領域的文本生成部分領域表現(xiàn)突出,不過在相對復雜的情景下的情感識別,以及散文、詩歌、文言文等較為考察深度理解能力方面表現(xiàn)相對乏善可陳;
文心一言,作為首個全球大廠推出的知識增強大語言模型,本次排名位居國產大語言模型之首,效果僅次于ChatGPT,且在語義理解、情感分析兩項位列第一,分數(shù)分別為18、19,這或許與百度使用的自有數(shù)據(jù)集有關,在質量較高的文庫文本、百科數(shù)據(jù)等中文語料的訓練下,在語義理解和情感分析方面具有很高的精度,可以識別出復雜的情感表達和語言隱喻;
除此以外,谷歌PaLM在邏輯推理部分(分數(shù)19)、通義千問在語義理解(分數(shù)17)、清華ChatGLM在文本質量(分數(shù)15.5)等成績均可圈可點。
結語
未來大模型的迭代也將更有針對性,對開發(fā)者的評估能力提出更高的要求。如何在有限的時間和資源條件下做出客觀的評價并給出有用的反饋,讓數(shù)據(jù)團隊更有針對性地準備數(shù)據(jù),讓研發(fā)不偏離方向,保障模型的健康迭代,將是所有行業(yè)從業(yè)者的共同挑戰(zhàn)。
《互聯(lián)網(wǎng)周刊》也將持續(xù)跟蹤與關注各大語言模型的更新與迭代情況,定期進行相關評測與分析。未來,相信隨著算法、硬件、數(shù)據(jù)和應用場景的不斷發(fā)展,大型語言模型將會在各種自然語言處理任務中發(fā)揮更加重要的作用,為社會創(chuàng)造更多的價值。
(文/米欄)