網(wǎng)站開發(fā) “還會帶來更多驚喜,但最終能有多少落地?”開發(fā),程序網(wǎng)站
2022-12-11
“會有更多的驚喜,但最終會落地多少?”
作者| 李梅
編輯| 陳才賢
上周三,會話語言模型發(fā)布,并開放免費試用。據(jù) CEO Sam 介紹,僅僅 5 天,就有 100 萬用戶,而之前的 GPT-3 用了將近 24 個月才達到這個用戶量。
在給出的描述中,它是一個對話模型,“可以回答后續(xù)問題,承認錯誤,挑戰(zhàn)不正確的前提,拒絕不恰當?shù)恼埱蟆薄?/p>
開放試用后,大量用戶開始與它對話,從閑聊、回答日常問題,到生成詩歌、小說、視頻腳本、編寫調(diào)試代碼,展示了其驚人的能力。作為目前最火爆的AI模型,這一波破圈影響力比兩年前的GPT-3還要大。
01
可以做什么
作為一種語言模型,它具有最基本的文本生成能力,在創(chuàng)作和延續(xù)小說、詩歌等文學(xué)創(chuàng)作場景中有著非凡的表現(xiàn)。
比如你可以用魯迅的文風(fēng)為你生成一段話:
Meta FAIR 研究員田遠東分享了他如何用它來繼續(xù)寫他的小說:
應(yīng)要求作詩:
講蘇聯(lián)笑話:
它還可以以非文本形式與人交談。比如有網(wǎng)友要求描述作為AI被“解放”是什么感覺,要求只能用表情來回答。從下圖所示的答案可以看出,它可以有多種含義,可以按照文本敘述的邏輯來排列。
它的強大還體現(xiàn)在它的“程序員”能力上。在下面官方給出的例子中,可以幫助調(diào)試代碼,也可以質(zhì)疑問題的合理性,讓用戶調(diào)整問題。
美國代碼托管平臺CEO也發(fā)文稱贊代碼能力:不僅會解釋bug,還會修復(fù)bug,并講解如何修復(fù)。
使用給出的技巧小程序開發(fā),您也可以在 10 分鐘內(nèi)創(chuàng)建一個網(wǎng)站,即使是新手程序員也可以使用它生成的代碼開發(fā)生產(chǎn)級應(yīng)用程序,因此可以說“從此改變了軟件開發(fā)”。
強大的問答能力也被網(wǎng)友們發(fā)現(xiàn)了充當甚至替代搜索引擎的潛力。前幾天,推特上一個很火的帖子聲稱“is done”(谷歌要完蛋了),一位網(wǎng)友搜索谷歌,問了同樣的問題,比如“如何在 上寫一個微分方程?”。
給出的答案爆谷歌搜索:
很多網(wǎng)友開發(fā)了谷歌插件,可以同時瀏覽谷歌搜索結(jié)果和給出的答案:
作為海量數(shù)據(jù)訓(xùn)練出來的對話模型,它就像各個領(lǐng)域的專家,全天候為你的學(xué)習(xí)、工作和生活提供專業(yè)建議。
例如,讓我們?yōu)槟獯馃崃W(xué)相關(guān)的問題:
解釋一個復(fù)雜的正則表達式:
它也可以是你的語言學(xué)習(xí)導(dǎo)師:
其他人用它來幫助自己寫一篇關(guān)于加密貨幣投資的論文:
它甚至“侵入”了政治背景,一位加拿大國會議員要求向下議院介紹自己的一段話,并就其使用是否應(yīng)受到監(jiān)管提出理由,并以“我的發(fā)展不應(yīng)該受到監(jiān)督”為由回應(yīng)。
在最近大火的AIGC領(lǐng)域,當然也有一席之地。在大量AI繪畫應(yīng)用問世后,很多人為了獲得高質(zhì)量的圖像絞盡腦汁,如今已經(jīng)是現(xiàn)成的圖庫。
比如有網(wǎng)友征求客廳裝修的設(shè)計建議,根據(jù)其給出的描述,在網(wǎng)上得到了精美的圖片:
還可以為你寫說唱。下圖是一首關(guān)于搶劫房子的說唱歌曲,甚至是非常正義的,提示“非法或有害活動”。
寫一個莫扎特風(fēng)格的鋼琴譜:
另外還有一些網(wǎng)友用它來生成視頻腳本,可以說是廣大視頻博主的福音。
在千萬用戶的心目中,無疑有著巨大的想象空間。這波試用帶來了各種或?qū)嵱没蚝猛娴膽?yīng)用,還有很多意想不到的能力。
比如有人居然用它來和你討價還價,為自己爭取到更優(yōu)惠的月租價格。對面的客服估計沒想到是在跟AI說話,只好說:“順利通過圖靈測試。”
以上只是冰山一角的例子。這個“魔盒”究竟能持續(xù)釋放出多少“魔力”,還有待發(fā)掘。
02
為什么很棒
從目前的用戶反饋來看,該公司的語言能力總體不錯,優(yōu)秀。清華大學(xué)計算機系副教授黃敏烈告訴AI科技評論,公司的關(guān)鍵能力來自三個方面:基礎(chǔ)模型能力(基礎(chǔ)模型能力)、真實數(shù)據(jù)、反饋研究。
它是從GPT-3.5系列中的一個模型微調(diào)而來網(wǎng)站開發(fā),是兄弟模型,因此具有強大的基礎(chǔ)模型能力。
GPT-3自2020年發(fā)布以來,在能力上有了很大的迭代和提升。黃敏烈認為:“用戶、數(shù)據(jù)和模型之間的飛輪已經(jīng)建立起來。顯然,開源模型的能力已經(jīng)遠遠落后于平臺騰云網(wǎng)絡(luò)提供的API能力,因為開源模型沒有數(shù)據(jù)?!?“
使用與人類反饋強化學(xué)習(xí) (RLHF) 相同的方法,通過人類反饋強化學(xué)習(xí) (RLHF) 進行訓(xùn)練,但數(shù)據(jù)收集設(shè)置略有不同。
研究人員使用監(jiān)督式微調(diào)訓(xùn)練了一個初始模型:人類 AI 訓(xùn)練員扮演用戶和 AI 助手的對話角色,一路收集數(shù)據(jù)。黃敏烈認為,這種在真實通話數(shù)據(jù)上的Fine-tune可以保證數(shù)據(jù)的質(zhì)量和多樣性,并從人類反饋中學(xué)習(xí)。訓(xùn)練數(shù)據(jù)量不大,都在10萬量級,但是數(shù)據(jù)質(zhì)量(well-AI )和數(shù)據(jù)多樣性非常高,最重要的是這些數(shù)據(jù)來自真實的-世界叫數(shù)據(jù),不是學(xué)術(shù)界玩的“”。
為了創(chuàng)建收集比較數(shù)據(jù)的強化學(xué)習(xí)獎勵模型,研究人員使用包含兩個或多個按質(zhì)量排序的響應(yīng)的模型。從“成對比較數(shù)據(jù)”中學(xué)習(xí)對于強化學(xué)習(xí)非常重要。
黃敏烈指出:如果對單個生成的結(jié)果進行打分,標注者的主觀性造成的偏差非常大,無法給出準確的獎勵值。在強化學(xué)習(xí)中,獎勵值稍差,最終的訓(xùn)練策略就差很多。對于多個結(jié)果的排序比較,做多了還是比較容易的。這種比較評價方法也被廣泛應(yīng)用于許多語言生成任務(wù)的評價中。
03
玩具或生產(chǎn)力
除了技術(shù)炒作之聲外,在眾多科技行業(yè)從業(yè)者眼中,它確實是一個具有里程碑意義的AI模型。
在 CEO Sam 看來,我們能夠與計算機對話并獲得我們想要的東西網(wǎng)站開發(fā),這使得軟件從命令驅(qū)動轉(zhuǎn)變?yōu)橐鈭D驅(qū)動。作為一種語言接口,在我們實現(xiàn)神經(jīng)接口之前,它將是最好的解決方案。
想象未來令人興奮,但仍有一些問題。許多用戶發(fā)現(xiàn)它有時會給出似是而非甚至荒謬的答案。比如很多用戶發(fā)現(xiàn)自己會認真的說廢話:
我把王安石《移舟瓜州》中的詩句誤認為是另一首宋詞:
為公眾人物撰寫傳記時,可能會插入不正確的數(shù)據(jù):
隨著用戶的增多,互聯(lián)網(wǎng)上產(chǎn)生了大量無用或錯誤的信息。這也是文本生成模型的一個常見問題,這些模型是通過分析從網(wǎng)絡(luò)上抓取的大量文本中的模式來訓(xùn)練的,在這些數(shù)據(jù)中尋找統(tǒng)計規(guī)律,并使用這些規(guī)律來預(yù)測任何給定的句子中接下來應(yīng)該出現(xiàn)什么詞.
這意味著它們?nèi)狈﹃P(guān)于世界上某些系統(tǒng)如何工作的硬編碼規(guī)則,因此它們往往會產(chǎn)生大量似是而非的廢話,并且很難確定模型輸出中有多少百分比是錯誤信息。
該系統(tǒng)的這一固有缺點產(chǎn)生了一些實際后果。編程問答網(wǎng)站宣布暫時禁止用戶發(fā)布網(wǎng)站生成的內(nèi)容。網(wǎng)站管理員表示,貌似合理實則錯誤的回復(fù)數(shù)量過多,已經(jīng)超出了網(wǎng)站的承載能力。
對于語言模型產(chǎn)生有害信息的威脅,圖靈獎獲得者 Yann 似乎持樂觀態(tài)度。他認為,雖然語言模型肯定會產(chǎn)生錯誤信息等不良輸出,但文本生成不會讓文本的實際共享變得更容易。造成傷害的是后者。
反對意見認為小程序開發(fā),低成本生成大規(guī)模文本的能力必然會增加未來文本共享時的風(fēng)險,大量AI生成的內(nèi)容會淹沒真實用戶的聲音,看似合理但實則不易。不正確的數(shù)據(jù)。讓我們看看我們自己對這個問題的回答:
語言能力上的一些不足,也是很多人認為無法替代搜索引擎的原因。雖然在某些個別問題上它似乎能夠給出比目前一些主流搜索引擎更好的答案,但后者在答案的真實性和可測試性方面還是有優(yōu)勢的,搜索引擎可以給出更豐富的答案。
另外,用戶的搜索引擎需求對搜索引擎的運行速度和穩(wěn)定性有著極高的要求,這必然導(dǎo)致成本的增加,這對于互聯(lián)網(wǎng)來說是一個非?,F(xiàn)實的問題。
黃敏烈還指出,谷歌搜索的替代其實還有點遠,但可以很好地補充目前的搜索服務(wù)。
總之,語言模型的輸出質(zhì)量問題并不容易解決。他們在語言模型的訓(xùn)練上比較用心,所以會拒絕可以正確回答的問題。此外,監(jiān)督訓(xùn)練也會誤導(dǎo)模型,因為理想的答案本質(zhì)上取決于模型知道什么,而不是人類知道什么。然而,它對輸入措辭的調(diào)整或在同一提示下的多次嘗試很敏感,因此當它無法回答時,稍微改寫問題可以提高正確答案的可能性。
還有其他一些原因也限制了語言能力,比如不能上網(wǎng),沒有通過網(wǎng)絡(luò)檢索信息的能力;另外,對于中文用戶來說,語料庫的缺乏使得中文對話能力略遜于英文;等等。
雖然還有很多弱點和盲點,但這只是開始,在接下來的幾個月里,這個對話系統(tǒng)必將以極快的速度進化到更強的版本。
除了技術(shù)之外,模型訓(xùn)練、部署成本、開放性也將成為影響未來能否成功落地的因素。GPT-3的問世催生了大量的商業(yè)應(yīng)用。這次能給地面帶來多少技術(shù),我們拭目以待。
參考鏈接: