當前熱議!小羊駝:訓練成本僅300美元的斯坦福開源模型,適合創業公司打造自己的AI模型

2023-04-13 11:14:07 來源:阿爾法工場


導語:小羊駝的邏輯叫“知識蒸餾”,即通過將大型模型的知識轉移到小型模型中,從而快速達到想要的模型質量,同時減少計算成本。

不久前,斯坦福公開了一個名為 Alpaca 的新模型。(俗稱“羊駝”)它使用了 GPT3.5 生成的 52k 個指令訓練,訓練費用只花了 500 美元,但是性能可以與 GPT-3.5 相媲美。


【資料圖】

然而由于使用了 GPT3.5 的指令數據,使用條款禁止開發與 OpenAI 競爭的模型,因此 AIpaca 禁止了商用。

而近日,斯坦福學者與 CMU、UC 伯克利等人合作推出了一個全新的模型——Vicuna,它有 130 億個參數,俗稱“小羊駝”。 初步評估小羊駝

其實 Vicuna 說白了就是一款新的“ChatGPT”,它和 Google Bard、ChatGPT 還有 New Bing 都一樣,都是聊天機器人(Chatbots)。

初步評估上,Vicuna-13B 達到了  ChatGPT 能力的 92%;幾乎要比 Google Bard 更強;同時遠遠甩開其他模型,如 LLaMA 和它的前輩——斯坦福的 Alpaca。

而訓練 Vicuna-13B 的成本是僅僅 300 美元。可能還沒有屏幕前的你游戲顯卡的價格高。

Vicuna 在推出后面臨的一個問題是,自己的模型質量究竟如何。顯然作為學術機構沒辦法像大公司養著幾百上千的測試團隊進行大量測試,于是他們另辟蹊徑——既然人力太貴,那就用剛剛推出的 GPT-4 來評測嘛。

具體操作上,他們提出了一個評估框架。設計了九大主題下共計八十條測試問題,然后把由其他模型和自家 Vicuna 的回答交給 GPT-4 進行評估(“哪個虛擬助理的回答更好”)。

驚人的是在這八十個問題的評估上,Vicuna 已經能微微贏下 Google 重注的 Bard,更是把自己的“祖父模型”LLaMA-13B、AIpaca-13B 殺得片甲不留。

盡管問題的勝出數量上比不過 ChatGPT,但以 10 分制的角度切入,Vicuna 也已經實現了 ChatGPT 超過 90%的質量。

不得不說,“羊駝”AIpaca用 GPT-3.5 生成的指令訓練模型,而“小羊駝”Vicuna在此基礎上又用 GPT-4 評估模型,斯坦福他們是懂人工智能的。

進入Vicuna主頁,不必注冊登錄;直接輸入想要的內容,然后等待Vicuna為你生成。全程一分鐘,行云流水絲毫不卡頓。

作為大語言模型,中英文自然是通吃。

“知識蒸餾”

ChatGPT 訓練費用高企甚至一次訓練就要接近上億美金,然而 Vicuna 只花了 300 美元。從效果上看就達到了 GPT3.5 質量的 90%。這是怎么做到的?

其實Vicuna的邏輯在人工智能領域叫做“知識蒸餾”(knowledge distillation),即通過將大型模型的知識轉移到小型模型中,從而快速達到想要的模型質量,同時減少計算成本。

通常,大型模型(即“Teacher”)會生成訓練數據,小型模型(即“Student”)則使用這些數據來學習大型模型的知識和能力。

通過這種方式,小型模型可以在自己的場景下獲得大型模型90%甚至99%的能力,這意味著,可用于生成模型的領域將呈指數級增長。

在Vicuna公布的訓練過程里,一開始,開發團隊是從 ShareGPT (與 ChatGPT 對話內容的UGC網站)上收集了七萬條對話。這恰恰是“知識蒸餾”里最重要的“訓練數據”。

而訓練方法上則是選擇了在“羊駝”AIpaca(成本已降低至500美元)上優化。

這兩個最重要的環節就使得Vicuna同時在訓練成本和訓練質量上均有突出優勢。

而理論上你也可以花300美元租云計算資源然后訓練出你的“小羊駝”。 全華人團隊

一個小插曲是,作者在撰寫稿件搜集資料時,看到小羊駝的開發團隊不禁虎軀一震。

包括 Wei-Lin Chiang、Zhuohan Li、Zi Lin、Ying Sheng、Zhanghao Wu、Hao Zhang、Lianmin Zheng、Siyuan Zhuang 和 Yonghao Zhuang,這學生團隊是清一色的全員華人,不免讓人感慨。

總結:遍地AI的世界就在眼前

從本質上來說,ChatGPT這種大語言模型就是通過燒錢燒算力燒數據達到"大力出奇跡"的效果。

而這也帶來了一個問題,即這樣的大語言模型燒錢的程度會讓很多小公司望而卻步,只能加入霸權壟斷的圈子。

而對于像小紅書/B站這樣不上不下的公司,既承擔不起自己訓練大模型的成本,也不愿意將自己內容池的數據拱手讓人,其實是陷入蠻尷尬的境地。

Vicuna展現了另一種可能性,即通過“知識蒸餾”的方式,以極低的價格復刻大語言模型90%甚至99%的能力。

而這就意味著哪怕是剛剛創業的小公司也完全負擔得起一個獨屬于自己體系的AI的訓練成本。

換句話說,ChatGPT拉開了AI落地的序幕,而Vicuna告訴我們,遍地AI的世界也許就在眼前。


標簽:

上一篇:
下一篇:
業界
更多
手機
更多
測評
軟件
數碼