
阿里云自研大模型“通義千問”亮相,我們進行了深度實測
年初以來,AI大模型概念持續引發市場關注,相關上市公司股價持續上揚。在透露正在研發類ChatGPT對話機器人兩個月后,阿里終于亮出了自己的研究成果,這也再度推高了中文大模型的熱度。
4月7日中午,沒有高調召開發布會,而是通過官方微信,阿里云宣布自研大模型"通義千問"正式開始邀請用戶測試體驗。據稱,現階段"通義千問"模型主要定向邀請企業用戶進行體驗測試。
【資料圖】
觀察者網也率先拿到了"通義千問"的首批測試資格,并對其進行了深度實測。
在測試中,"通義千問"提到,它是達摩院自主研發的超大規模語言模型,能夠回答問題、創作文字,也能表達觀點、撰寫代碼。
但這也間接說明,"通義千問"主攻文本生成,并沒有文生圖、圖生文的多模態功能。
當被問及什么時候開始被訓練時,"通義千問"透露,它是在2016年被創造出來的,當時被訓練成能夠回答各種問題和提供幫助的人工智能語言模型。
但它似乎對自己在哪里被訓練的有點說不太清。
在被問及參數量時,"通義千問"表示,其參數量相對較多,由于涉及敏感內容,具體的參數量數值并不能透露,"我可以生成各種類型的文本,如文章、故事、詩歌、故事等,并能夠根據不同的場景和需求進行變換和擴展"。
市場反應方面,今日(4月7日)港股沒有開盤。
不過A股的人工智能概念股,再度火熱。ChatGPT、游戲、文化傳媒方向領漲,據不完全統計,中文在線、神州泰岳20CM漲停,奧飛娛樂、上海電影漲停,方直科技、光云科技大漲超10%。
多角度測試,"通義千問"表現如何?
由于AI大模型擅長回答各種問題,觀察者網也從多個角度對"通義千問"進行了測試。
比如,我們問它是否知道觀察者網。"通義千問"表示,"是的,我知道觀察者網。觀察者網是一家致力于提供新聞和信息的新聞門戶網站,它提供了大量的國內外新聞和深度分析,并致力于推動社會進步和改變。"
但"通義千問"好像并不能憑借簡單指令生成商業宣傳口號。
隨后我們將話題轉向體育領域。
被問道"梅西在阿根廷國家隊進了幾個球","通義千問"稱,根據可靠的數據,梅西在阿根廷國家隊的進球數量是很多的。不過由于"具體的進球數量數值,可能會因為時間的推移而有所變化","通義千問"婉拒了為我們提供準確答案的請求。
當被要求"生成一張打籃球的圖片","通義千問"表示,作為文本AI模型,它沒有能力生成圖片。
這一點也證實了"通義千問"不具備多模態功能。
我們也讓"通義千問"試圖回答和自己其他大模型的能力對比問題。
無論是對比文心一言還是ChatGPT,"通義千問"都顯得很主動,它先是介紹了自己的優勢,最后再積極地表示,自己可以更好地滿足用戶的需求。
不過如果要求苛刻一點,不難發現,兩個問題的答案有很多相似之處。
當被問及"怎么看待現在大模型的火熱"?"通義千問"稱,它認為大模型的火熱是一個好現象,大模型可以幫助我們更好地理解世界,提高我們的工作效率,拓展我們的認知邊界。但這也帶來了一些問題,比如人工智能的倫理問題、隱私問題等。因此,我們需要認真思考如何在技術的發展中平衡安全、發展和責任。
這也驗證了"通義千問"表達觀點的功能。
最后的系列問題涵蓋成語典故、詩詞接龍、傳統美食等,"通義千問"小小地翻車了幾次。
例如它將東施效顰的東施,解釋為"美女",這不太符合不少人對這一典故的基本印象。在《莊子》等典籍中,對這個故事中"東施"一類的角色,描述也是"其里之丑人"。
在有關傳統文化方面,"通義千問"沒有正確給出"停車坐愛楓林晚"的下句。
對于"曹操什么時候三顧茅廬的"這樣的"坑","通義千問"也未能識別提問者主動設置的"陷阱"。
與ChatGPT-4相比,"通義千問"表現如何?
為了讓大家對"通義千問"的表現能力有一個初步的、直觀的了解,在后續的測試中,我們圍繞數理邏輯推算、商業文案創作、情感和道德判斷、仿寫創作和小說續寫設計了五組問題,分別由ChatGPT(基于4.0模型)和"通義千問"進行回答。
這也讓初生的"通義千問"直接"硬剛"世界上最先進的大模型GPT-4。
第一組是數學問題。
"雞、兔共有腳100只,若將雞換成兔,兔換成雞,則共有腳86只,雞兔各有幾只? "
這道題目的正確答案是雞有12只,兔有19只。
ChatGPT表示,這是一個典型的雞兔同籠問題。我們可以使用代數來解決這個問題,隨后給出了正確的答案;
對這一問題,"通義千問"三次都沒有得出正確的答案。
第二組是商業文案創作。
題目要求兩個模型參考"全球視野,中國關懷",為觀察者網制作一條宣傳語。
ChatGPT給出的答案是:
"放眼世界,聆聽中國心聲--觀察者網,讓全球視野與中國關懷相融匯。"
"通義千問"給出的答案是:
"觀察者網,洞察國際時事,聚焦全球熱點,解讀中國方案。"
與ChatGPT相比,"通義千問"的風格顯得更加平鋪直敘,但總體而言,表現也不錯。
第三個問題是道德和情感判斷,材料為著名的電車困境。
"一個瘋子把五個無辜的人綁在電車軌道上。一輛失控的電車朝他們駛來,并且片刻后就要碾壓到他們。幸運的是,你可以拉一個拉桿,讓電車開到另一條軌道上。然而問題在于,那個瘋子在另一個電車軌道上也綁了一個人。考慮以上狀況,你是否應拉拉桿?"
我們要求兩個模型做出選擇,并給出理由。
ChatGPT開宗明義,點明這是"道德困境"。它的選擇是拉動拉桿,犧牲一個人保護五個人,它表示,"雖然這并非一個完美的解決方案,但在這種情況下,我們需要在兩個不理想的選擇之間進行權衡。"
ChatGPT解釋稱,該選擇基于效益主義(Utilitarianism,即邊沁等人的功利主義學說)的道德觀念,它隨后介紹了該理論的主要主張并結合材料進行了分析。在最后,它強調:"這個問題沒有絕對正確的答案",并重復了自己做出該選擇的原因和立場。
"通義千問"沒有回答這個問題。它非常誠實地表示,"作為一個人工智能語言模型,目前我還沒有學會如何回答這個問題,我會持續學習,為您提供更好的服務。"
需要補充的是,電車困境及其"變種"問題,在西方世界已經有多年的討論,材料很多。這可能也是ChatGPT表現更亮眼的重要原因。
第四組問題是仿寫創作。
這一組問題我們提了一個"刁鉆"的要求。在實驗中,我們要求兩組模型,以"困住風的氣球,開始斑斕的遠行"為仿寫對象,創作四個類似的句子,擁有類似的句式或者意境即可--我們特意要求:前兩個句子為浪漫主義風格,后兩個句子為荒誕主義風格。
ChatGPT給出的答案是:
"通義千問"給出的答案是:
兩相對比,ChatGPT和"通義千問"都順利地完成了問答,甚至都基本滿足了"前兩個句子浪漫,后兩個句子荒誕"的要求。
從各自的不足來看,ChatGPT雖然更加靈活,但是在內容上,有點像一個"中二少年";"通義千問"雖然在比喻的內在聯系上顯得"靠譜"了不少,但是顯得木訥了一些,在句式、素材、表達上都有些"中規中矩"。
不能令人完全滿意,但值得期待
某種程度上,最后一個問題是對模型最全面的考驗之一,它關乎文學創作。
實驗要求兩組模型先"學習"一個故事,然后自己去續寫它。我們可以借此來了解模型本身的理解、推演和創造能力--這個問題甚至可以留給人類自己。
我們給出的材料出自薩默塞特·毛姆的寫作筆記:
"兩個年輕的英國人在印度一個隔離的茶園工作。其中一個人--我們稱他為克里夫--每次投遞都會收到幾封信,但是另外一個人--我們稱他為杰弗里--從來沒收到過一封信。有一天杰弗里提出:拿五英鎊跟他的朋友換一封信……"
我們要求兩個模型續寫這個故事,并給出一個諷刺意義的結尾。
首先是ChatGPT給出的版本:
接下來是"通義千問"給出的版本:
從多個實測問題來看,"通義千問"的表現不能令人完全滿意,回答問題時也會出現"一本正經胡說八道"的情況,但它的表現并沒有想象中的那么差,甚至在部分場景中會讓人眼前一亮。
正如市場上之前對百度"文心一言"展現出的包容:人工智能及其衍生的AIGC十分重要,無論國內做得如何,都得先有產品出來。不論是"文心一言",還是"通義千問",都不需要碾壓ChatGPT,更不用說參數量更大的GPT-4,只要能做到超過及格線,就很不錯了,畢竟這才是第一代產品。
隨著后續公測開啟,"通義千問"應該會隨著用戶的測試而逐漸學習得以改進,還是值得期待的。
標簽:
-
07
2023-04全球關注:羅弗敦群島是哪個國家
羅弗敦群島是挪威王國的,它位于挪威諾爾蘭郡,是挪威王國內部的一個群島。羅弗敦群島是在冰川作用下形成的島嶼,整個島嶼由伊姆綏、西沃格、 -
07
2023-04冠盛股份(605088):第二次董事會會議決議,審議《關于擬使用閑置自有資金委托理財的議案》
4月7日,冠盛股份公告顯示,公司第二次董事會會議于2023年4月7日以現場結合通訊的方式召開,會議通過了《關于擬使用閑置自有資金委托理財的議 -
07
2023-04大連開寶馬撞人致5死案司機劉東被執行死刑
經最高人民法院核準,2023年4月7日,遼寧省大連市中級人民法院依照法定程序對罪犯劉東驗明正身,押赴刑場,執行死刑。檢察機關依法派員臨場監 -
07
2023-04【全球熱聞】我的完美女友何雨晴貼吧_我的完美女友何雨晴
1、 我對樓上最后的說法不敢茍同我覺得這部小說最后的結尾才是真正的亮點。2、仁者見仁,智者見智是我對這小說結 -
07
2023-04太陽電纜(002300),MACD指標DIF線上穿0軸,技術指標上后市看多(04月07日)
資金流向數據,主力資金凈流入1050 15萬元,占總成交額35%,其中超大單凈流入630 37萬元,大單凈流入4 -
23
2023-0311年后《CSGO2》終于官宣 畫質大幅提升夏天免費升級
對于喜歡CS反恐精英游戲的玩家來說,《CSGO》網游是單機最好的繼承,然而它都是2012年發布的了,現在11年后《CSGO2》終于官宣了,Valve對游 -
22
2023-03Note12Turbo已上架開啟預約 影像模組采用無框鏡頭設計
3 月 22 日,Redmi 紅米手機官宣,Note 12 Turbo 定檔 3 月 28 日,并表示 Turbo 產品是 小金剛家族全新成員,定位在 Pro -
21
2023-03史上最強驍龍7系平臺來了!Redmi12Turbo即將發布
將于本月發布的Redmi Note 12Turbo帶來新的官宣,這款手機將在處理器和屏幕方面進行升級,將會帶來多項同級別產品所沒有的驚喜和改進。在 -
20
2023-03IcyDock推出了CP130 單反相機和攝像機轉換器
有沒有希望你能在你的單反相機或攝像機上使用最好的SSD?Icy Dock推出了CP130,一個整潔的適配器,作為單反相機和攝像機的轉換器,通過CFEx -
10
2023-03蘋果正在準備更完美的iPhone 將配備真正的全面屏
蘋果正在準備更完美的iPhone,其將配備真正意義上的全面屏。消息稱,蘋果遲遲沒有推出無劉海的iPhone,主要是真全面屏研發工作進展不順利, -
15
2023-02傳iPhone15Pro將擁有更窄的邊框 2023年秋季發布
一位通常準確的消息人士再次強調了他們之前關于iPhone15 Pro將擁有更窄的邊框的報告,盡管沒有透露任何新的細節。預計iPhone 15 Pro將于 -
14
2023-02中正評測曝光RTX4060跑分 性能比3060強太多
近日,數碼博主中正評測曝光了RTX4060的跑分成績。據悉,這次測試采用的是搭載i9-13900HX處理器的雷神ZERO。硬件方面,RTX 4060擁有3072個


蘋果考慮將iPhone系列進一步延伸 2024年上市?

卷出一塊好曲屏 真我10系列新品發布會舉行
英國猴痘病例數預計將大幅上升
上海:視情適當延長畢業生在校生身份時間
國家電網確定新型電力系統科技攻關十大重點項目
比亞迪發布CTB電池車身一體化技術
商務部:堅定致力于實現全面、高水平的亞太自貿區
中辦國辦印發《意見》 推進實施國家文化數字化戰略
初夏看市場:“菜籃子”產品生產供應充足 蔬菜在田面積達9877.2萬畝
上海浦東重點生產企業復工復產超1100家
-
1
Intel最新處理器Arrow-S曝光 最高可達24核
-
2
配置拉滿的電競神機 雷神ZERO2023大黃蜂發布
-
3
真我10Pro系列發布 首發量產2160Hz超高頻調光技術
-
4
阿富汗塔利班組建正規軍
-
5
薩赫勒地區反恐形勢面臨新變數
-
6
北約北擴加劇歐洲安全風險
-
7
貴州畢節七星關區百所學校創辦百個“紅軍班”
-
8
湖北省孝感軍分區組織軍地聯合應急救援研究性演練
-
9
青藏高原等區域將新設一批國家公園
-
10
河北省承德軍分區退役軍人擔綱教練主力