所有語言
分享
原文來源:GenAI 新世界
作者|李禾子
圖片來源:由無界 AI 生成
今年下半年以來,快手正在頻頻發力大模型業務。
GenAI新世界第一手獲悉,快手在AIGC領域的最新進展——自研文生圖大模型“可圖”(Kolors)已在公司內部全面開啟內測。
繼上個月推出大語言模型“快意”(KwaiYii)后,快手在不到一個月的時間內,又推出了文生圖大模型“可圖”(Kolors),在大模型業務方面繼“文生文”之後又補上了“文生圖”這塊版圖。
GenAI新世界從可圖項目組研發成員側了解到,“可圖”文生圖大模型有着三個突出特點,分別是強大的文本理解、豐富的細節刻畫,以及多樣的風格轉化。
而從“可圖”大模型內部平台測試版的首頁排布可以看出,它已經擁有了成熟的產品雛形。
“可圖”大模型內部平台測試版首頁
儘管“可圖”大模型尚未開啟外部測試,它的具體表現我們依然可以從快手App两天前上線的“AI玩評”功能中略知一二。
“AI玩評”已於9月15日在快手主站開放內測,由“可圖”文生圖大模型提供技術支持。
就在我們以為這又是一個單純面向短視頻創作者的文生圖工具、會出現在視頻編輯後台時,快手卻頗讓人意外地把“AI玩評”功能放在了評論區。
也就是說,以後你在某個短視頻下評論,可能不再需要煞費苦心去找適合的圖片/表情包了,快手直接就能為你生成一張。
在“AI玩評”上線當天,獲得測試資格的用戶已經開始在快手官方的評論區開始了“許願式”留言。
GenAI新世界也在第一時間獲得了內測資格,下面就來看看我們的一手體驗。
首先在快手App打開任意一條視頻的評論區,找到評論輸入框右側的“AI”按鈕,就可以很方便地進入“AI玩評”的功能界面。
生成圖片的前提是需要先輸入一段至少六個字的文字,輸入后右側的AI圖標就會自動亮起,告訴你可以開始生成。
先來試試一些比較常規的描述看它能不能聽懂,比如輸入“陽光照耀的沙灘,一個小孩在海邊玩耍”。
幾秒之後下方就會出現一組AI生成的圖像,每張都標註了不同的風格,包括了新海誠、像素畫、寫實動漫、國風、賽博朋克和皮克斯等等,據說有十幾種。如果對生成的幾組圖不滿意,還可以點右上角的“換換看”重新生成一組。
從生成的圖像來看,理解還是挺到位的。
再輸入幾句中國古詩句,它竟然也聽懂了:
從畫面的細節來看,不管是恭弘=叶 恭弘片和花瓣的細微紋路,還是根根分明的花蕊,難得能處理得不錯(恭弘=叶 恭弘片外圍的枯邊也體現出來了)。
據說快手AI研究團隊更改了去噪算法的底層公式和加噪公式,同時精選了一批高細節、高美感的優質數據,在模型學習的後期進行有側重學習。能讓生成圖片的細節紋理更豐富,想必也與此有關。
我們再來輸入一些中文語境下有着特定含義的詞組:
也不錯,至少沒有把魚香肉絲畫成一隻魚加一片肉,隔着屏幕也聞到了麻婆豆腐的辣味(上面甚至還撒了蔥花點綴)。
它甚至能聽懂什麼是乾飯人(“乾飯”本來是西南官話方言):
“可圖”大模型對中文表達的理解從一開始可以說就被納入了考慮。
據快手研發人員透露,快手AI有着數十億的圖文訓練數據,這些數據來自開源社區和自研AI技術合成,並且覆蓋了常見的三千萬中文實體概念,在此基礎上訓練研發了一個強大的中文CLIP模型。
自研的中文LLM加上融合CLIP的圖文特徵作為文生圖的文本理解模塊,讓“可圖”大模型能更好地理解中文特色概念,減少了複雜概念、屬性混淆等文生圖領域常見問題。
不過,既然是把“AI玩評”的功能放在了評論區,也要來看看它在評論場景下錶現如何。
蹭個熱點,輸入描述心情的“搶不到火車票非常沮喪”,“AI玩評”還是生成了一些比較能反映這種情緒的有趣圖像:
而當我輸入那句表情包里經典的“我聽不懂,但是我大受震撼”,發現還是生成的簡筆畫風格和新海誠風格表現最貼切(最受歡迎的生成風格預定?):
整體體驗下來,“AI玩評”還是有可圈可點的地方,當然前提依然是能用合適的prompt,以及是比較常見的描述來提示AI。而如果考慮到網友們在評論時自由表達心情和口語化的普遍特點,這一功能依然可以做許多探索。
從“AI玩評”功能其實能看出一部分快手對於大模型應用的思考,也就是——非常強調“落地”。
不同於早前很多致力於打造通用大模型產品的公司,快手這樣短視頻內容社區,在大模型產品功能的研发上要更重視和社區的結合,在乎的是用戶是不是能真正用到。
就像8月依託“快意”大模型推出的“AI對話”功能,有一部分是基於搜索場景,能讓用戶更便捷精準地找到平台上的內容(在給出答案的同時也會附帶相關視頻、百科的鏈接),服務用戶的思路同樣也延續到了“AI玩評”。
至於為什麼把“可圖”大模型在快手站內首先落地到評論區,快手的官方回答是,
“快手應用的累計互關用戶對數超過311億對,同比增長近50%,日均互動(包括點贊、評論和轉發等)總量達80億次。有較強用戶粘性的短視頻評論區成為AIGC能力最佳的落地應用場景之一……(花時間和精力找配圖)在很大程度上抑制了用戶發布評論的意願,AI玩評能夠極大提升用戶參与評論的积極性和滿意度。”
當然,既然將“可圖”大模型做成了產品,背後可能還承載着快手更大的野心。
今年5月的一季度財報電話會上,快手CEO程一笑第一次向外界透露了快手大模型業務的進展:已組建大模型研發團隊,並依託過去在AIGC算法和大規模語言模型方面的技術積累,按計劃推進大模型開發和訓練。
兩個月後,快手在7月8日宣布開始內測“搜索智能問答產品”,拉開了大模型應用落地的序幕。
隨後就是較為密集的產品及功能發布:8月8日快手開始“AI對話”功能內測,8月21日大語言模型“快意”開啟內測,9月15日主站內測“AI玩評”功能,直到今天“可圖”文生圖大模型浮出水面……
值得注意的是,快手曾在今年8月10日、面向平台創作者舉辦的光合創作者大會上第一次正式且較為詳盡地介紹了其大模型業務的進展。
針對此前一直向外界透露甚少的大模型業務,快手在這次大會上一口氣公布了了多項進展。其中就包括了文本、圖像、視頻乃至3D素材和音樂音頻生成的多種能力,覆蓋了視頻創作的創意激發、素材挖掘及剪輯製作各個環節,同時還針對直播場景重點介紹了快速製作屬於用戶自己的孿生数字人的解決方案“快手智播”。
甚至這場一年一度的大會本身,包括海報和嘉賓出場方式等等,也罕見地充滿了AIGC的元素。
選擇從零開始自研大模型的快手,不知不覺已經積累了許多,慢慢搭建起它口中的“全模態大模型AIGC解決方案”。
所以到這次推出“可圖”大模型,快手可以說也是有備而來。
雖然今年以來國內各大公司都開始陸續推出各自的大模型產品,但就內容公司來說,我們似乎還沒有看到過一款能真正讓人印象深刻的產品,如何能在訓練出一個靠譜大模型的基礎上探索出更多屬於內容公司的新玩法,想想還是挺讓人期待的。