所有語言
分享
文章來源:量子位
“2024年上半年對標GPT-4”,這是23年科大訊飛全球1024開發者節現場給出的承諾。
今天,2024剛開年,訊飛星火就迎來重大升級:
尤其在語音交互功能上,超逼真的真人語音生成,直接讓線上網友驚嘆三連:
還有更多實用功能,比如現場幾十秒的時間生成22頁PPT!這速度,很快啊……
而圍繞着這個大模型底座,科大訊飛還有一攬子產品和場景應用輸出。
從基礎模型到應用場景,下面一起來看。
訊飛星火V3.5除了七大能力全面提升,整體能力接近GPT-4,還特別在語言理解、數學等能力上實現超越。
尤其對中文的理解更佔優勢,具體數據對比如下:
……
如果看數據圖表還不夠直觀,我們也提前實測了一番。
就拿此次網友最為稱道,也是本次更新最大的亮點——全語音交互,不是語音消息那樣一條一條的,而是像打電話一樣實時交互。
星火這一波應對得怎麼樣,算不算得上高情商?
要注意視頻沒有做加速處理,訊飛星火V3.5的語音響應就是這麼快,與ChatGPT的語音交互相比,省去了大量“等待AI思考”這個環節,整個對話過程更流暢。
“聆飛逸”、“聆小玥”分別對應男女聲兩種音色,可自由切換。在音色自然,還像人一樣時不時有停頓、“嗯……”等語氣詞。
在有感情,擬人度等方面,對比ChatGPT的“Ember”、“Juniper”音色也不遑多讓。
在交互模式上還設計了“一鍵打斷”功能,避免AI生成在一輪對話中內容過長。
打斷後,可繼續提問下一個問題,也可以直接“掛斷”語音,切回到文字模式,看到剛剛整個對話過程的文字版。
除此之外,在其他能力表現上,我們先用一個經典挖坑題來考驗。
結果訊飛星火V3.5不但回答了最後的問題,還沒有被前面無關的信息繞進去,每一個不合理之處都被揪出來了。
做到這一點不僅需要推理問題中的文字邏輯,還要結合大模型在訓練階段學到的關於現實世界的知識。
對比GPT-4,除了格式不同,推理能力、知識水平可以算是在一個level了。
另外也可以推測,由於要兼顧語音表現,訊飛星火的回答總是一串連貫的句子,而GPT-4更注重視覺排版。
時效性方面,提問最新網絡流行梗,星火也是能跟得上潮流的。
相比之下,GPT-4現在雖然默認也有聯網功能,但不經特意提醒不會意識到回答這個問題需要聯網搜索,而是開始了傳統藝能“一本正經瞎編”。
而在更實用場景功能升級,比如學習、辦公等場景,也是訊飛星火一直以來的迭代重點。
比如在知識學習和內容創作方面。
發布會現場,只截取一段簡單的新聞,就能提出問題,並且根據問題進行回答。
關鍵的是,裏面回答的內容原文並沒有。但它卻能根據問題旁征博引、擴充內容。
在PPT創作上,在確定主題、提綱以及內容的過程中,可以隨時補充內容、精準生成。
而在更多像工業、數智化的生產力場景中,對大模型的邏輯推理、空間理解、多模態等方面的能力都提出了更大的考驗。
此次星火V3.5也得到了一定的增強。
比如在多模態和空間理解能力上,只給了一張圖,也沒有更多提示(只說分析這張圖片)。結果它直接判斷:這是一個室內平面布局圖,並且進一步準確給出房間、家居位置。
除此之外,還可以幫忙設計裝修圖,並且根據自己的需求精細可控。
ps.你能看出這兩個有什麼不同嗎?(提示:看後面的風格畫)。
總的來說,訊飛星火V3.5這次升級,在模型基礎能力、實用性、交互模式上都有提升,也帶領中國大模型行業進一步朝世界先進水平看齊。
不過在這幕後,還有一件更值得關注的進展。
這次訊飛星火V3.5能力升級,同時也是“飛星一號”平台能力的首秀。
這是訊飛與華為共建的大模型算力平台,基於華為昇騰生態,實現了純國產化算力。
在“飛星一號”平台首次對外宣布之時,劉慶峰曾表示“中國現有的大模型跟GPT4比還有差距,所以我們必須正視今天和GPT4的差距,找到差距所在。”
如今在“飛星一號”平台正式投入使用后,這個差距正在逐漸縮短。
不僅如此,一個完全國產化、自主可控的算力底座,在保障網絡信息安全基礎上,還能更好地滿足國內各行各業的需求,以及支持開發者、高校、企業更好自主研發。
憑藉此算力底座,除了訊飛星火V3.5,這次一同出爐的還有國產首個語音大模型。
藉助基礎大模型以及國產算力平台,此次科大訊飛在技術和生態層面,還有一攬子成果輸出。
技術方面,首個語音大模型的發布。
在語音技術上深耕二十餘年的科大訊飛,它認為大模型給語音技術發展,包括語音合成、識別、多語種等方面帶來了全新的機會。
不同於常規的語音大模型,訊飛的語音大模型將更多語音表徵解耦,融入到大模型預訓練中,比如語種表徵、內容表徵、韻律表徵、音色表徵。
在多語種識別中,在首批37個主流語種效果超過OpenAI Whisper 3。
並且在多語種語音生成、超擬人語音生成上,也有一定的提升。
目前語音大模型已經向開發者完全開放,並且首發搭載在訊飛翻譯機上面。
除此之外,還首次發布了星火開源大模型“星火開源-13B”。據介紹,此次深度適配國產算力,並且也在昇思社區上發布,助力開發者、高校、企業自主研發。
而在應用生態層面,此次同樣也乾貨滿滿。
作為擁有超過全球590萬開發者生態的訊飛,繼續發揮着自己的場景勢能——以大模型之力,持續在千行百業中落地。
以最典型的教育場景為例。
具體在教育場景上,此次訊飛星火智慧黑板有了一定升級。
劉慶峰認為,作為改變人類未來生產生活方式的重大技術突破,優先應該為孩子賦能、為教育賦能。
老師一聲上課,訊飛星火智慧黑板就開始工作。
不管是數學、化學,立體幾何還是化學方程式,只需在黑板上畫一下,就能識別成書面格式,並且支持編輯。
比如現場畫個苯酚,結果它秒秒鐘識別,並且推薦出視頻科普課程。
還能使用虛擬人,輔助老師授課。
一節講完,它還能自動存下來,課程實錄、視頻切片等內容都有,可以隨時回顧重點。
除此之外,還有在保險、銀行、能源、汽車、通信等方面的合作進展。
發布會現場,中國移動攜手訊飛星火推出5G新通話創新應用“商務速記”,能夠實現通話語音同步紀要,關鍵事項精準提煉,且無需下載APP,所有手機都支持。
其中,值得一提的是,在農業領域,科大訊飛同安徽省農業農村廳聯合打造“耕雲農業大模型”,並被寫入安徽省政府工作報告之中。
據介紹,在最新的安徽省政府工作報告中, “訊飛星火”還被評價道:科技創新實現新突破。訊飛星火認知大模型處於全國領先水平。
能得到這種自上而下的關注和協同合作,國內並不多見。
這與科大訊飛本身在大模型生態影響力不無關係。截至目前,訊飛星火積累了這樣一份成績單。
要知道獲得這樣成績的訊飛星火,距離首次發布並不足一年。
一方面,再次印證了大模型作為基礎技術底座,持續釋放在千行百業的應用潛力,而且迭代和落地速度只會越來越快。
去年十月,國務院發展研究中心下屬的國研經濟研究院開展了一項大模型行業應用能力測評研究。測評報告中显示:
星火大模型V3.0在醫學、法律、教育、零售、汽車工程、計算機和工業設計平均準確率達72.3%,在所有測評行業中表現均優於GPT3.5版,並且與GPT4.0各有優劣。
而除了在行業場景中的生產勢能外,此次國產語音大模型的發布同樣值得關注。還記得GPT系列大模型剛出現時,關於各種技術「不存在了」的討論此消彼長。
作為AI語音龍頭,科大訊飛首次實踐證明:藉助大模型來推動自身語音技術積澱達到新的高度,繼續引領語音技術發展。
經歷了2023年的百模大戰,2024整個行業來到一個新的階段。
作為國內大模型的代表玩家,科大訊飛整場發布會看下來,能看到窺見到以下三點關鍵趨勢:
基礎技術層面,推理、多模態能力成為大模型技術升級的重點攻堅方向。
此次訊飛星火V3.0的升級方向,與前段時間奧特曼劇透GPT-5有不少相似之處。
此前在奧特曼對GPT-5的零星劇透來看,推理能力是重點提升方向,尤其在代表用戶處理通用任務方面有重要進步。
很快就可以問AI,我今天最重要的郵件是什麼?
在產品功能上,“應用戶強烈要求”,奧特曼正在考慮給ChatGPT添加視頻能力,以及給語音功能提供更好的語音質量。
企業層面,大模型只是基礎底座,技術公司能夠借大模型來帶動自身技術升級和發展。
已經明顯感知到的是,當下很多討論的技術都有一個共性,就是它並非突然湧現,而是往往存在已久,終於來到了產業大規模應用的拐點。
因此對於技術公司來說,持續保持對新技術的感知和投入,其實就能快速部署應用,幫助自身技術布局和發展。
前段時間,Meta小扎官宣“All in 開源AGI”,但實則同此前元宇宙的布局並不衝突,他們將藉助大模型,進一步推進雷朋Meta智能眼鏡為代表AI新型計算設備的升級。
生態層面,大模型的開放性和可擴展性正在成為推動行業生態繁榮的關鍵因素。
訊飛星火正吸引着更多的開發者和合作夥伴,促進技術的快速迭代和創新。基於大模型構建出各種行業應用,形成一個多元化的應用生態。這種生態的構建,有助於形成良性的技術競爭環境,推動整個行業的技術進步和應用場景的拓展。
因此我們能看到,訊飛在教育、醫療等多個垂直領域的深入應用,這些領域的應用不僅能夠解決實際問題,還能夠反過來進一步為大模型提供豐富的數據支持,進一步優化模型性能,實現升級迭代的正向循環。
這也是訊飛一次次敢於在重要時間節點提前“立下Flag”,又能準時帶着最新進展回來兌現承諾的底氣所在。
這一次,劉慶峰再次立Flag:今年上半年達到GPT-4現在水平。
而更長期的目標在於通用大模型持續對標、行業應用實現超越、自主可控生態繁榮。
2024年才剛剛開始,對於這一年以訊飛星火為代表的AI技術又將給人們生活帶來哪些變化,你怎麼看?