所有語言
分享
沒想到,字節的大模型項目是被這樣曝光的。
原文來源:機器之心
圖片來源:由無界 AI生成
上周末,有外媒報道稱,字節跳動在使用 OpenAI 技術開發自有大語言模型時,因違反 OpenAI 服務條款從而遭賬號禁用。
據 The Verge 報道,字節跳動內部正在研發的大語言模型項目名為「種子計劃」(Project Seed)。
由於訓練大模型需要大量問答知識,該項目被曝出一直在秘密使用 OpenAI 的技術來充實數據集。
在大模型領域,利用其他 AI 生成的內容用於訓練的「取巧」行為雖然並不少見,但經常會被認為是一種超出底線的行為。在 ChatGPT 上,濫用 AI 生成的數據直接違反了 OpenAI 的服務條款,其規定其模型輸出不能用於「開發任何與我們的產品和服務競爭的人工智能模型」。
在 11 月 14 日 OpenAI 對於 ChatGPT、DALL・E 的條款更新中還規定了用戶:
OpenAI 對於違規用戶的處理辦法就是在通知后終止服務。
完整協議:https://openai.com/policies/business-terms
那麼,字節跳動「種子計劃」的具體內容以及如何被懷疑違反 OpenAI 使用條款的呢?
根據 The Verge 獲得的內部文件消息,字節跳動更多是在「種子計劃」的早期使用 OpenAI 的技術,並在大約幾個月前指示該團隊在模型開發的任何階段停止使用 GPT 生成的文本。大約同一時期,字節跳動發布了自有 AI 大模型豆包(Doubao)。
相關員工非常清楚自身的行為,並討論過如何通過「數據脫敏」方式來進行規避。不過他們仍然經常達到 OpenAI API 的最大訪問上限。
當地時間周五,OpenAI表示,字節跳動的賬戶已被暫停使用。
OpenAI 發言人 Niko Felix 在給 The Verge 的一份聲明中表示,「所有 API 客戶都必須遵守 OpenAI 的使用條款,以確保我們的技術得到恰當地使用。雖然字節跳動對我們 API 的使用量很少,但在進一步調查的同時,我們已經暫停他們的賬戶。如果最終發現字節跳動的使用不符合政策,則將要求他們進行必要的更改或終止他們的賬戶。」
字節跳動發言人 Jodi Seth 做出了回應,否認公司有任何不當行為,並澄清獲得了使用 GPT API 的權限。
她表示,「字節跳動已獲得微軟授權,可以使用 GPT API。GPT 生成的數據只在種子計劃早期開發中用來註釋模型,並已於今年年中從字節跳動的訓練數據中移除了。我們使用 GPT 來支持非中國市場的產品和功能,而在中國市場使用我們自研的模型來支持豆包。」
圖源:https://the-decoder.com/openai-bans-tiktok-company-bytedance-from-chatgpt-due-to-possible-data-theft/
同時,微軟發言人 Frank Shaw 也發表了一份聲明,「像 Azure OpenAI 服務這樣的 AI 解決方案是我們有限訪問框架的一部分,所有客戶必須申請並獲得微軟批准后才能訪問。我們制定標準並提供資源,幫助客戶負責任地使用這些技術,並遵守相關服務條款。我們還制定流程來檢測濫用行為,並在企業違反準則時停止他們的訪問權限。」
12 月 17 日,字節跳動相關負責人回應了機器之心的置評請求,稱公司在使用 OpenAI 相關服務時,強調要遵守其使用條款,其正與 OpenAI 聯繫溝通,以澄清外部報道可能引發的誤解。
以下是字節跳動對使用 OpenAI 服務相關情況的介紹:
1、今年年初,當技術團隊剛開始進行大模型的初期探索時,有部分工程師將 GPT 的 API 服務應用於較小模型的實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。在 4 月公司引入 GPT API 調用規範檢查后,這種做法已經停止。
2、早在今年 4 月,字節大模型團隊已經提出了明確的內部要求,不得將 GPT 模型生成的數據添加到字節大模型的訓練數據集,並培訓工程師團隊在使用 GPT 時遵守服務條款。
3、9 月,公司內部又進行了一輪檢查,採取措施進一步保證對 GPT 的 API 調用符合規範要求。例如分批次抽樣檢測模型訓練數據與 GPT 的相似度,避免數據標註人員私自使用 GPT。
4、未來幾天里,我們會再次全面檢查,以確保嚴格遵守相關服務的使用條款。
自 ChatGPT 出現以來,各大科技公司都在加緊研發能夠與之匹配的競品,不過由於面向 C 端和海外市場,面臨更多技術和法規等方面挑戰,字節對於大模型的宣傳相對低調。在今年 6 月,火山引擎發布了大模型平台火山方舟,8 月份,字節自研大模型「雲雀」通過備案,開啟了 AI 對話產品「豆包」的對外測試。
在技術和落地應用等方面,今年的生成式 AI 可謂有了飛躍式的進步,但在安全和隱私保護等問題上,目前人們仍然存在一些疑慮。
參考內容:
https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm
https://www.businessinsider.com/bytedance-openai-tech-artificial-intelligence-tiktok-sam-altman-2023-12