所有語言
分享
文章來源:有新Newin
近日,外媒報道了 OpenAI 在開發最新模型遇到困難,研究人員通過 Whisper 語音模型轉錄了超 100 萬小時的 Youtube 視頻來訓練 GPT-4 模型。
據悉,一些 OpenAI 員工討論此舉可能違反 YouTube 的規則,因為 Google 旗下的 YouTube 禁止將其視頻用於“獨立”於 Youtube 平台的第三方 App。儘管存在這種擔憂,OpenAI 團隊最終轉錄了超過 100 萬小時的 YouTube 視頻,而這項工作包括了 OpenAI 總裁 Greg Brockman 的直接參与,他親自幫助收集了這些視頻。
此外,OpenAI 在 2021 年就已經耗盡了有用的數據供應,並在耗盡其他資源后討論了轉錄 YouTube 視頻、播客和有聲讀物,並在那時就已經用數據訓練了模型,這些數據包括來自 Github 的計算機代碼、國際象棋走棋數據庫和來自 Quizlet 的作業內容。
調查显示,為了獲取這些數據,包括 OpenAI、Google 以及 Meta 在內的科技公司紛紛走捷徑,無視公司政策,並討論違反法律。例如,Meta 公司的經理、律師和工程師去年討論了收購 Simon & Schuster 出版社以獲取長篇作品的可能性,他們還決定從互聯網上收集受版權保護的數據,即使這意味着面臨訴訟風險。
YouTube 於上周四表示,如果 OpenAI 在未經許可的情況下使用其視頻來開發人工智能視頻生成器 Sora,將違反 YouTube 的規則。YouTube CEO Neal Mohan 在接受彭博社採訪時表示,Google 可能已經使用 YouTube 數據來訓練其旗艦對話 AI 模型 Gemini,以符合其與內容創作者簽訂的許可合同,而 OpenAI CTO Mira Murati 3 月在接受採訪時表示她不知道 Sora 是否接受過 YouTube 視頻訓練。
理論物理學家 Jared Kaplan 在 2020 年發表的一篇具有開創性的論文強調了大量數據對訓練 LLM 性能的重要性。OpenAI 和其他公司正在探索如何使用兩個不同的 AI 模型合作生成更有用、更可靠的合成數據,以克服數據短缺的挑戰。
OpenAI 發言人 Lindsay Held 在一封电子郵件中表示,OpenAI 為其每個模型策劃了“獨特”的數據集,以“幫助他們了解世界”並保持其全球研究競爭力,OpenAI 使用“眾多來源,包括公開數據和非公開數據的合作夥伴”,並且正在考慮生成自己的合成數據。
Meta 同樣也遇到了訓練數據可用性限制,其 AI 團隊討論了在努力追趕 OpenAI 的過程中未經許可使用版權作品的情況。Meta 在瀏覽了“互聯網上幾乎可用的英語書籍、散文、詩歌和新聞文章”后,考慮採取一些措施,例如支付圖書許可費用,甚至直接收購一家大型出版商。在劍橋分析醜聞發生后,Meta 做出了以隱私為中心的變革,因此它使用消費者數據的方式顯然也受到了限制。
從互聯網上公開抓取大量數據來訓練 AI 模型的做法仍然引發了一波版權訴訟和監管壓力,同時促使一些媒體網站通過添加代碼以阻止抓取。反過來,科技公司也在通過一系列數據交易來避免法律以及道德的影響。例如,通過與內容所有者的交易以及為滿足需求而出現的數據經紀人行業的興起來保障數據供應鏈。
在 ChatGPT 上線后的幾個月內,包括 Meta、Google、Amazon 以及 Apple 在內的科技巨頭都與股票圖片提供商 Shutterstock 達成了協議,使用其圖庫中的數億張圖片、視頻和音樂文件進行訓練。
據悉,與這些大型科技公司的交易最初範圍在 2500~5000 萬美元之間。Shutterstock CFO Jarrod Yahes 表示,小型科技公司也緊隨其後。
Shutterstock 的競爭對手 Freepik 也已經與兩家大型科技公司達成了協議,以 2~4 美分每張圖片的價格授權其 2 億張圖片檔案的大部分,而 CEO Joaquin Cuenca Abela 表示,還有五筆類似的交易在進行中。
OpenAI 也已經與至少四家新聞組織簽訂了許可協議,包括 The Associated Press 和 Axel Springer 以及 Thomson Reuters。
除此之外,還有 Photobucket 這樣曾在 2000 年初達到高峰 7000 萬用戶,而至今卻不到 200 萬用戶的託管平台,由於生成式 AI 到來,而獲得新的機會。
Photobucket CEO 目前正在與多家海外科技公司進行談判,通過授權 Photobucket 130 億張照片和視頻用於訓練生成式 AI 模型,這些模型可以響應文本提示產生新內容,每張照片 0.5~1 美元,每個視頻超過 1 美元的費率,價格根據買家和所求的圖像類型而有很大差異。
目前,這個領域仍然是一個灰色市場,涉及從聊天日誌到早已被遺忘的個人照片,以及如今衰落的社交媒體應用,硅谷的科技巨頭們正在悄悄購買這些“Loggin In”登陸框背後的隱秘數據。
Reference:
https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb
https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google
https://www.theinformation.com/briefings/youtube-says-openais-use-of-its-videos-would-violate-terms?rc=z9mejq