最近禁止白嫖的禁止將收據(jù)訓(xùn)公司還挺多,繼 Reddit 宣布調(diào)整 API 計(jì)劃并要求訓(xùn)練 AI 的白嫖公司必須簽訂單獨(dú)的商業(yè)協(xié)議才能獲取 Reddit 的數(shù)據(jù),獲取的知名站蘇州吳江(大圈)外圍聯(lián)系方式vx《749-3814》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)數(shù)據(jù)可以用于商業(yè)目的包括訓(xùn)練 AI 模型,之前 Reddit 并未限制這種商業(yè)目的程序的數(shù)據(jù)使用。
今天另一個(gè)大型網(wǎng)站 Stack Overflow 也宣布了類似的員問政策,Stack Overflow 是答網(wǎng)點(diǎn)網(wǎng)程序員圈子里最知名的網(wǎng)站之一,是費(fèi)提聚焦于技術(shù)開發(fā)的問答網(wǎng)站,上面有各種代碼類、供數(shù)技術(shù)類的練AI藍(lán)蘇州吳江(大圈)外圍聯(lián)系方式vx《749-3814》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)提問和高質(zhì)量的回答。
顯然對(duì)于 AI 公司來說 Stack Overflow 的禁止將收據(jù)訓(xùn)數(shù)據(jù)肯定是個(gè)寶庫,上面數(shù)以億計(jì)的白嫖提問 / 帖子不僅可以訓(xùn)練 AI 的語言能力,還可以訓(xùn)練編程能力。知名站只不過后來者不能再白嫖了,程序必須付費(fèi)才能使用。員問

Stack Overflow 將在今年年中推出適用于大型 AI 開發(fā)公司的專屬 API,要開通該 API 并用于模型訓(xùn)練需要付費(fèi),具體費(fèi)用未知,不過付費(fèi)套餐包括 5000 萬條提問 / 回答,這個(gè)數(shù)據(jù)量對(duì)模型訓(xùn)練來說也是至關(guān)重要的。
Stack Overflow 首席執(zhí)行官 Prashanth Chandrasekar 表示:為 LLMs 提供動(dòng)力的社區(qū)平臺(tái)絕對(duì)應(yīng)該因其貢獻(xiàn)而獲得補(bǔ)償,這樣像我們這樣的公司就可以重新投資我們的社區(qū),繼續(xù)讓社區(qū)蓬勃發(fā)展。
Prashanth Chandrasekar 將付費(fèi) API 計(jì)劃描述為確保該網(wǎng)站能夠吸引用戶和是保持高質(zhì)量信息的關(guān)鍵,這反過來也有助于未來的 LLMs 訓(xùn)練。
此外 Prashanth Chandrasekar 還強(qiáng)調(diào)任何開發(fā)者現(xiàn)在都可以通過 API 抓取 Stack Overflow 上的內(nèi)容,但是!LLM 開發(fā)者已經(jīng)違反了服務(wù)條款,正如 Stack Overflow TOS 所說,該網(wǎng)站提供的所有內(nèi)容均采用知識(shí)共享許可,這意味著使用數(shù)據(jù)必須注明來源且開源。
而 AI 公司向客戶銷售他們的模型時(shí),他們無法將數(shù)據(jù)歸因于具體的問題和答案因此無法提及對(duì)應(yīng)的帖子和作者,所以這是違反知識(shí)共享許可的。(言外之意就是諸如 OPENAI、微軟、谷歌等公司實(shí)際上都是侵權(quán)的)