福利片在线一区二区,久久国产免费,欧美aa一级,日韩三级精品

AI發(fā)展:訓(xùn)練數(shù)據(jù)即將遭遇瓶頸

來源:科技日報(bào)時(shí)間:2024-12-31 19:12:21
得益于神經(jīng)網(wǎng)絡(luò)規(guī)模的擴(kuò)大以及海量數(shù)據(jù)的訓(xùn)練,人工智能(AI)在過去10年間突飛猛進(jìn)。“做大做強(qiáng)”的策略,在構(gòu)建大型語言模型(LLM)上取得了顯著成果,ChatGPT就是一個(gè)典型的例子。

然而,《自然》《麻省理工科技評論》等多家雜志網(wǎng)站指出,AI擴(kuò)展正逼近極限。一方面,AI“吞噬”著越來越多的能源;另一方面,滋養(yǎng)無數(shù)模型成長的傳統(tǒng)數(shù)據(jù)集,正被LLM開發(fā)人員過度開墾。

AI幾乎讀取了互聯(lián)網(wǎng)上的所有內(nèi)容,但仍渴望獲得更多數(shù)據(jù)。為此,開發(fā)人員必須尋找變通之道。

圖片來源:twistedsifter.com

訓(xùn)練數(shù)據(jù)即將遭遇的瓶頸已悄然浮現(xiàn)。有研究機(jī)構(gòu)預(yù)測,到2028年左右,用于訓(xùn)練AI模型的數(shù)據(jù)集典型規(guī)模將達(dá)到公共在線文本總估計(jì)量的規(guī)模。換句話說,AI可能會在大約4年內(nèi)耗盡訓(xùn)練數(shù)據(jù)。與此同時(shí),數(shù)據(jù)所有者(如報(bào)紙出版商)開始打擊對其內(nèi)容的濫用行為,進(jìn)一步收緊了訪問權(quán)限,這將引發(fā)“數(shù)據(jù)共享”規(guī)模上的危機(jī)。為此,開發(fā)人員必須尋找變通之道。

 數(shù)據(jù)集供需失衡

過去10年間,LLM的發(fā)展顯示出了對數(shù)據(jù)的巨大需求。自2020年以來,用于訓(xùn)練LLM的“標(biāo)記”(或單詞)數(shù)量已增長100倍,從數(shù)百億增加到數(shù)萬億。一個(gè)常見的數(shù)據(jù)集RedPajama,包含數(shù)萬億個(gè)單詞。這些數(shù)據(jù)會被一些公司或研究人員抓取和清洗,成為訓(xùn)練LLM的定制數(shù)據(jù)集。

然而,可用互聯(lián)網(wǎng)內(nèi)容的增長速度出乎意料的緩慢。據(jù)估計(jì),其年增長率不到10%,而AI訓(xùn)練數(shù)據(jù)集的大小每年增長超過一倍。預(yù)測顯示,這兩條曲線將在2028年左右交匯。

與此同時(shí),內(nèi)容供應(yīng)商越來越多地加入軟件代碼或修改條款,阻止爬蟲及AI抓取其數(shù)據(jù)。在這些內(nèi)容中,被明確標(biāo)記為限制爬蟲訪問的數(shù)量,從2023年的不足3%猛增到了2024年的20%至33%之間。

當(dāng)前,圍繞AI訓(xùn)練中數(shù)據(jù)使用的合法性,試圖為數(shù)據(jù)提供商爭取應(yīng)有賠償?shù)亩嗥鹪V訟正在進(jìn)行。2023年12月,《紐約時(shí)報(bào)》向OpenAI及其合作伙伴微軟提起了訴訟,指控其侵犯了版權(quán);今年4月,紐約市Alden全球資本旗下的8家報(bào)紙聯(lián)合發(fā)起了一起類似的訴訟。對此,OpenAI表示,《紐約時(shí)報(bào)》的訴訟“毫無根據(jù)”。

若法院最終站在內(nèi)容提供商一方,支持其獲得經(jīng)濟(jì)賠償,那么對于AI開發(fā)人員,尤其是那些資金緊張的學(xué)者而言,獲取所需數(shù)據(jù)無疑將變得更加艱難。

新方法有待印證

數(shù)據(jù)匱乏對AI的傳統(tǒng)擴(kuò)展策略構(gòu)成了潛在挑戰(zhàn)。

尋找更多數(shù)據(jù)的一個(gè)途徑是收集非公開數(shù)據(jù),如社交媒體消息或視頻文字記錄。然而,這種做法的合法性尚存爭議。

一些公司選擇使用自己的數(shù)據(jù)來訓(xùn)練AI模型,如Meta利用虛擬現(xiàn)實(shí)頭顯收集的音頻和圖像進(jìn)行訓(xùn)練。但各公司政策不同,包括Zoom在內(nèi)的一些公司則明確表示不會使用客戶內(nèi)容訓(xùn)練AI。

另一種選擇可能是專注于快速增長的專業(yè)數(shù)據(jù)集,如天文學(xué)或基因組學(xué)數(shù)據(jù),但其對訓(xùn)練LLM的可用性和實(shí)用性尚不清楚。

如果AI接受除文本之外的多種類型的數(shù)據(jù)訓(xùn)練,可能會為豐富數(shù)據(jù)的涌入打開閘門。Meta首席AI科學(xué)家勒丘恩強(qiáng)調(diào),人類通過觀察物體而“吸收”的數(shù)據(jù)遠(yuǎn)超用于訓(xùn)練LLM的數(shù)據(jù)量,機(jī)器人形態(tài)的AI系統(tǒng)或許能從中獲取經(jīng)驗(yàn)。

此外,制造數(shù)據(jù)也是解決之道。一些AI公司付費(fèi)讓人們生成訓(xùn)練內(nèi)容,或使用AI生成的合成數(shù)據(jù)來訓(xùn)練AI。這已成為一個(gè)潛在的巨大數(shù)據(jù)源。然而,合成數(shù)據(jù)也存在問題,如遞歸循環(huán)可能鞏固錯(cuò)誤、放大誤解,并降低學(xué)習(xí)質(zhì)量。

小模型更專更精

另一種策略是摒棄模型“越大越好”的開發(fā)觀念。一些開發(fā)者已在追求更高效、專注于單一任務(wù)的小型語言模型。這些模型需要更精細(xì)、更專業(yè)的數(shù)據(jù)以及更好的訓(xùn)練技術(shù)。

12月5日,OpenAI發(fā)布了新的OpenAI o1模型。盡管該公司未透露模型的規(guī)模或訓(xùn)練數(shù)據(jù)集大小,但o1采用了新方法:在強(qiáng)化學(xué)習(xí)上投入更多時(shí)間,讓模型對每個(gè)回答進(jìn)行更深入的思考。這標(biāo)志著一種轉(zhuǎn)變,即從依賴大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,轉(zhuǎn)向更注重訓(xùn)練和推理。

當(dāng)前,LLM可能已飽覽互聯(lián)網(wǎng)大部分內(nèi)容,或許無需更多數(shù)據(jù)即可變得更智能。美國斯坦福大學(xué)一項(xiàng)研究表明,模型從多次讀取給定數(shù)據(jù)集中學(xué)到的內(nèi)容,與從相同數(shù)量的唯一數(shù)據(jù)中學(xué)習(xí)到的內(nèi)容一樣豐富。

合成數(shù)據(jù)、專門數(shù)據(jù)集、多次讀取和自我反思等因素的結(jié)合,或?qū)⒐餐苿覣I的進(jìn)一步飛躍。

責(zé)任編輯:FD31
上一篇:國家發(fā)改委成立低空經(jīng)濟(jì)發(fā)展司
下一篇:最后一頁

    關(guān)于我們 加入我們 聯(lián)系我們 商務(wù)合作

茶葉前線  www.cyqxw.com.cn 版權(quán)所有

 

投稿投訴聯(lián)系郵箱:8 8 6 2 3 9 5@qq.com


 

福利片在线一区二区,久久国产免费,欧美aa一级,日韩三级精品
麻豆91在线播放| 久久要要av| 国产精品色网| 国产亚洲精品v| 日韩中文字幕av电影| 久久一二三区| 亚洲人www| 日本va欧美va精品| 国产精品久久久久久久免费软件| 国产精品人人爽人人做我的可爱| 午夜日韩福利| 在线成人直播| 日韩精品一级二级| 日韩高清二区| 欧美国产极品| 国产精品yjizz视频网| 蜜臀国产一区| 免费不卡中文字幕在线| 国产偷自视频区视频一区二区| 视频在线在亚洲| 91精品日本| 精品国产午夜肉伦伦影院| 日韩电影免费网站| 中文精品在线| 免费看欧美美女黄的网站| 日韩精品久久久久久久软件91| 国产精品久久| 天堂√中文最新版在线| 亚洲精品在线观看91| 亚洲婷婷丁香| 国产精品亲子伦av一区二区三区 | 日韩黄色av| 免费视频一区二区三区在线观看 | 久久久久久久久久久妇女| 欧美日韩精品一本二本三本 | 国产v综合v| 午夜在线一区二区| 国产欧美自拍一区| 人人精品亚洲| 视频在线观看一区二区三区| 欧美亚洲自偷自偷| 日韩av二区| 亚洲欧美日本视频在线观看| 日韩国产在线一| 卡一卡二国产精品| 国产精品7m凸凹视频分类| 日本不卡在线视频| 伊人久久国产| 亚洲最新av| 三上亚洲一区二区| 免费日韩av片| 国产一区二区三区天码| 免费国产自久久久久三四区久久 | 日本精品黄色| 亚洲伊人精品酒店| 久久三级毛片| 99在线精品视频在线观看| 亚洲精品动态| 91av亚洲| 日韩av一区二区三区四区| 久久久久久久久久久9不雅视频| 日韩高清三区| 欧美成人高清| 国产精品久久久久久久久久久久久久久 | 日本欧美一区二区| sm久久捆绑调教精品一区| 亚洲制服一区| 日韩一区欧美| 日本不卡的三区四区五区| 九色porny丨国产首页在线| 日本免费在线视频不卡一不卡二| 日韩大片在线观看| 欧美在线看片| 午夜精品影院| 国产一区不卡| 97精品国产99久久久久久免费| 99久久99视频只有精品| 久久国产精品美女| 蜜臀精品久久久久久蜜臀| 日韩欧美另类一区二区| 久久精品xxxxx| 亚洲欧美日韩国产| 日韩在线不卡| 欧美黑人巨大videos精品| 中文不卡在线| 久久精品导航| 国产一区二区视频在线看| 91嫩草精品| 在线看片日韩| 亚洲一区激情| 激情五月色综合国产精品| 丝袜诱惑一区二区| 欧美精品不卡| 日韩和欧美一区二区三区| 日韩一区二区免费看| 三上悠亚国产精品一区二区三区| 精品国内亚洲2022精品成人| 亚洲理论在线| 亚洲免费精品| 亚洲国产专区校园欧美| 成人国产精选| 免费一级欧美片在线观看网站| 日本综合精品一区| 在线精品一区二区| 天使萌一区二区三区免费观看| 蜜桃tv一区二区三区| 久久免费大视频| 日韩中文影院| 中文在线免费视频| 在线看片国产福利你懂的| 电影91久久久| 国产suv精品一区二区四区视频| 国产伦理一区| 国产日韩欧美一区在线| 欧美日韩精品一区二区三区视频| 日韩三级一区| 日韩av不卡一区二区| 日本三级亚洲精品| 欧美影院精品| 国产剧情在线观看一区| 日韩国产精品久久久| 欧美自拍一区| 国产精品夜夜夜| 国产精品第一国产精品| 国产精品第一国产精品| 欧美成a人片免费观看久久五月天| 日韩精品久久理论片| 日韩精品成人在线观看| 日韩美女精品| 国产精品网址| 精品欧美日韩精品| 日韩大片在线| 不卡一区2区| 午夜在线观看免费一区| 亚洲欧美久久精品| 国产私拍福利精品视频二区| 国产精品1区在线| 国产成人精品亚洲线观看| 亚洲一区资源| 蜜桃tv一区二区三区| 亚洲一区二区免费看| 涩涩涩久久久成人精品| 国产欧美亚洲精品a| 老司机精品视频网| 亚洲91视频| 蜜乳av另类精品一区二区| 日本成人中文字幕在线视频| 麻豆视频一区| 99精品综合| 亚洲精选成人| 欧美激情视频一区二区三区免费 | 九九久久国产| 午夜精品成人av| 欧美日韩一二三四| 亚洲自拍另类| 欧美日韩一区二区三区四区在线观看| 久久超级碰碰| 色爱av综合网| 亚洲一区二区三区在线免费| 欧美亚洲免费| 蜜臀国产一区| 亚洲综合色婷婷在线观看| 久久精品 人人爱| 成人在线视频中文字幕| 狠狠干综合网| 国产亚洲一区二区三区啪| sm捆绑调教国产免费网站在线观看| 九色精品91| 欧美日韩亚洲国产精品| 成人欧美一区二区三区的电影| 在线视频精品| 国产精品大片免费观看| 国产91精品对白在线播放| 亚洲精一区二区三区| 加勒比视频一区| 久久国产精品久久久久久电车| 国产日韩欧美一区二区三区 | 久久久久久亚洲精品美女| 久久精品成人| 91午夜精品| 亚洲国产专区校园欧美| 97成人在线| 一区二区三区四区在线看| 天海翼精品一区二区三区| 国产精品福利在线观看播放| 亚洲欧美视频一区二区三区| 美女视频网站久久| 欧美va天堂| 欧美精品中文| 美女网站一区| 久久久久亚洲精品中文字幕| 9色精品在线| 国产成人77亚洲精品www| 免费观看在线综合色| 久久男人av资源站| 97成人在线| 国产模特精品视频久久久久| 精品国产精品久久一区免费式 | 亚洲日本在线观看视频| 日韩国产专区|