【全國政務(wù)服務(wù)網(wǎng)辦事大廳入口】>>> 【全國公司簡(jiǎn)易注銷公告登記入口】>>> 【全國企業(yè)年報(bào)網(wǎng)上申報(bào)公示入口】>>> 【全國市場(chǎng)監(jiān)督管理局信息查詢】>>> 【全國辦稅服務(wù)廳地址電話信息查詢】
AI爬蟲已成為這個(gè)時(shí)代的數(shù)字蝗蟲,傳統(tǒng)網(wǎng)站深受其害 虎嗅A ? 發(fā)表于:5天前 ? 來源:虎嗅APP ? 關(guān)注:37 這是第一次,全世界最大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施公司之一,Cloudflare,開始用魔法打敗魔法,用AI來對(duì)抗AI爬蟲。 這事有意思的程度,足以載入AI發(fā)展史冊(cè)。這是一次AI領(lǐng)域的全面戰(zhàn)爭(zhēng)。 你可能現(xiàn)在還有很多疑惑,Cloudflare是什么,AI爬蟲是什么,AI迷宮又是什么,這個(gè)事到底有意思在哪。 作為這一切的開始,我想先跟你講一個(gè)故事,一個(gè)在今年1月份,發(fā)生在一個(gè)僅有7人的烏克蘭公司的故事。 這個(gè)公司叫做Triplegangers,做的業(yè)務(wù)特別簡(jiǎn)單,就是賣人的3D數(shù)字模型。 Triplegangers專注于銷售“人體的數(shù)字孿生”模型素材,這些高清3D模型照片來自真實(shí)人類掃描,價(jià)值巨大。 創(chuàng)始人Tomchuk對(duì)自己公司的業(yè)務(wù)一直很滿意,公司雖然不大,但這是他最喜歡的事情。 這個(gè)網(wǎng)站一共有65000個(gè)產(chǎn)品頁面,每個(gè)產(chǎn)品的頁面至少放著三張高清照片。每一張圖片都細(xì)致地標(biāo)注了年齡、膚色、紋身甚至傷疤。 但是,就在一個(gè)普通的周六早上,這種平靜被一場(chǎng)風(fēng)暴驟然打破。 Tomchuk收到了一條緊急通知:公司的網(wǎng)站崩潰了,因?yàn)槭艿搅舜罅康腄DoS攻擊。 他懵了,因?yàn)槠綍r(shí)也沒啥仇人,更沒啥競(jìng)品,守著自己那一畝三分地,誰會(huì)好好地來攻擊自己呢? 他驚慌失措地開始調(diào)查原因,很快發(fā)現(xiàn),居然是OpenAI的爬蟲機(jī)器人,GPTBot在攻擊他的網(wǎng)站。 GPTBot瘋狂地爬取每一個(gè)頁面,網(wǎng)站上的數(shù)十萬張照片、數(shù)十萬條描述,在短短幾小時(shí)內(nèi)被無情下載。 這些爬蟲機(jī)器人使用了整整600個(gè)IP地址,數(shù)以萬計(jì)的服務(wù)器請(qǐng)求,這種網(wǎng)站哪見過這種架勢(shì),網(wǎng)站的服務(wù)器瞬間癱瘓,業(yè)務(wù)陷入停滯。 Tomchuk人都傻了,不僅自己的數(shù)據(jù)全丟了,被OpenAI爬得干干凈凈;更糟的是,由于服務(wù)器壓力暴漲,公司還將面臨一筆巨額AWS賬單。 他們這個(gè)七人的團(tuán)隊(duì)花了十年心血,才構(gòu)建了這個(gè)龐大的數(shù)據(jù)庫,客戶遍及游戲開發(fā)、動(dòng)畫制作等多個(gè)行業(yè)。 而現(xiàn)在,啥也沒了。 更令人無奈的是,他們?cè)揪兔鞔_禁止爬蟲機(jī)器人未經(jīng)許可抓取網(wǎng)站數(shù)據(jù)。 但是因?yàn)闆]那么懂AI,也不太知道那些AI大模型公司的玩法,所以沒有嚴(yán)格配置robot.txt文件,沒有配專門告知GPTBot不要訪問該網(wǎng)站的標(biāo)簽,這基本等同于默認(rèn)允許了OpenAI的抓取行為。 關(guān)鍵是,配了GPTBot的標(biāo)簽也不夠,因?yàn)镺penAI還有ChatGPT-User和OAI-SearchBot,這兩個(gè)標(biāo)簽也要配。你甚至不知道他們還有啥。 “我們?cè)詾樵O(shè)定禁止條款就足夠了,沒想到還必須專門設(shè)定拒絕機(jī)器人的規(guī)則。” 幾天后,Tomchuk終于設(shè)置好了Triplegangers的robot.txt文件,并啟用了Cloudflare服務(wù)以屏蔽更多爬蟲。 Cloudflare大家可能沒聽過,但是大多數(shù)人應(yīng)該都見過。 就這個(gè)玩意,它會(huì)讓你在進(jìn)入某些網(wǎng)頁之前,驗(yàn)證一下你是否是人類。 不過這玩意也不是免費(fèi)的,挺燒錢的,都是成本。但是為了再防一波OpenAI那種流氓行為,他們只能啟用。 這些服務(wù)的錢都還好說,但讓Tomchuk最痛苦的是,他根本不知道OpenAI到底拿走了多少素材。 而且,Tomchuk說: “我們甚至聯(lián)系不上OpenAI,也無法要求他們刪除已抓取的數(shù)據(jù)?!?/strong> 最離譜的是,如果不是OpenAI這么貪,一次性運(yùn)行太多請(qǐng)求,直接把Triplegangers爬崩潰了,而是慢慢爬,一點(diǎn)一點(diǎn)地偷,Tomchuk可能這輩子都發(fā)現(xiàn)不了自己的數(shù)據(jù)已經(jīng)全部丟得干干凈凈了。 OpenAI的爬蟲邏輯很簡(jiǎn)單,如果你家門口沒有保安站崗,那就說明你默認(rèn)你家里的東西我都可以拿走,都是我的。因?yàn)槟銢]說不準(zhǔn)我拿,也沒設(shè)保安,所以我就可以進(jìn)門,把數(shù)據(jù)洗劫一空。 這是一場(chǎng)戰(zhàn)爭(zhēng),一場(chǎng)沒有硝煙的戰(zhàn)爭(zhēng); 一場(chǎng)關(guān)乎于保護(hù)自己財(cái)產(chǎn)神圣不可侵犯的戰(zhàn)爭(zhēng); 一場(chǎng)關(guān)乎于我們,跟這些AI公司的AI爬蟲的戰(zhàn)爭(zhēng)。 Trilegangers的遭遇并不是孤例。 在許多公司和內(nèi)容創(chuàng)作者的眼中,AI爬蟲就是這個(gè)時(shí)代的數(shù)字蝗蟲,所過之處,網(wǎng)站不堪重負(fù),數(shù)據(jù)還被洗劫一空。 去年夏天,還有一個(gè)著名的例子,來自一家非常老牌的維修教程網(wǎng)站,iFixit。 iFixit發(fā)現(xiàn),他們的網(wǎng)站也成了AI爬蟲的盤中餐。 但這一次,吃相難看的不是OpenAI,而是另一個(gè)AI王者,Anthropic公司的爬蟲ClaudeBot。 當(dāng)時(shí),iFixit的CEO怒不可遏地在社交媒體上爆料: ClaudeBot在短短24小時(shí)內(nèi)瘋狂訪問了iFixit近一百萬次。直接差點(diǎn)把他們的網(wǎng)站擠爆,觸發(fā)了所有報(bào)警系統(tǒng),迫使iFixit的運(yùn)維團(tuán)隊(duì)連夜加班處理。 更離譜的是,iFixit早就明文禁止未經(jīng)許可抓取他們的內(nèi)容用于AI訓(xùn)練,這一條清清楚楚地被寫進(jìn)網(wǎng)站使用條款,甚至特別注明“不得將本網(wǎng)站內(nèi)容用于機(jī)器學(xué)習(xí)或AI模型的訓(xùn)練”。 但是Anthropic的爬蟲明顯不care這些聲明,依舊我行我素地狂扒數(shù)據(jù)。 更讓人無語的是,這事爆了之后,有媒體去問Anthropic,對(duì)方給出的回應(yīng)幾乎和OpenAI如出一轍: 他們表示,ClaudeBot爬蟲是遵守robots.txt的,如果網(wǎng)站不想被抓,就應(yīng)該在robots文件里屏蔽Claude。 言下之意就是,iFixit你自己明明沒說啊,沒在robots.txt徹底封禁啊,我們當(dāng)然有權(quán)一直爬下去啊。 無奈之下,iFixit只好趕緊修改了robots.txt,添加了針對(duì)ClaudeBot的延遲和阻止規(guī)則。 可這件事留給業(yè)界的震動(dòng)卻揮之不去,坦率地講,連iFixit這樣熟悉網(wǎng)絡(luò)技術(shù)的知名網(wǎng)站,一開始都沒料到AI爬蟲會(huì)如此不講武德,明知道別人不情愿卻還要硬闖。 如果連老牌互聯(lián)網(wǎng)從業(yè)者都防不勝防,那其他那些沒有技術(shù)團(tuán)隊(duì)守衛(wèi)的小網(wǎng)站、小作者,又該如何招架這些竊賊? 甚至,更不要臉的是那個(gè)AI搜索鼻祖,Perplexity。 知名科技媒體《連線》(Wired)發(fā)現(xiàn),Perplexity的爬蟲不僅沒有遵守一些網(wǎng)站的robots.txt禁令,甚至?xí)噲D悄悄抓取那些明確聲明不開放給機(jī)器的網(wǎng)站。 換句話說,就是Perplexity公然無視r(shí)obots協(xié)議,偷偷攫取了本不該拿的內(nèi)容。 可能你看到這里會(huì)疑惑,robots協(xié)議是個(gè)啥。 我們把時(shí)間倒回1994年,那時(shí),網(wǎng)絡(luò)也正在經(jīng)歷爬蟲之亂。 彼時(shí),搜索引擎剛興起,一些自動(dòng)爬蟲程序在網(wǎng)上橫沖直撞,給服務(wù)器造成了不小的負(fù)擔(dān)。 于是,一位名叫MartijnKoster的荷蘭工程師提出了一個(gè)非常巧妙的主意: 網(wǎng)站管理員可以在站點(diǎn)根目錄放一個(gè)名為“robots.txt”的文本文件,提前告訴網(wǎng)絡(luò)機(jī)器人哪里可以爬、哪里不許碰。 這個(gè)提議很快得到了行業(yè)的廣泛認(rèn)可,成為互聯(lián)網(wǎng)早期一種非常純粹的“君子協(xié)定”。 根據(jù)robots協(xié)議,如果網(wǎng)站在robots.txt里標(biāo)明了禁止抓取某些內(nèi)容,那么守規(guī)矩的爬蟲就應(yīng)該乖乖止步,不去觸碰那些被列入黑名單的路徑。 這套機(jī)制在本質(zhì)上完全依賴自覺,它沒有法律強(qiáng)制力,靠的是爬蟲開發(fā)者愿意遵守規(guī)則的良知和誠意。 令人欣慰的是,在相當(dāng)長的歲月里,這種誠意基本上保持了下來。 Google、Yahoo等搜索引擎尊重robots.tx的邊界,微軟的Bing也是如此,甚至后來各式各樣善意的網(wǎng)絡(luò)爬蟲,都把不傷害網(wǎng)站、遵循站長意愿當(dāng)作職業(yè)道德的一部分。 正因?yàn)橛衦obots.txt的存在,網(wǎng)站管理員才愿意敞開大門讓搜索引擎索引內(nèi)容,他們相信敏感或不想公開的角落可以被禮貌地避開。 這份信任,構(gòu)筑了網(wǎng)絡(luò)內(nèi)容自由流通和公平利用的基礎(chǔ)。 但現(xiàn)在,這份來之不易的信任正被無情地侵蝕。 當(dāng)AI爬蟲為了填飽模型的數(shù)據(jù)需求四處出擊時(shí),又有多少AI還會(huì)真正尊重robots.txt的邊界? OpenAI、Anthropic口口聲聲表示他們遵守robots協(xié)議,但事實(shí)是,如果你沒明確寫出禁令,他們就默認(rèn)可以來拿,絲毫不考慮你是否情愿。 只要你沒用足夠堅(jiān)固的墻把我擋住,那就是你的錯(cuò),我闖進(jìn)來就理所應(yīng)當(dāng)。 這種倒打一耙的邏輯讓人憤慨之余,也透出一絲悲哀。 所以,在這種背景下,Cloudflare挺身而出,作為大多數(shù)網(wǎng)站前的守護(hù)者,他們決定用魔法打敗魔法,用AI對(duì)抗AI。 他們?yōu)檫@些AI爬蟲造了一整座AI迷宮。 因?yàn)檫^往的防御邏輯很簡(jiǎn)單,就是用驗(yàn)證直接把這些AI爬蟲攔在門外,這樣會(huì)出現(xiàn)一個(gè)問題,即反而會(huì)驚動(dòng)敵人,讓他們換個(gè)馬甲卷土重來。 比如OpenAI就有N個(gè)AI爬蟲。 所以他們?cè)谶@次更新中用了一個(gè)更陰柔的做法:放對(duì)手進(jìn)來,但是領(lǐng)著它走進(jìn)一個(gè)精心編織的虛假網(wǎng)頁迷宮。 在這個(gè)迷宮里,所有的頁面、鏈接和內(nèi)容都是AI自動(dòng)生成的,看上去像模像樣,卻全都是無意義的空城計(jì)。 那些AI爬蟲一旦被引誘進(jìn)去,就會(huì)在假內(nèi)容中團(tuán)團(tuán)轉(zhuǎn),白白浪費(fèi)計(jì)算資源和帶寬。 而這些迷宮入口對(duì)正常用戶是隱形的,真人訪客根本不會(huì)點(diǎn)擊到那些陷阱鏈接。而AI爬蟲則樂此不疲地一路追蹤下去,越陷越深,直到在虛假的信息泥潭中迷失方向。 大衛(wèi)終于也有了一塊對(duì)付歌利亞的利器。 Cloudflare他們?cè)赽log中寫道: 這是一場(chǎng)戰(zhàn)爭(zhēng),一邊是如狼似虎、到處搜刮數(shù)據(jù)的AI爬蟲大軍,另一邊則是苦苦守衛(wèi)自己數(shù)字領(lǐng)土的網(wǎng)站站長和內(nèi)容創(chuàng)作者們。 我不否認(rèn)大模型需要海量數(shù)據(jù)訓(xùn)練,創(chuàng)新常常伴隨著對(duì)舊有規(guī)則的沖撞。 互聯(lián)網(wǎng)歷史上類似的矛盾并非首次:音樂產(chǎn)業(yè)曾與數(shù)字盜版激烈交鋒,新聞出版商也為搜索引擎收錄內(nèi)容而抗議。 也許在很多AI公司看來,網(wǎng)絡(luò)上的公開內(nèi)容皆是取之無害、用之無罪的公共資源,抓了又何妨? 但是有沒有想過內(nèi)容生產(chǎn)者的感受呢?知識(shí)和創(chuàng)意的源頭若得不到尊重和回報(bào),最終枯竭的將是創(chuàng)新本身。沒有人愿意讓自己辛苦耕耘的成果被機(jī)器毫無顧忌地偷走。 至少在現(xiàn)有的倫理和經(jīng)濟(jì)體系下,這種行為會(huì)磨滅創(chuàng)作者的熱情。 到最后,網(wǎng)絡(luò)上留下的全部是AI生產(chǎn)的AI垃圾。 戰(zhàn)爭(zhēng)已經(jīng)打響,而AI領(lǐng)域的這場(chǎng)較量,正是從爬蟲開始的。 我只希望,當(dāng)硝煙散去,我們還能擁有一個(gè)我們所熱愛的、開放而可信的互聯(lián)網(wǎng)。 拋開那些宏大的技術(shù)敘事,對(duì)于我們每一個(gè)普通網(wǎng)民而言,這才是我們最值得去捍衛(wèi)的東西。不是嗎? 本文鏈接:http://www.smohamad.com/article/70733.html(轉(zhuǎn)載請(qǐng)保留) 標(biāo)簽: AI爬蟲
其他服務(wù) 鷹潭市余江區(qū)新冠病毒疫苗接種點(diǎn)及預(yù)約咨詢電話 ? 2021-08-15 鷹潭市余江區(qū)居民預(yù)約接種新冠病毒疫苗單位名單、地址、接種時(shí)間和預(yù)約電話等相關(guān)信息;鷹潭市余江區(qū)人民醫(yī)院接種地點(diǎn):江西省鷹潭市余江區(qū)白塔西路2號(hào)
公司注銷 防城港企業(yè)簡(jiǎn)易注銷流程公告登記教程-【廣西企業(yè)信用信息公示系統(tǒng)】 ? 2018-04-24 防城港公司企業(yè)簡(jiǎn)易注銷流程公告登記入口,防城港公司簡(jiǎn)易注銷流程公告登記怎么做?防城港公司簡(jiǎn)易注銷流程登記基本流程是什么?
信息科技 鄆城縣科學(xué)技術(shù)局各部門工作時(shí)間及聯(lián)系電話 ? 2023-04-20 鄆城縣科學(xué)技術(shù)局辦公室職責(zé):負(fù)責(zé)機(jī)關(guān)日常運(yùn)轉(zhuǎn)工作;承擔(dān)局機(jī)關(guān)文電、會(huì)務(wù)、機(jī)要、檔案、接待、保密、信訪、督辦、應(yīng)急管理、政務(wù)公開、安全保衛(wèi)等工作。
其他服務(wù) 重慶市梁平區(qū)HPV宮頸癌疫苗接種點(diǎn)地址及預(yù)約咨詢電話 ? 2021-12-04 重慶市梁平區(qū)如何預(yù)約HPV二價(jià)、四價(jià)、九價(jià)宮頸癌疫苗?梁平區(qū)宮頸癌疫苗接種點(diǎn)有哪些?有哪些醫(yī)院門診可以接種HPV疫苗?95商服網(wǎng)小編為您整理梁平區(qū)hpv疫苗預(yù)約接種點(diǎn)地址、電話、服務(wù)時(shí)間、網(wǎng)上預(yù)約流程。。。
社會(huì)保障 高唐縣退役軍人事務(wù)局各部門職責(zé)及聯(lián)系電話 ? 2023-04-07 高唐縣退役軍人事務(wù)局綜合科主要職責(zé):負(fù)責(zé)文電、綜合性文稿起草、會(huì)務(wù)、應(yīng)急、值班、機(jī)要、保密、檔案、安全、后勤管理等局機(jī)關(guān)日常運(yùn)轉(zhuǎn)工作,承擔(dān)政府信息和政務(wù)公開、新聞宣傳、建議提案辦理等工作,負(fù)責(zé)內(nèi)部綜合。。。
環(huán)保綠化 杭州市規(guī)劃和自然資源局濱江分局各部門負(fù)責(zé)人和聯(lián)系電話 ? 2023-10-19 杭州市規(guī)劃和自然資源局濱江分局辦公室(掛政策法規(guī)科牌子)負(fù)責(zé)機(jī)關(guān)日常運(yùn)轉(zhuǎn)。承擔(dān)文秘、信息、宣傳、政務(wù)公開、制度建設(shè)、會(huì)務(wù)、機(jī)要、保密、檔案、安全、后勤和固定資產(chǎn)管理等工作。協(xié)調(diào)實(shí)施年度工作目標(biāo)責(zé)任制。。。。