聲明:本文來自于微信公眾號(hào) 三易生活(ID:IT-3eLife),作者:三易菌,授權(quán)轉(zhuǎn)載發(fā)布。
刻在石頭上的碑文會(huì)風(fēng)化、寫在紙上的文字會(huì)腐朽,數(shù)千年以來,如何保存知識(shí)始終是人類文明的一大關(guān)鍵課題。直到互聯(lián)網(wǎng)的出現(xiàn),它成為了一個(gè)被認(rèn)為保存信息的絕妙載體,“互聯(lián)網(wǎng)是有記憶的”這句話在多年以前更是被奉為圭臬。然而時(shí)過境遷,隨處可見的“404Not found”讓“互聯(lián)網(wǎng)沒有記憶”已然成為大家公認(rèn)的事實(shí),如今谷歌的新動(dòng)作,則又加深了這一刻板印象。
近期,谷歌搜索公共聯(lián)絡(luò)人Danny Sullivan確認(rèn),谷歌方面將刪除所有搜索結(jié)果中的網(wǎng)頁快照/緩存鏈接,未來用戶將無法在搜索結(jié)果里點(diǎn)擊緩存來查看網(wǎng)頁被谷歌爬蟲索引時(shí)生成的網(wǎng)頁快照。并且Danny Sullivan還透露,緩存操作符“cache:”預(yù)計(jì)也將會(huì)被移除。為此谷歌給出的解決方案,是在搜索結(jié)果中添加互聯(lián)網(wǎng)檔案館(The Internet Archive)的鏈接,以取代“關(guān)于本結(jié)果”部分的谷歌緩存鏈接。
但作為一家非營利性組織,如今互聯(lián)網(wǎng)檔案館的日子也不太好過,它在去年就先后面臨美國圖書出版商、唱片公司總計(jì)3.72億美元的天價(jià)索賠。更何況作為全球最受歡迎的搜索引擎,谷歌搜索的用戶規(guī)模極為龐大。按照去年谷歌方面在數(shù)字服務(wù)法(DSA)要求下向歐盟報(bào)告的數(shù)據(jù)顯示,谷歌搜索僅僅在歐盟地區(qū)的月活就高達(dá)3.32億。所以顯而易見,互聯(lián)網(wǎng)檔案館的服務(wù)器不太可能及時(shí)緩存來自谷歌搜索抓取的網(wǎng)頁。
如此一來,繼國內(nèi)市場(chǎng)的百度、搜狗、360之后,谷歌搜索也實(shí)質(zhì)上放棄了快照功能。關(guān)于為什么會(huì)突然不再提供搜索結(jié)果中的網(wǎng)頁快照、緩存,谷歌的說法是其最初提供緩存鏈接選項(xiàng)主要為了幫助用戶可靠地訪問網(wǎng)頁,比如面對(duì)網(wǎng)頁無法加載時(shí),現(xiàn)在隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,許多網(wǎng)站已經(jīng)可以提供很好的可靠性,所以為了防止網(wǎng)頁打不開而進(jìn)行的緩存,已經(jīng)沒有必要。
網(wǎng)頁緩存或者說快照,其實(shí)可以理解為是一份網(wǎng)頁的副本,早期由于技術(shù)條件的限制,有相當(dāng)多的網(wǎng)站存在訪問不穩(wěn)定的問題,以至于會(huì)出現(xiàn)用戶通過搜索引擎的結(jié)果訪問時(shí),發(fā)現(xiàn)網(wǎng)站無法打開,這時(shí)候快照的作用就出現(xiàn)了,它就好比給網(wǎng)頁拍了一張照片,讓用戶能夠從快照中找出網(wǎng)頁上的有用信息。
同時(shí),網(wǎng)頁通常并不是一成不變的,而是不斷增加、刪除、改動(dòng),為了保證用戶使用搜索引擎時(shí)總能找到需求的信息,搜索引擎的數(shù)據(jù)庫定時(shí)更新抓取的網(wǎng)頁,就意味著當(dāng)某個(gè)網(wǎng)站刪除一個(gè)網(wǎng)頁后,數(shù)據(jù)庫里的網(wǎng)頁快照并不會(huì)立刻被刪除,而是要到下一次更新時(shí)才會(huì)同步。此外網(wǎng)頁快照還可以避免由于內(nèi)容太多,想要完整大量儲(chǔ)存網(wǎng)頁內(nèi)容時(shí)帶寬不夠的問題,抓取快照可以以最少的帶寬就將其保存下來。
早期網(wǎng)絡(luò)基礎(chǔ)建設(shè)不建全、網(wǎng)速慢是常態(tài),再加上網(wǎng)站建設(shè)水平良莠不齊,技術(shù)不規(guī)范、不成熟等問題,先不說網(wǎng)站本身的體驗(yàn)如何,很多網(wǎng)站可能單單是打開頁面都費(fèi)勁,于是搜索引擎為了保障用戶體驗(yàn),就搞出了快照這個(gè)功能。但隨著時(shí)間的推移,特別是云服務(wù)相關(guān)技術(shù)的跨越式發(fā)展,網(wǎng)站訪問不穩(wěn)定的現(xiàn)象幾乎已經(jīng)成為了傳說,網(wǎng)頁無法打開的情況也愈發(fā)罕見,就使得快照功能存在的意義就沒有了。
要知道,互聯(lián)網(wǎng)上有數(shù)以百億計(jì)的網(wǎng)頁,為了保存快照信息,即使百度、谷歌將搜索引擎收錄的網(wǎng)頁以純文本的形式備份,其他資源,如樣式表和圖片等內(nèi)容不會(huì)被緩存。在聚沙成塔的情況下,過去二十余年間積累的快照對(duì)于服務(wù)器顯然已經(jīng)成為了一個(gè)不小的負(fù)擔(dān)。畢竟快照的存儲(chǔ)必然會(huì)產(chǎn)生服務(wù)器資源的占用,清空快照頁面就可以將釋放出來的空間挪至其它用途,從而達(dá)到“降本”的作用。
在如今全球互聯(lián)網(wǎng)廠商都采取“降本增效”的背景下,砍掉不影響核心體驗(yàn)的功能已經(jīng)是大趨勢(shì)。再加上AI搜索已然成為了趨勢(shì),當(dāng)用戶看到的是AI對(duì)于用戶需求信息的總結(jié),被索引的網(wǎng)頁主要起到類似“文獻(xiàn)”的作用,以佐證AI總結(jié)內(nèi)容的可靠性時(shí),當(dāng)用戶在使用搜索引擎時(shí)不再需要打開網(wǎng)頁,保存網(wǎng)頁快照又有何用呢?
除了以上兩點(diǎn)外,快照功能最近幾年也逐漸被SEO從業(yè)者濫用。比如可以通過投訴快照來做排名,通過快照做收錄等,SEO從業(yè)者利用模擬點(diǎn)擊來繞開算法,借助快照功能將隨意采集拼湊的垃圾站點(diǎn)快速排到首頁。于是乎,搜索結(jié)果頁的內(nèi)容質(zhì)量每況愈下,就逼得搜索引擎不得不將其權(quán)重降低。
甚至有些黑灰產(chǎn)團(tuán)隊(duì),還會(huì)使用SEO快照劫持來影響搜索引擎的正常排名。通過網(wǎng)站存在的漏洞或其它違規(guī)方式獲取網(wǎng)站后臺(tái)權(quán)限,再通過注入惡意代碼從而實(shí)現(xiàn)快照替換的目的。通常來說,黑灰產(chǎn)會(huì)給目標(biāo)網(wǎng)頁掛上一段加密的JavaScript代碼,該代碼的功能則是判斷訪問網(wǎng)頁的是不是搜索引擎的爬蟲,如果是爬蟲程序則不做任何操作,讓搜索引擎正常抓取;如果判斷是用戶,則會(huì)執(zhí)行JS跳轉(zhuǎn)代碼,將網(wǎng)站的正常頁面替換為惡意網(wǎng)頁。
所以當(dāng)一個(gè)功能用戶不再經(jīng)常使用、且需要消耗大量服務(wù)器資源,同時(shí)還可能會(huì)被黑灰產(chǎn)利用時(shí),百度、谷歌等搜索引擎將其關(guān)閉就再正常不過了。只可惜在沒有了快照后,注定就會(huì)有一大批網(wǎng)頁因?yàn)槿狈S護(hù)或內(nèi)容更新,而遺失在互聯(lián)網(wǎng)龐大的信息海洋里。
本文鏈接:谷歌搜索引擎下載「谷歌搜索下線快照,互聯(lián)網(wǎng)似乎真的要沒有記憶了」http://www.lensthegame.com/show-3-9809-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 大模型開車哪家強(qiáng)?普渡研究給指南:GPT-4真行啊_模型車開箱
下一篇: GPT-4絕對(duì)性能暴漲74.4%!UIUC蘋果華人團(tuán)隊(duì)提出CodeAct,用Python代碼統(tǒng)一LLM智能體行動(dòng)