主要分為以下三個(gè)步驟:
先進(jìn)步:利用日志分析工具找到404錯(cuò)誤抓取頁(yè)面
日志分析工具利用常用的光年日志分析工具就可以了,首先利用FTP下載好近幾天的網(wǎng)站LOG日志,當(dāng)然,想更多的分析,那么多下載一段時(shí)間的LOG日志也可以,利用日志分析工具新建任務(wù)分析各個(gè)階段的百度蜘蛛抓取情況,這里主要考慮百度抓取情況,因?yàn)榻⑦@個(gè)分析工作的前提是快照停滯,收錄為1。
這里建議大家分為三個(gè)時(shí)間段來(lái)分析:
A、分析近一天的LOG日志,可以是今天的,但是好是昨天的,因?yàn)樽蛱斓臅?huì)比較全,今天的你即使是晚上來(lái)分析也會(huì)有一部分時(shí)間沒(méi)有統(tǒng)計(jì)到。
B、分析改版之后的LOG日志,因?yàn)檫@涉及到百度蜘蛛對(duì)于網(wǎng)站改版的一些判斷,例如我們可以分析百度蜘蛛什么時(shí)候開(kāi)始判斷網(wǎng)站已經(jīng)改版,或者什么時(shí)候已經(jīng)放棄對(duì)于舊站URL的抓取等等。
C、改版前后抓取量的對(duì)比,分析改版對(duì)于百度蜘蛛的抓取量影響多大。
至于日志分析工作后面的分析工作都是一鍵式的,具體的分析思路有了之后,我們對(duì)照著進(jìn)行分析,就會(huì)找到很多平時(shí)我們沒(méi)有注意到的問(wèn)題。
第二步:利用百度站長(zhǎng)工具中的死鏈提交工具進(jìn)行死鏈提交
百度站長(zhǎng)平臺(tái)LEE團(tuán)隊(duì)說(shuō):404狀態(tài)碼代表‘Not Found’,spider更新時(shí)會(huì)認(rèn)為該頁(yè)面已失效,此時(shí)呢將在索引庫(kù)中刪除,短期內(nèi)spider再次發(fā)現(xiàn)該url不再會(huì)抓取。當(dāng)然,百度對(duì)于404錯(cuò)誤頁(yè)面的指導(dǎo)性操作,還是非常有針對(duì)性的。
特別是死鏈提交工具中提交死鏈sitemap,這一條大家可以根據(jù)自身的情況進(jìn)行死鏈提交。
第三步:利用robots.txt和nofollow標(biāo)簽引導(dǎo)蜘蛛抓取
404錯(cuò)誤頁(yè)面一個(gè)大的壞處就是給蜘蛛帶來(lái)一些錯(cuò)誤的抓取,浪費(fèi)了蜘蛛抓取資源,舉個(gè)例子,首先我們要達(dá)成這樣的一個(gè)共識(shí):任何一個(gè)網(wǎng)站的蜘蛛抓取訪問(wèn)資源都是有限的,小網(wǎng)站自然要少很多,而大網(wǎng)站就要多很多,要想蜘蛛抓取率更高,抓取的更合理,那么一些錯(cuò)誤的鏈接造成的404錯(cuò)誤量就要盡可能的減少。
希望以上的這些信息能夠幫助您,如果您還有關(guān)于大連網(wǎng)站制作,大連網(wǎng)站建設(shè)及企業(yè)郵箱等相關(guān)問(wèn)題,請(qǐng)與我們聯(lián)系, 新圖聞科技將竭誠(chéng)為您服務(wù)!