1、錯(cuò)誤的封禁
在百度的robots.txt的更新上,如果多次點(diǎn)擊“檢測并更新”就會(huì)出現(xiàn)時(shí)常可以更新,但是又時(shí)常無法更新的問題。如此一來:不應(yīng)當(dāng)被收錄的東西,在robots.txt上禁止的被收錄了,又刪除就很正常了。那么它的問題是什么呢?并非服務(wù)器負(fù)載過度,而是因?yàn)榉阑饓﹀e(cuò)誤的將部分Baiduspider列入了黑名單。
2、服務(wù)器異常
常規(guī)的服務(wù)器就不說了,大家都知道的,北上廣的一般都不錯(cuò)。不過有一些特殊服務(wù)器,想必絕大多數(shù)的站長都不知道吧?例如西部數(shù)碼的“港臺(tái)服務(wù)器”就很有趣,真的是港臺(tái)的嗎?本身機(jī)房在國內(nèi),還算什么港臺(tái)?為了逃避備案而用一個(gè)港臺(tái)的IP,數(shù)據(jù)全部在國內(nèi)。
這樣有什么不好呢?我們會(huì)發(fā)現(xiàn):站點(diǎn)的服務(wù)器是經(jīng)過CDN的,哪怕是你上傳的一張圖片,都會(huì)顯示為“302狀態(tài)碼”,訪問速度是提升上去了,可是這樣利于SEO嗎?
3、獲取不到真實(shí)IP
規(guī)模較大的網(wǎng)站,一般都會(huì)使用CDN加速,但是有些站點(diǎn)不僅僅對(duì)“設(shè)備”使用了CDN加速,而且還對(duì)Spider使用了加速功能。后的結(jié)果是什么呢?如果CDN節(jié)點(diǎn)不穩(wěn)定,那么對(duì)網(wǎng)站spider來講,這個(gè)問題將是致命的。
很多大型站點(diǎn)開放CDN的原因就是容易被攻擊,這個(gè)時(shí)候如果不做“蜘蛛回源”就可想而知了。你的站點(diǎn)做了CDN了嗎?請(qǐng)登錄百度站長平臺(tái)查看一下spider是否可以抓取真實(shí)IP地址吧!
4、頻繁的50X類錯(cuò)誤
這樣的鏈接其中一個(gè)共同的特點(diǎn)是:當(dāng)打開后,全部都是正常的,那么Spider為什么會(huì)報(bào)錯(cuò)提醒呢?只是因?yàn)樵谂老x發(fā)起抓取的那一刻,httpcode返回了5XX",你的站點(diǎn)是否頻繁有這樣的問題呢?有的話需要立即安排技術(shù),或者通報(bào)IDC服務(wù)商做解決了!