作為一名SEO愛好者,分析網(wǎng)站蜘蛛日志是必不可少的,通過網(wǎng)站日志中的數(shù)據(jù)記錄,站長們就可以很好的診斷我們的網(wǎng)站是否處在健康狀態(tài)。比如博主的網(wǎng)站最近就受到不少掛黑鏈的攻擊,無論是網(wǎng)站權(quán)重還是流量都帶來很大損失,所以網(wǎng)站蜘蛛日志分析勢在必行,通過網(wǎng)站調(diào)整正確引導(dǎo)搜索引擎蜘蛛的抓取。
什么是網(wǎng)站日志
通過百科我們也可以了解到,所謂的網(wǎng)站日志指的就是記錄web服務(wù)器接收處理請求以及運行時錯誤等各種原始信息的以log結(jié)尾的文件。這里站長們要注意的是文件以log為后綴,只需將其下載下來使用工具分析即可。
網(wǎng)站日志怎么獲取
不同的服務(wù)器和虛擬主機存放的log文件位置還是有一定差別的,但一般獲取方法還是比較簡單的,如博主服務(wù)器安裝的是寶塔面板,網(wǎng)站日志文件存放在文件-wwwlogs文件夾中,找到對應(yīng)網(wǎng)站的log文件然后下載下來。
網(wǎng)站日志分析工具
網(wǎng)站日志分析工具是有很多的,比如在線的網(wǎng)站日志工具拉格好(http://www.loghao.com/),另外博主常用的是光年網(wǎng)站日志分析工具。這些工具大同小異,文件和工具都有了,下面我們就深入探究下如何分析這些網(wǎng)站數(shù)據(jù)。
常見網(wǎng)站蜘蛛有哪些
BaiDu Spider:即是代表百度搜索引擎蜘蛛,從上圖可以看到尹華峰SEO博客的搜索引擎爬蟲來自百度,占比52%
Sogou Spide:代表搜狗搜索引擎蜘蛛,訪問次數(shù)雖少,但是抓取總量卻很大,這讓博主發(fā)現(xiàn)了其中的貓膩,原因就是本站某個欄目被人攻擊,掛了大量給搜狗搜索引擎蜘蛛抓取的黑鏈。
谷歌蜘蛛:表示Google搜索引擎蜘蛛,做谷歌SEO的站長需要多加注意。
Alexa Spider:代表網(wǎng)站全球排名搜索引擎蜘蛛,該爬蟲主要分析網(wǎng)站的訪問流量,并統(tǒng)計網(wǎng)站全球排名,當(dāng)前本站在全球排名610481位。
除此之外,其實還是有其他搜索引擎爬蟲的,如Yahoo蜘蛛、360Spider等,以上只是本站的搜索引擎蜘蛛概要分析,因為剛換服務(wù)器的原因,目前蜘蛛抓爬的數(shù)據(jù)體量是比較小的,僅供參考。通過日志工具主動與搜索引擎蜘蛛溝通,我們還可以進一步分析網(wǎng)站抓取情況和狀態(tài)碼分析。
網(wǎng)站蜘蛛日志分析解讀
目錄抓。嚎梢苑治鼍W(wǎng)站目錄的抓取量,了解搜索引擎蜘蛛的愛好。通過上圖可以看到Sogou Spide主要抓取了我的/kjzx/目錄,同其他目錄對比抓取量比較大,出現(xiàn)異常。于是我進入網(wǎng)站根目錄進行查看,發(fā)現(xiàn)了掛黑鏈的腳本文件,這也印證了博主前面的判斷。
頁面抓。喉撁孀ト×渴潜容^穩(wěn)定的,沒有哪個頁面抓取量大而出現(xiàn)異常,這里博主就不再截圖,但博主發(fā)現(xiàn)抓取量最大的頁面就是robots.txt文件,所以站長們設(shè)置好robots規(guī)則也是很重要的。
狀態(tài)碼返回分析解讀
200代表搜索引擎蜘蛛訪問成功;
404代表頁面無法訪問;
301代表頁面跳轉(zhuǎn);
304代表客戶端已經(jīng)執(zhí)行了GET,但文件未變化;
500狀態(tài)碼表示服務(wù)器遇到錯誤,無法完成請求;
403狀態(tài)碼表示服務(wù)器拒絕請求。
以上是本站遇到的一些蜘蛛狀態(tài)碼(更多狀態(tài)碼請參考:網(wǎng)站日志常見HTTP狀態(tài)碼分析),站長尤其是查看非200值的狀態(tài)碼,分析這些異常的URL路徑,很容易就找到網(wǎng)站癥結(jié)之所在。
網(wǎng)站日志的作用
網(wǎng)站日志分析對SEO站長來說應(yīng)該是必備技能,無論是新站還是老站,網(wǎng)站日志分析都有很大的作用。通過日志分析了解網(wǎng)站蜘蛛抓取頻次、是否被關(guān)進沙盒、網(wǎng)站是否被K、查找異常抓取等。
結(jié)語:通過網(wǎng)站蜘蛛日志分析,SEO站長可以很好自查診斷網(wǎng)站是否出現(xiàn)問題,不僅可以了解網(wǎng)站的健康狀況,通過抓取量還可以進一步了解搜索引擎蜘蛛的愛好,清楚網(wǎng)站內(nèi)容運營的重心之所在,也可以起到很好的指導(dǎo)作用。