連續看了兩天的 Web Server Log 後,只有一種感覺:『無知果然是一種幸福』。
原來每天有一大堆的網路蜘蛛到處爬,頻率還誇張到每秒好幾次… =.=
現行阻擋清單:
- 202.108.0.0/16 : 這是百度的 IP,百度 根本 不去讀 robots.txt 檔,所以只好全面封殺!
- 61.135.0.0/16 : 這包含了百度及 sogou 的 IP,寧可錯殺無辜,也不能錯放一個 IP,所以...
- 202.106.182.0/24 : 來自 larbin 的搜尋動作,雖然有參考 robots.txt ,但由連線數及捉取內容來看,明顯是砍站行為,予以禁止!另外要寫一個 Shell script 來監控這個動作!
監控中的 User-Agent:
- 220.181.0.0/16 : 這是 sogou 的 IP,似乎會參考 robots.txt 的設定,所以暫時開放!
- 61.62.132.193 : RssBandit,問題在於他每 10 分鐘就來捉整個 RSS List 一次...
關於 Google bot:
- Google bot 的第一件事是讀取 /robots.txt 檔
- Google bot 一整天下來只連線 522 次
沒有留言:
張貼留言