網(wǎng)絡(luò)爬蟲(chóng)(又稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人),它是一種“自動(dòng)化瀏覽網(wǎng)絡(luò)”的程序,按照一定規(guī)則,自動(dòng)抓取互聯(lián)網(wǎng)信息,比如網(wǎng)頁(yè)、各類文檔、圖片、音頻、視頻等,也被稱為網(wǎng)頁(yè)蜘蛛或網(wǎng)絡(luò)機(jī)器人。一般來(lái)說(shuō),爬蟲(chóng)是用來(lái)批量獲得網(wǎng)頁(yè)上的公開(kāi)信息的,也就是前端顯示的數(shù)據(jù)信息。
根據(jù)《數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)》第十六條:網(wǎng)絡(luò)運(yùn)營(yíng)者采取自動(dòng)化手段訪問(wèn)收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運(yùn)行;此類行為嚴(yán)重影響網(wǎng)站運(yùn)行,如自動(dòng)化訪問(wèn)收集流量超過(guò)網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動(dòng)化訪問(wèn)收集時(shí),應(yīng)當(dāng)停止。
在使用爬蟲(chóng)過(guò)程中,91VPS提出以下建議:
1.遵守Robots協(xié)議,但有沒(méi)有Robots都不代表可以隨便爬;
2.限制你的爬蟲(chóng)行為,禁止近乎DDOS的請(qǐng)求頻率,一旦造成服務(wù)器癱瘓,約等于網(wǎng)絡(luò)攻擊;
3.對(duì)于明顯反爬,或者正常情況不能到達(dá)的頁(yè)面不能強(qiáng)行突破,否則是Hacker行為;
4.最后,審視清楚自己爬的內(nèi)容,遵守國(guó)家相關(guān)法律法規(guī),以下是絕不能碰的紅線(包括但不限于):
•爬取用戶個(gè)人數(shù)據(jù)非法牟利,包括模擬登錄他人賬號(hào)。
•爬取商業(yè)數(shù)據(jù)造成不正當(dāng)競(jìng)爭(zhēng)。
•爬取大量帶有知識(shí)產(chǎn)權(quán)的數(shù)據(jù)用于商業(yè)目的,獲取盈利行為。
5、不得違反相應(yīng)法律法規(guī)。
如有觸發(fā)風(fēng)控預(yù)警系統(tǒng)或風(fēng)控部門巡查到上述行為者,系統(tǒng)將自動(dòng)記錄用戶的詳細(xì)行為日志,并實(shí)時(shí)上傳公安部門網(wǎng)安系統(tǒng),同時(shí),91VPS網(wǎng)將立即關(guān)停開(kāi)通的服務(wù),并凍結(jié)賬戶固定證據(jù),并且賬戶余額與開(kāi)通服務(wù)不予退款。