什么是爬蟲(chóng)
? ?爬蟲(chóng)就是通過(guò)編寫(xiě)程序模擬瀏覽器上網(wǎng),然后讓其去互聯(lián)網(wǎng)上抓取數(shù)據(jù)的過(guò)程。
-
爬蟲(chóng)的分類(lèi)
? ??1.通用爬蟲(chóng): 通用爬蟲(chóng)是搜索引擎(Baidu、Google、Yahoo等)“抓取系統(tǒng)”的重要組成部分。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地,形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。? 簡(jiǎn)單來(lái)講就是盡可能的;把互聯(lián)網(wǎng)上的所有的網(wǎng)頁(yè)下載下來(lái),放到本地服務(wù)器里形成備分,在對(duì)這些網(wǎng)頁(yè)做相關(guān)處理(提取關(guān)鍵字、去掉廣告),最后提供一個(gè)用戶檢索接口。?-
搜索引擎如何抓取互聯(lián)網(wǎng)上的網(wǎng)站數(shù)據(jù)?
- 門(mén)戶網(wǎng)站主動(dòng)向搜索引擎公司提供其網(wǎng)站的url
- 搜索引擎公司與DNS服務(wù)商合作,獲取網(wǎng)站的url
- 門(mén)戶網(wǎng)站主動(dòng)掛靠在一些知名網(wǎng)站的友情鏈接中
-
搜索引擎如何抓取互聯(lián)網(wǎng)上的網(wǎng)站數(shù)據(jù)?
? ?? 2.聚焦爬蟲(chóng): 聚焦爬蟲(chóng)是根據(jù)指定的需求抓取網(wǎng)絡(luò)上指定的數(shù)據(jù)。例如:獲取豆瓣上電影的名稱(chēng)和影評(píng),而不是獲取整張頁(yè)面中所有的數(shù)據(jù)值。
-
?robots.txt協(xié)議
? ? - 如果自己的門(mén)戶網(wǎng)站中的指定頁(yè)面中的數(shù)據(jù)不想讓爬蟲(chóng)程序爬取到的話,那么則可以通過(guò)編寫(xiě)一個(gè)robots.txt的協(xié)議文件來(lái)約束爬蟲(chóng)程序的數(shù)據(jù)爬取。robots協(xié)議的編寫(xiě)格式可以觀察淘寶網(wǎng)的robots(訪問(wèn)www.taobao.com/robots.txt即可)。但是需要注意的是,該協(xié)議只是相當(dāng)于口頭的協(xié)議,并沒(méi)有使用相關(guān)技術(shù)進(jìn)行強(qiáng)制管制,所以該協(xié)議是防君子不防小人。但是我們?cè)趯W(xué)習(xí)爬蟲(chóng)階段編寫(xiě)的爬蟲(chóng)程序可以先忽略robots協(xié)議。 -
反爬蟲(chóng)
? ?- 門(mén)戶網(wǎng)站通過(guò)相應(yīng)的策略和技術(shù)手段,防止爬蟲(chóng)程序進(jìn)行網(wǎng)站數(shù)據(jù)的爬取。 -
反反爬蟲(chóng)
-
?
? ?-?爬蟲(chóng)程序通過(guò)相應(yīng)的策略和技術(shù)手段,破解門(mén)戶網(wǎng)站的反爬蟲(chóng)手段,從而爬取到相應(yīng)的數(shù)據(jù)。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
