《Webbots、Spiders和Screen Scrapers:技術(shù)解析與應(yīng)用實(shí)踐(原書(shū)第2版)》
基本信息
原書(shū)名: Webbots,Spiders,and Screen Scrapers:A Guide to Developing Internet Agents with PHP/CURL,Second Edition
原出版社: No Starch Press
作者: (美)Michael Schrenk ??
譯者: 張磊 沈鑫
叢書(shū)名: 華章程序員書(shū)庫(kù)
出版社:機(jī)械工業(yè)出版社
ISBN:9787111417682
上架時(shí)間:2013-5-8
出版日期:2013 年5月
開(kāi)本:16開(kāi)
頁(yè)碼:282
版次:2-1
所屬分類:計(jì)算機(jī) > 軟件與程序設(shè)計(jì) > 網(wǎng)絡(luò)編程

更多關(guān)于 》》》《
Webbots、Spiders和Screen Scrapers:技術(shù)解析與應(yīng)用實(shí)踐(原書(shū)第2版)
》
內(nèi)容簡(jiǎn)介
? ? 計(jì)算機(jī)書(shū)籍
《webbots、spiders和screen scrapers:技術(shù)解析與應(yīng)用實(shí)踐(原書(shū)第2版)》是webbots(網(wǎng)絡(luò)機(jī)器人)、spiders(蜘蛛)、screen scrapers(抓屏器)領(lǐng)域的權(quán)威著作,在國(guó)際安全領(lǐng)域被廣泛認(rèn)可,是資深網(wǎng)絡(luò)安全專家15年工作經(jīng)驗(yàn)的結(jié)晶。不僅全面而詳細(xì)地解析了webbots、spiders和screen scrapers的技術(shù)原理和高級(jí)技巧,而且以案例的方式講解了9種常用網(wǎng)絡(luò)機(jī)器人的設(shè)計(jì)和開(kāi)發(fā)方法,可操作性極強(qiáng)。除了有豐富的理論和實(shí)踐內(nèi)容外,本書(shū)還介紹了商業(yè)用途的思路,不厭其煩地告誡開(kāi)發(fā)者如何開(kāi)發(fā)出遵紀(jì)守法且不干擾網(wǎng)絡(luò)的具有建設(shè)性的網(wǎng)絡(luò)機(jī)器人。
全書(shū)31章,分為4個(gè)部分:第一部分(1~7章),系統(tǒng)全面地介紹了與webbots、spiders、screen scrapers相關(guān)的各種概念和技術(shù)原理,是了解和使用它們必須掌握的基礎(chǔ)知識(shí);第二部分(8~16章),以案例的形式仔細(xì)地講解了價(jià)格監(jiān)控、圖片抓取、搜索排名檢測(cè)、信息聚合、ftp信息、閱讀與發(fā)送電子郵件等9類常見(jiàn)機(jī)器人的設(shè)計(jì)與開(kāi)發(fā)方法,非常具備實(shí)戰(zhàn)指導(dǎo)意義;第三部分(17~25章),總結(jié)和歸納了大量的高級(jí)技巧,包括蜘蛛程序的設(shè)計(jì)方法、采購(gòu)機(jī)器人和秒殺器、相關(guān)的密碼學(xué)、認(rèn)證方法、高級(jí)cookie管理、如何計(jì)劃運(yùn)行網(wǎng)絡(luò)機(jī)器人和蜘蛛、使用瀏覽器宏抓取怪異的網(wǎng)站、修改imacros,等等;第四部分(26~31章)是拓展知識(shí),包含如何設(shè)計(jì)隱蔽的網(wǎng)絡(luò)機(jī)器人和蜘蛛、編寫(xiě)容錯(cuò)的網(wǎng)絡(luò)機(jī)器人、設(shè)計(jì)網(wǎng)絡(luò)機(jī)器人青睞的網(wǎng)站、消滅蜘蛛、相關(guān)的法律知識(shí)等。
目錄
《webbots、spiders和screen scrapers:技術(shù)解析與應(yīng)用實(shí)踐(原書(shū)第2版)》?
譯者序?
前言?
第一部分 基礎(chǔ)概念和技術(shù)?
第1章 本書(shū)主要內(nèi)容3?
1.1 發(fā)現(xiàn)互聯(lián)網(wǎng)的真正潛力3?
1.2 對(duì)開(kāi)發(fā)者來(lái)說(shuō)3?
1.2.1 網(wǎng)絡(luò)機(jī)器人開(kāi)發(fā)者是緊缺人才4?
1.2.2 編寫(xiě)網(wǎng)絡(luò)機(jī)器人是有趣的4?
1.2.3 網(wǎng)絡(luò)機(jī)器人利用了“建設(shè)性黑客”技術(shù)4?
1.3 對(duì)企業(yè)管理者來(lái)說(shuō)5?
1.3.1 為業(yè)務(wù)定制互聯(lián)網(wǎng)5?
1.3.2 充分利用公眾對(duì)網(wǎng)絡(luò)機(jī)器人的經(jīng)驗(yàn)不足5?
1.3.3 事半功倍6?
1.4 結(jié)論6?
第2章 網(wǎng)絡(luò)機(jī)器人項(xiàng)目創(chuàng)意7?
2.1 瀏覽器局限性的啟發(fā)7?
2.1.1 聚合并過(guò)濾相關(guān)信息的網(wǎng)絡(luò)機(jī)器人7?
2.1.2 解釋在線信息的網(wǎng)絡(luò)機(jī)器人8?
2.1.3 個(gè)人代理網(wǎng)絡(luò)機(jī)器人9?
.2.2 從瘋狂的創(chuàng)意開(kāi)始9?
2.2.1 幫助繁忙的人解脫10?
2.2.2 自動(dòng)執(zhí)行,節(jié)省開(kāi)支10?
2.2.3 保護(hù)知識(shí)產(chǎn)權(quán)10?
2.2.4 監(jiān)視機(jī)會(huì)11?
2.2.5 在網(wǎng)站上驗(yàn)證訪問(wèn)權(quán)限11?
2.2.6 創(chuàng)建網(wǎng)上剪報(bào)服務(wù)11?
2.2.7 尋找未授權(quán)的wi-fi網(wǎng)絡(luò)12?
2.2.8 跟蹤網(wǎng)站技術(shù)12?
2.2.9 讓互不兼容的系統(tǒng)通信12?
2.3 結(jié)論13?
第3章 下載網(wǎng)頁(yè)14?
3.1 當(dāng)它們是文件,而不是網(wǎng)頁(yè)14?
3.2 用php的內(nèi)置函數(shù)下載文件15?
3.2.1 用fopen()和fgets()下載文件15?
3.2.2 用file()函數(shù)下載文件17?
3.3 php/curl庫(kù)介紹18?
3.3.1 多種傳輸協(xié)議18?
3.3.2 表單提交19?
3.3.3 基本認(rèn)證技術(shù)19?
3.3.4 cookie19?
3.3.5 重定向19?
3.3.6 代理名稱欺詐19?
3.3.7 上鏈管理20?
3.3.8 套接字管理20?
3.4 安裝php/curl20?
3.5 lib_http庫(kù)21?
3.5.1 熟悉默認(rèn)值21?
3.5.2 使用lib_http21?
3.5.3 了解更多http標(biāo)頭信息24?
3.5.4 檢查lib_http的源代碼25?
3.6 結(jié)論25?
第4章 基本解析技術(shù)26?
4.1 內(nèi)容與標(biāo)簽相混合26?
4.2 解析格式混亂的html文件26?
4.3 標(biāo)準(zhǔn)解析過(guò)程27?
4.4 使用lib_parse庫(kù)27?
4.4.1 用分隔符分解字符串:split_string()函數(shù)27?
4.4.2 提取分隔符之間的部分:return_between()函數(shù)28?
4.4.3 將數(shù)據(jù)集解析到數(shù)組之中:parse_array()函數(shù)29?
4.4.4 提取屬性值:get_attribute()函數(shù)30?
4.4.5 移除無(wú)用文本:remove()函數(shù)32?
4.5 有用的php函數(shù)32?
4.5.1 判斷一個(gè)字符串是否在另一個(gè)字符串里面32?
4.5.2 用一個(gè)字符串替換另一個(gè)字符串中的一部分33?
4.5.3 解析無(wú)格式文本33?
4.5.4 衡量字符串的相似度34?
4.6 結(jié)論34?
4.6.1 別相信編碼混亂的網(wǎng)頁(yè)34?
4.6.2 小步解析35?
4.6.3 不要在調(diào)試的時(shí)候渲染解析結(jié)果35?
4.6.4 少用正則表達(dá)式35?
第5章 使用正則表達(dá)式的高級(jí)解析技術(shù)36?
5.1 模式匹配——正則表達(dá)式的關(guān)鍵36?
5.2 php的正則表達(dá)式類型36?
5.2.1 php正則表達(dá)式函數(shù)37?
5.2.2 與php內(nèi)置函數(shù)的相似之處38?
5.3 從例子中學(xué)習(xí)模式匹配39?
5.3.1 提取數(shù)字39?
5.3.2 探測(cè)字符串序列39?
5.3.3 字母字符匹配40?
5.3.4 通配符匹配40?
5.3.5 選擇匹配41?
5.3.6 分組和范圍匹配的正則表達(dá)式41?
5.4 與網(wǎng)絡(luò)機(jī)器人開(kāi)發(fā)者相關(guān)的正則表達(dá)式41?
5.4.1 提取電話號(hào)碼42?
5.4.2 下一步學(xué)習(xí)什么45?
5.5 何時(shí)使用正則表達(dá)式46?
5.5.1 正則表達(dá)式的長(zhǎng)處46?
5.5.2 模式匹配用于解析網(wǎng)頁(yè)的劣勢(shì)46?
5.5.3 哪個(gè)更快,正則表達(dá)式還是php的內(nèi)置函數(shù)48?
5.6 結(jié)論48?
第6章 自動(dòng)表單提交49?
6.1 表單接口的反向工程50?
6.2 表單處理器、數(shù)據(jù)域、表單方法和事件觸發(fā)器50?
6.2.1 表單處理器50?
6.2.2 數(shù)據(jù)域51?
6.2.3 表單方法52?
6.2.4 多組件編碼54?
6.2.5 事件觸發(fā)器54?
6.3 無(wú)法預(yù)測(cè)的表單55?
6.3.1 javascript能在提交之前修改表單55?
6.3.2 表單html代碼通常無(wú)法閱讀55?
6.3.3 cookie在表單里不存在,卻會(huì)影響其操作55?
6.4 分析表單55?
6.5 結(jié)論59?
6.5.1 不要暴露身份59?
6.5.2 正確模擬瀏覽器59?
6.5.3 避免表單錯(cuò)誤60?
第7章 處理大規(guī)模數(shù)據(jù)61?
7.1 組織數(shù)據(jù)61?
7.1.1 命名規(guī)范61?
7.1.2 在結(jié)構(gòu)化文件里存儲(chǔ)數(shù)據(jù)62?
7.1.3 在數(shù)據(jù)庫(kù)里存儲(chǔ)文本數(shù)據(jù)64?
7.1.4 在數(shù)據(jù)庫(kù)里存儲(chǔ)圖片66?
7.1.5 用數(shù)據(jù)庫(kù),還是用文件系統(tǒng)68?
7.2 減小數(shù)據(jù)規(guī)模68?
7.2.1 保存圖片文件的地址68?
7.2.2 壓縮數(shù)據(jù)68?
7.2.3 移除格式信息71?
7.3 生成圖片的縮略圖72?
7.4 結(jié)論73?
第二部分 網(wǎng)絡(luò)機(jī)器人項(xiàng)目?
第8章 價(jià)格監(jiān)控網(wǎng)絡(luò)機(jī)器人77?
8.1 目標(biāo)網(wǎng)站77?
8.2 設(shè)計(jì)解析腳本78?
8.3 初始化以及下載目標(biāo)網(wǎng)頁(yè)79?
8.4 進(jìn)一步探討83?
第9章 圖片抓取網(wǎng)絡(luò)機(jī)器人84?
9.1 圖片抓取網(wǎng)絡(luò)機(jī)器人例子84?
9.2 創(chuàng)建圖片抓取網(wǎng)絡(luò)機(jī)器人85?
9.2.1 二進(jìn)制安全下載過(guò)程86?
9.2.2 目錄結(jié)構(gòu)87?
9.2.3 主腳本87?
9.3 進(jìn)一步探討90?
9.4 結(jié)論90?
第10章 鏈接校驗(yàn)網(wǎng)絡(luò)機(jī)器人91?
10.1 創(chuàng)建鏈接校驗(yàn)網(wǎng)絡(luò)機(jī)器人91?
10.1.1 初始化網(wǎng)絡(luò)機(jī)器人并下載目標(biāo)網(wǎng)頁(yè)92?
10.1.2 設(shè)置頁(yè)面基準(zhǔn)92?
10.1.3 提取鏈接93?
10.1.4 運(yùn)行校驗(yàn)循環(huán)93?
10.1.5 生成url完整路徑93?
10.1.6 下載全鏈接路徑94?
10.1.7 展示頁(yè)面狀態(tài)95?
10.2 運(yùn)行網(wǎng)絡(luò)機(jī)器人95?
10.2.1 lib_http_codes96?
10.2.2 lib_resolve_addresses96?
10.3 進(jìn)一步探討97?
第11章 搜索排名檢測(cè)網(wǎng)絡(luò)機(jī)器人98?
11.1 搜索結(jié)果頁(yè)介紹99?
11.2 搜索排名檢測(cè)網(wǎng)絡(luò)機(jī)器人做什么工作100?
11.3 運(yùn)行搜索排名檢測(cè)網(wǎng)絡(luò)機(jī)器人100?
11.4 搜索排名檢測(cè)網(wǎng)絡(luò)機(jī)器人的工作原理101?
11.5 搜索排名檢測(cè)網(wǎng)絡(luò)機(jī)器人腳本101?
11.5.1 初始化變量102?
11.5.2 開(kāi)始循環(huán)102?
11.5.3 獲取搜索結(jié)果103?
11.5.4 解析搜索結(jié)果103?
11.6 結(jié)論106?
11.6.1 對(duì)數(shù)據(jù)源要厚道106?
11.6.2 搜索網(wǎng)站對(duì)待網(wǎng)絡(luò)機(jī)器人可能會(huì)不同于瀏覽器106?
11.6.3 爬取搜索引擎不是好主意106?
11.6.4 熟悉google api107?
11.7 進(jìn)一步探討107?
第12章 信息聚合網(wǎng)絡(luò)機(jī)器人108?
12.1 給網(wǎng)絡(luò)機(jī)器人選擇數(shù)據(jù)源108?
12.2 信息聚合網(wǎng)絡(luò)機(jī)器人舉例109?
12.2.1 熟悉rss源109?
12.2.2 編寫(xiě)信息聚合網(wǎng)絡(luò)機(jī)器人111?
12.3 給信息聚合網(wǎng)絡(luò)機(jī)器人添加過(guò)濾機(jī)制114?
12.4 進(jìn)一步探討115?
第13章 ftp網(wǎng)絡(luò)機(jī)器人116?
13.1 ftp網(wǎng)絡(luò)機(jī)器人舉例116?
13.2 php和ftp118?
13.3 進(jìn)一步探討119?
第14章 閱讀電子郵件的網(wǎng)絡(luò)機(jī)器人120?
14.1 pop3協(xié)議120?
14.1.1 登錄到pop3郵件服務(wù)器120?
14.1.2 從pop3郵件服務(wù)器上讀取郵件121?
14.2 用網(wǎng)絡(luò)機(jī)器人執(zhí)行pop3命令123?
14.3 進(jìn)一步探討125?
14.3.1 電子郵件控制的網(wǎng)絡(luò)機(jī)器人125?
14.3.2 電子郵件接口125?
第15章 發(fā)送電子郵件的網(wǎng)絡(luò)機(jī)器人127?
15.1 電子郵件、網(wǎng)絡(luò)機(jī)器人以及垃圾郵件127?
15.2 使用smtp和php發(fā)送郵件128?
15.2.1 配置php發(fā)送郵件128?
15.2.2 使用mail()函數(shù)發(fā)送電子郵件129?
15.3 編寫(xiě)發(fā)送電子郵件通知的網(wǎng)絡(luò)機(jī)器人130?
15.3.1 讓合法的郵件不被過(guò)濾掉132?
15.3.2 發(fā)送html格式的電子郵件132?
15.4 進(jìn)一步探討134?
15.4.1 使用回復(fù)郵件剪裁訪問(wèn)列表134?
15.4.2 使用電子郵件作為你的網(wǎng)絡(luò)機(jī)器人運(yùn)行的通知134?
15.4.3 利用無(wú)線技術(shù)134?
15.4.4 編寫(xiě)發(fā)送短信的網(wǎng)絡(luò)機(jī)器人135?
第16章 將一個(gè)網(wǎng)站轉(zhuǎn)變成一個(gè)函數(shù)136?
16.1 編寫(xiě)一個(gè)函數(shù)接口136?
16.1.1 定義函數(shù)接口137?
16.1.2 分析目標(biāo)網(wǎng)頁(yè)137?
16.1.3 使用describe_zipcode()函數(shù)140?
16.2 結(jié)論141?
16.2.1 資源分發(fā)142?
16.2.2 使用標(biāo)準(zhǔn)接口142?
16.2.3 設(shè)計(jì)定制的輕量級(jí)“web服務(wù)”142?
第三部分 高級(jí)設(shè)計(jì)技巧?
第17章 蜘蛛145?
17.1 蜘蛛的工作原理145?
17.2 蜘蛛腳本示例146?
17.3 lib_simple_spider149?
17.3.1 harvest_links()149?
17.3.2 archive_links()149?
17.3.3 get_domain()150?
17.3.4 exclude_link()150?
17.4 使用蜘蛛進(jìn)行實(shí)驗(yàn)152?
17.5 添加載荷152?
17.6 進(jìn)一步探討153?
17.6.1 在數(shù)據(jù)庫(kù)中保存鏈接153?
17.6.2 分離鏈接和載荷153?
17.6.3 在多臺(tái)計(jì)算機(jī)上分配任務(wù)153?
17.6.4 管理頁(yè)面請(qǐng)求154?
第18章 采購(gòu)機(jī)器人和秒殺器155?
18.1 采購(gòu)機(jī)器人的原理155?
18.1.1 獲取采購(gòu)標(biāo)準(zhǔn)155?
18.1.2 認(rèn)證買(mǎi)家155?
18.1.3 核對(duì)商品156?
18.1.4 評(píng)估購(gòu)物觸發(fā)條件156?
18.1.5 執(zhí)行購(gòu)買(mǎi)157?
18.1.6 評(píng)估結(jié)果157?
18.2 秒殺器的原理157?
18.2.1 獲取采購(gòu)標(biāo)準(zhǔn)158?
18.2.2 認(rèn)證競(jìng)拍者158?
18.2.3 核對(duì)拍賣商品158?
18.2.4 同步時(shí)鐘158?
18.2.5 競(jìng)價(jià)時(shí)間159?
18.2.6 提交競(jìng)價(jià)160?
18.2.7 評(píng)估結(jié)果160?
18.3 測(cè)試自己的網(wǎng)絡(luò)機(jī)器人和秒殺器160?
18.4 進(jìn)一步探討160?
18.5 結(jié)論161?
第19章 網(wǎng)絡(luò)機(jī)器人和密碼學(xué)162?
19.1 設(shè)計(jì)使用加密的網(wǎng)絡(luò)機(jī)器人162?
19.1.1 ssl和php內(nèi)置函數(shù)163?
19.1.2 加密和php/curl163?
19.2 網(wǎng)頁(yè)加密的簡(jiǎn)要概述163?
19.3 結(jié)論164?
第20章 認(rèn)證165?
20.1 認(rèn)證的概念165?
20.1.1 在線認(rèn)證的類型165?
20.1.2 用多種方式加強(qiáng)認(rèn)證166?
20.1.3 認(rèn)證和網(wǎng)絡(luò)機(jī)器人166?
20.2 示例腳本和實(shí)踐頁(yè)面166?
20.3 基本認(rèn)證167?
20.4 會(huì)話認(rèn)證168?
20.4.1 使用cookie會(huì)話的認(rèn)證169?
20.4.2 使用查詢會(huì)話進(jìn)行認(rèn)證172?
20.5 結(jié)論174?
第21章 高級(jí)cookie管理175?
21.1 cookie的工作原理175?
21.2 php/curl和cookie177?
21.3 網(wǎng)絡(luò)機(jī)器人設(shè)計(jì)中面臨的cookie難題178?
21.3.1 擦除臨時(shí)性cookie178?
21.3.2 管理多用戶的cookie178?
21.4 進(jìn)一步探討179?
第22章 計(jì)劃運(yùn)行網(wǎng)絡(luò)機(jī)器人和蜘蛛180?
22.1 為網(wǎng)絡(luò)機(jī)器人配置計(jì)劃任務(wù)180?
22.2 windows xp任務(wù)調(diào)度程序181?
22.2.1 計(jì)劃網(wǎng)絡(luò)機(jī)器人按日運(yùn)行181?
22.2.2 復(fù)雜的計(jì)劃182?
22.3 windows 7任務(wù)調(diào)度程序184?
22.4 非日歷事件觸發(fā)器186?
22.5 結(jié)論188?
22.5.1 如何決定網(wǎng)絡(luò)機(jī)器人的最佳運(yùn)行周期188?
22.5.2 避免單點(diǎn)故障188?
22.5.3 在計(jì)劃中加入變化性188?
第23章 使用瀏覽器宏抓取怪異的網(wǎng)站189?
23.1 高效網(wǎng)頁(yè)抓取的阻礙190?
23.1.1 ajax190?
23.1.2 怪異的javascript和cookie行為190?
23.1.3 flash190?
23.2 使用瀏覽器宏解決網(wǎng)頁(yè)抓取難題191?
23.2.1 瀏覽器宏的定義191?
23.2.2 模擬瀏覽器的終極網(wǎng)絡(luò)機(jī)器人191?
23.2.3 安裝和使用imacros191?
23.2.4 創(chuàng)建第一個(gè)宏192?
23.3 結(jié)論197?
23.3.1 宏的必要性197?
23.3.2 其他用途197?
第24章 修改imacros198?
24.1 增強(qiáng)imacros的功能198?
24.1.1 不使用imacros腳本引擎的原因198?
24.1.2 創(chuàng)建動(dòng)態(tài)宏199?
24.1.3 自動(dòng)裝載imacros202?
24.2 進(jìn)一步探討204?
第25章 部署和擴(kuò)展205?
25.1 一對(duì)多環(huán)境205?
25.2 一對(duì)一環(huán)境206?
25.3 多對(duì)多環(huán)境206?
25.4 多對(duì)一環(huán)境206?
25.5 擴(kuò)展和拒絕服務(wù)攻擊207?
25.5.1 簡(jiǎn)易的網(wǎng)絡(luò)機(jī)器人也會(huì)產(chǎn)生大量數(shù)據(jù)207?
25.5.2 目標(biāo)的低效207?
25.5.3 過(guò)度擴(kuò)展的弊端207?
25.6 創(chuàng)建多個(gè)網(wǎng)絡(luò)機(jī)器人的實(shí)例208?
25.6.1 創(chuàng)建進(jìn)程208?
25.6.2 利用操作系統(tǒng)208?
25.6.3 在多臺(tái)計(jì)算機(jī)上分發(fā)任務(wù)208?
25.7 管理僵尸網(wǎng)絡(luò)209?
25.8 進(jìn)一步探討215?
第四部分 拓展知識(shí)?
第26章 設(shè)計(jì)隱蔽的網(wǎng)絡(luò)機(jī)器人和蜘蛛219?
26.1 設(shè)計(jì)隱蔽網(wǎng)絡(luò)機(jī)器人的原因219?
26.1.1 日志文件219?
26.1.2 日志監(jiān)控軟件222?
26.2 模擬人類行為實(shí)現(xiàn)隱蔽222?
26.2.1 善待資源222?
26.2.2 在繁忙的時(shí)刻運(yùn)行網(wǎng)絡(luò)機(jī)器人222?
26.2.3 在每天不同時(shí)刻運(yùn)行網(wǎng)絡(luò)機(jī)器人223?
26.2.4 不要在假期和周末運(yùn)行網(wǎng)絡(luò)機(jī)器人223?
26.2.5 使用隨機(jī)的延遲時(shí)間223?
26.3 結(jié)論223?
第27章 代理226?
27.1 代理的概念226?
27.2 虛擬世界中的代理226?
27.3 網(wǎng)絡(luò)機(jī)器人開(kāi)發(fā)者使用代理的原因226?
27.3.1 使用代理實(shí)現(xiàn)匿名227?
27.3.2 使用代理改變位置229?
27.4 使用代理服務(wù)器229?
27.4.1 在瀏覽器中使用代理229?
27.4.2 通過(guò)php/curl使用代理230?
27.5 代理服務(wù)器的類型230?
27.5.1 公共代理230?
27.5.2 tor232?
27.5.3 商業(yè)代理234?
27.6 結(jié)論234?
27.6.1 匿名是過(guò)程,不是特性234?
27.6.2 創(chuàng)建自己的代理服務(wù)235?
第28章 編寫(xiě)容錯(cuò)的網(wǎng)絡(luò)機(jī)器人236?
28.1 網(wǎng)絡(luò)機(jī)器人容錯(cuò)的類型236?
28.1.1 適應(yīng)url變化236?
28.1.2 適應(yīng)頁(yè)面內(nèi)容的變化240?
28.1.3 適應(yīng)表單的變化242?
28.1.4 適應(yīng)cookie管理的變化243?
28.1.5 適應(yīng)網(wǎng)絡(luò)中斷和網(wǎng)絡(luò)擁堵243?
28.2 錯(cuò)誤處理器244?
28.3 進(jìn)一步探討245?
第29章 設(shè)計(jì)受網(wǎng)絡(luò)機(jī)器人青睞的網(wǎng)站246?
29.1 針對(duì)搜索引擎蜘蛛優(yōu)化網(wǎng)頁(yè)246?
29.1.1 定義明確的鏈接246?
29.1.2 谷歌轟炸和垃圾索引247?
29.1.3 標(biāo)題標(biāo)簽247?
29.1.4 元標(biāo)簽247?
29.1.5 標(biāo)頭標(biāo)簽248?
29.1.6 圖片的alt屬性248?
29.2 阻礙搜索引擎蜘蛛的網(wǎng)頁(yè)設(shè)計(jì)技巧248?
29.2.1 javascript249?
29.2.2 非ascii內(nèi)容249?
29.3 設(shè)計(jì)純數(shù)據(jù)接口249?
29.3.1 xml249?
29.3.2 輕量級(jí)數(shù)據(jù)交換251?
29.3.3 簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議253?
29.3.4 表征狀態(tài)轉(zhuǎn)移254?
29.4 結(jié)論255?
第30章 消滅蜘蛛256?
30.1 合理地請(qǐng)求256?
30.1.1 創(chuàng)建服務(wù)協(xié)議條款257?
30.1.2 使用robots.txt文件257?
30.1.3 使用robots元標(biāo)簽258?
30.2 創(chuàng)造障礙258?
30.2.1 選擇性地允許特定的網(wǎng)頁(yè)代理259?
30.2.2 使用混淆259?
30.2.3 使用cookie、加密、javascript和重定向259?
30.2.4 認(rèn)證用戶260?
30.2.5 頻繁升級(jí)網(wǎng)站260?
30.2.6 在其他媒體中嵌入文本260?
30.3 設(shè)置陷阱261?
30.3.1 創(chuàng)建蜘蛛陷阱261?
30.3.2 處理不速之客的方法261?
30.4 結(jié)論262?
第31章 遠(yuǎn)離麻煩263?
31.1 尊重264?
31.2 版權(quán)264?
31.2.1 請(qǐng)善用資源264?
31.2.2 不要紙上談兵265?
31.3 侵犯動(dòng)產(chǎn)267?
31.4 互聯(lián)網(wǎng)法律268?
31.5 結(jié)論269?
附錄a php/curl參考270?
附錄b 狀態(tài)碼277?
附錄c 短信網(wǎng)關(guān)280
本
圖書(shū)
信息來(lái)源:
中國(guó)互動(dòng)出版網(wǎng)
?
Webbots、Spiders和Screen Scrapers:技術(shù)解析與應(yīng)用實(shí)踐(原書(shū)第2版)
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
