亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python爬蟲

系統(tǒng) 1983 0

python爬蟲1

《1》什么是爬蟲網(wǎng)絡爬蟲?
網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人), 是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。

《2》爬蟲的基本原理:
我們把互聯(lián)網(wǎng)比喻為一張大網(wǎng),網(wǎng)絡爬蟲我們想象為網(wǎng)上的蜘蛛,網(wǎng)頁與網(wǎng)頁之間的連接我們理解為節(jié)點,爬蟲就相當于是訪問網(wǎng)頁,獲取網(wǎng)頁的信息,又通過節(jié)點可以爬取另一個網(wǎng)站,然后不停的通過一個個節(jié)點即訪問一個個網(wǎng)頁,這樣網(wǎng)站的數(shù)據(jù)就可以被我們獲取下來了。

《3》爬蟲的分類:網(wǎng)絡爬蟲可分為 通用爬蟲 聚焦爬蟲 兩種

1 通用爬蟲 :通用網(wǎng)絡爬蟲 是 捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地,形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。
2 聚焦爬蟲 :聚焦爬蟲,是"面向特定主題需求"的一種網(wǎng)絡爬蟲程序,它與通用搜索引擎爬蟲的區(qū)別在于:聚焦爬蟲在實施網(wǎng)頁抓取時會對內(nèi)容進行處理篩選,盡量保證只抓取與需求相關(guān)的網(wǎng)頁信息。

urllib庫

三個方面:

request: 它是最基本的HTTP請求模塊,可以用來模擬發(fā)送請求,就像在瀏覽器中輸入網(wǎng)址,然后敲擊回車鍵一樣,使用的時候只需要給庫方法傳入相關(guān)的URL和相關(guān)的參數(shù)即可.

error: 異常處理模塊,如果出現(xiàn)請求錯誤,我們可以使用這個模塊來捕獲異常,然后進行重試或者其他操作,保證程序不會意外終止.

parse: 這是一個工具模塊,提供了許多url的處理方法,比如拆分,解析,合并等等.

參數(shù)序列化:

1 parse_qs() 將url編碼格式的參數(shù)反序列化為字典類型
2 quote() 可以將中文轉(zhuǎn)換為URL編碼格式
3 unquote: 可以將URL編碼進行解碼
4 urljoin() 傳遞一個基礎鏈接,根據(jù)基礎鏈接可以將某一個不完整的鏈接拼接為一個完整鏈接
5 urlparse() 實現(xiàn)URL的識別和分段
6 urlunparse() 可以實現(xiàn)URL的構(gòu)造

正則表達式

實際上爬蟲一共就四個主要步驟:

            
              * 明確目標 (要知道你準備在哪個范圍或者網(wǎng)站去搜索)
* 爬 (將所有的網(wǎng)站的內(nèi)容全部爬下來)
* 取 (去掉對我們沒用處的數(shù)據(jù))
* 處理數(shù)據(jù)(按照我們想要的方式存儲和使用)

            
          

常用的正則匹配規(guī)則:
單字符撇匹配

            
              * \d : 匹配數(shù)字0-9
* \D: 匹配非數(shù)字 [^\d] [^0-9]
* \w: 匹配單詞字符[a-zA-Z0-9_]
* \W: 匹配非單詞字符 [^\w]
* \s: 匹配空白字符 (空格、\t....)
* \S: 匹配非空白字符 [^\s]
* . 匹配除了換行符'\n'之外的任意字符

            
          

多字符匹配(貪婪:盡可能多的匹配)
* 匹配*前的正則表達式,任意次數(shù)
? 匹配?前的正則表達式,0次或1次
+ 匹配+前的正則表達式,至少一次
{n,m} 匹配{n,m}前的正則表達式, n到m次
{n} 匹配{n}前的正則表達式, n次

非貪婪匹配 (非貪婪匹配:盡可能少的匹配)
*?
??
+?

其他:
== | 或:匹配左邊和右邊的正則表達式之一==
== () 分組==
^ 匹配字符串開頭
== $ 匹配字符串結(jié)尾==

re 模塊

            
              1. compile 方法: 將正則表達式的字符串形式編譯為一個 Pattern 對象
2. match 方法:從起始位置開始匹配符合規(guī)則的字符串,單次匹配,匹配成功,立即返回Match對象,未匹配成功則返回None
3. search 方法:從整個字符串中匹配符合規(guī)則的字符串,單次匹配,匹配成功,立即返回Match對象,未匹配成功則返回None
4. findall 方法:匹配所有合規(guī)則的字符串,匹配到的字符串放到一個列表中,未匹配成功返回空列表
5. finditer 方法:匹配所有合規(guī)則的字符串,匹配到的字符串放到一個列表中,匹配成功返回
6. split 方法:根據(jù)正則匹配規(guī)則分割字符串,返回分割后的一個列表
7. sub 方法:替換匹配成功的指定位置字符串

            
          

XPath選擇器

<1>什么是XPath?

  • XPath (XML Path Language) 是一門在 XML 文檔中查找信息的語言,可用來在 XML 文檔中對元素和屬性進行遍歷。

<2>XPath最常用的路徑表達式:

  • /從根節(jié)點選取。
  • //從匹配選擇的當前節(jié)點選擇文檔中的節(jié)點,而不考慮它們的位置。
  • .選取當前節(jié)點。
  • …選取當前節(jié)點的父節(jié)點。
  • @選取屬性。
  • bookstore選取 bookstore 元素的所有子節(jié)點。
  • /bookstore選取根元素 bookstore。注釋:假如路徑起始于正斜杠( / ),則此路徑始終代表到某元素的絕對路徑!
  • bookstore/book選取屬于 bookstore 的子元素的所有 book 元素。
  • //book選取所有 book 子元素,而不管它們在文檔中的位置。
  • bookstore//book選擇屬于 bookstore 元素的后代的所有 book 元素,而不管它們位于 bookstore 之下的什么位置。
  • //@lang選取名為 lang 的所有屬性。
  • /bookstore/*選取 bookstore 元素的所有子元素。
  • //*選取文檔中的所有元素。html/node()/meta/@*選擇html下面任意節(jié)點下的meta節(jié)點的所有屬性
  • //title[@*]選取所有帶有屬性的 title 元素。

python爬蟲_第1張圖片

CSS 選擇器:BeautifulSoup4

  • 注:和 lxml 一樣,Beautiful Soup 也是python的一個HTML/XML的解析器,用它可以方便的從網(wǎng)頁中提取數(shù)據(jù)。
  • BeautifulSoup 用來解析 HTML 比較簡單,API非常人性化,支持CSS選擇器、Python標準庫中的HTML解析器,也支持 lxml 的 XML解析器。

官方文檔:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0


更多文章、技術(shù)交流、商務合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 免费黄色影院 | www.精品在线| 特级无码a级毛片特黄 | 国产精品久久久久久 | 久久综合资源 | 欧美亚洲一区二区三区四 | 欧美日韩高清在线 | 亚洲黄a | 欧美日韩福利视频一区二区三区 | 国产精选91热在线观看 | 免费国产一级 | 精品成人一区二区三区免费视频 | h视频网站在线观看 | 女人18毛片黄 | 午夜精品影院 | 国产一级毛片夜一级毛片 | 我要看免费毛片 | 国产精品一区二区在线观看 | 久久国产精品久久国产片 | 精品国产免费一区二区三区五区 | 国产操比 | 精品日韩在线视频 | 四虎看黄| 国产全黄a一级毛片视频 | 91在线 | 亚洲 | 精品无人区乱码1区2区 | 深夜影院a | 午夜精品久久久久久久99热浪潮 | 欧美e片成 人 在线播放乱妇 | 久久久久女人精品毛片九一 | 九天玄帝诀王凡小说免费阅读 | 爱神马午夜| 欧美毛片在线播放观看 | 国产亚洲精品麻豆一区二区 | 久久久久久全国免费观看 | 特级黄色毛片视频 | 国产精品久久久久免费视频 | 久久香蕉国产线看观看亚洲卡 | 九九视频国产免 | 摸一摸操一操 | 99精品观看 |