亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python爬蟲---從零開始(一)初識爬蟲

系統 1788 0

  我們開始來談談python的爬蟲。

1,什么是爬蟲:

網絡爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲?;ヂ摼W猶如一個大蜘蛛網,我們的爬蟲就猶如一個蜘蛛,當在互聯網遇到所需要的資源,我們就會爬取下來,即為爬蟲是一個請求網站 并且提取數據的自動化程序。

2,下面我們來提到兩個名詞:

  1)請求,request即為我們的請求,當我們在瀏覽器內輸入網址,敲擊回車時,這時瀏覽器就會發送消息給該網址所在的服務器,這個過程叫做HTTP Request

  2)響應,response即為我們的響應,服務器在接收到瀏覽器發送的消息后,能夠根據瀏覽器發送消息的內容做出相應的處理,然后把消息回傳給瀏覽器。這個過程就做HTTP Response。瀏覽器收到服務器的Response信息后,會對信息進行處理,然后展示。

3,Request中包含什么?

  1)請求方式,請求方式主要包含get,post,另外還有put,head,delete,options等,但我們常用的、常見的還是get和post請求。

    get請求:get請求方式所有的參數都包含在URL地址里,get請求可以直接在瀏覽器地址欄內輸入URL地址,然后直接訪問。

    post請求:比get方式多包含一個formdata數據,且參數沒有在URL地址內。不可以直接在地址欄訪問,需要構造一個form表單,進行提交訪問。

    同時post請求所有參數不顯示地址欄內,相對于get請求來說更安全。

  2)請求URL,URL全稱統一資源定位符,如一個網頁文檔、一張圖片、一個視頻等都可以用URL唯一來確定。

  3)請求頭,包含請求時的頭部信息,如User-Agent、Host、Cookies等信息,請求頭是一個很重要的參數,在很多爬蟲里需要設置請求頭信息,

    一般權限驗證,瀏覽器類型等信息,如下圖所示:

python爬蟲---從零開始(一)初識爬蟲_第1張圖片

  4)請求體,請求時額外攜帶的數據,如表單提交時的表單數據,一般來說get方式請求時,都沒有請求體。

4,Response中包含什么?

  1)響應狀態,有多種響應狀態,如200代表成功,404找不到頁面,500服務器錯誤

    擴展:

-1xx :報告的 -請求被接收到,繼續處理

      -2xx :成功 - 被成功地接收(received),理解(understood),接受(accepted)的動作 。

      -3xx :重發 - 為了完成請求必須采取進一步的動作。

      -4xx :客戶端出錯 - 請求包括錯的語法或不能被滿足。

      -5xx :服務器出錯 - 服務器無法完成顯然有效的請求。

2)響應頭,如內容類型、內容長度、服務器信息、設置Cookie等等信息。如圖所示:

python爬蟲---從零開始(一)初識爬蟲_第2張圖片

  3)響應體,最主要的部分,包含了請求資源的內容,如網頁HTML,圖片,二進制數據(視頻,圖片等)等信息。

    我們爬取的數據大部分就是從這個部分獲取的

5,我們所需要的環境和資源

  1)python環境,最好是python3,python2在2020年就不再維護了,語法還是有一定差異的,我建議使用python3。

  2)redis,mongo分關系型數據庫,安裝過程自行百度。(后期會有專門的博客來說明講解非關系型數據庫)。

  3)scrapy環境,pip install scrapy即可安裝。

  4)Urllib庫,Requests庫,BeautifulSoup庫,PyQuery,Selenium和與其相關聯的環境配置(后面我們會逐個來說明每一個庫和其操作使用方法)。

?

總結: 爬蟲是一個請求網站并且提取數據的自動化程序。有的是通過原生html標簽就可以獲取到數據,則有的需要通過解析ajax請求來取得數據。

?

             第一次寫博客,還是有點點緊張,我也是現學現賣的,歡迎斧正。謝謝...

?

?

?


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。?!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 欧美成成人免费 | 亚洲h在线观看 | 久久99精品国产免费观看 | 四虎国产精品永久一区 | 亚洲久久网| 久久777国产线看是看精品 | 日本免费的一级v一片 | 久久香蕉综合精品国产 | 你懂的日韩 | 在线观看视频中文字幕 | 精品视频免费 | 日韩精品欧美成人 | 九九热线 | 日本一区二区免费视频 | 手机在线一区二区三区 | 国产香蕉一区二区在线网站 | 四虎国产精品视频免费看 | 网站黄色在线观看 | 亚洲 欧美 中文字幕 | 久久精品三级 | 日本中文字幕不卡免费视频 | 欧美成人se01短视频在线看 | 99热久久精品首页 | 精品小视频在线 | 免费h片| 中文字幕中韩乱码亚洲大片 | 久久精品无码一区二区三区 | 免费国产午夜高清在线视频 | 日日拍夜夜嗷嗷叫狠狠 | 精品国产品香蕉在线观看 | avav在线精品 | 91在线播放国产 | 一级特黄一欧美俄罗斯毛片 | 亚洲免费大片 | 在线观看 中文字幕 | 日本成人久久 | 免费精品久久 | 免费看黄色片视频 | 欧美中文在线观看 | 一区二区三区免费在线视频 | 亚洲精品一区二区久久久久 |