亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

零基礎(chǔ)寫python爬蟲之urllib2中的兩個(gè)重要概念:Openers和

系統(tǒng) 1924 0

在開始后面的內(nèi)容之前,先來解釋一下urllib2中的兩個(gè)個(gè)方法:info?/ geturl
urlopen返回的應(yīng)答對象response(或者HTTPError實(shí)例)有兩個(gè)很有用的方法info()和geturl()

1.geturl():

這個(gè)返回獲取的真實(shí)的URL,這個(gè)很有用,因?yàn)閡rlopen(或者opener對象使用的)或許會有重定向。獲取的URL或許跟請求URL不同。
以人人中的一個(gè)超級鏈接為例,
我們建一個(gè)urllib2_test10.py來比較一下原始URL和重定向的鏈接:

復(fù)制代碼 代碼如下:

from urllib2 import Request, urlopen, URLError, HTTPError?
old_url = 'http://rrurl.cn/b1UZuP'?
req = Request(old_url)?
response = urlopen(req)???
print 'Old url :' + old_url?
print 'Real url :' + response.geturl()?

運(yùn)行之后可以看到真正的鏈接指向的網(wǎng)址:

零基礎(chǔ)寫python爬蟲之urllib2中的兩個(gè)重要概念:Openers和Handlers_第1張圖片

2.info():

這個(gè)返回對象的字典對象,該字典描述了獲取的頁面情況。通常是服務(wù)器發(fā)送的特定頭headers。目前是httplib.HTTPMessage 實(shí)例。
經(jīng)典的headers包含"Content-length","Content-type",和其他內(nèi)容。
我們建一個(gè)urllib2_test11.py來測試一下info的應(yīng)用:

復(fù)制代碼 代碼如下:

from urllib2 import Request, urlopen, URLError, HTTPError?
old_url = 'http://www.baidu.com'?
req = Request(old_url)?
response = urlopen(req)???
print 'Info():'?
print response.info()?

運(yùn)行的結(jié)果如下,可以看到頁面的相關(guān)信息:

零基礎(chǔ)寫python爬蟲之urllib2中的兩個(gè)重要概念:Openers和Handlers_第2張圖片

下面來說一說urllib2中的兩個(gè)重要概念:Openers和Handlers。

1.Openers:

當(dāng)你獲取一個(gè)URL你使用一個(gè)opener(一個(gè)urllib2.OpenerDirector的實(shí)例)。
正常情況下,我們使用默認(rèn)opener:通過urlopen。
但你能夠創(chuàng)建個(gè)性的openers。

2.Handles:

Openers使用處理器handlers,所有的“繁重”工作由handlers處理。
每個(gè)handlers知道如何通過特定協(xié)議打開URLs,或者如何處理URL打開時(shí)的各個(gè)方面。
例如HTTP重定向或者HTTP cookies。

如果你希望用特定處理器獲取URLs你會想創(chuàng)建一個(gè)openers,例如獲取一個(gè)能處理cookie的opener,或者獲取一個(gè)不重定向的opener。

要?jiǎng)?chuàng)建一個(gè) opener,可以實(shí)例化一個(gè)OpenerDirector,
然后調(diào)用.add_handler(some_handler_instance)。
同樣,可以使用build_opener,這是一個(gè)更加方便的函數(shù),用來創(chuàng)建opener對象,他只需要一次函數(shù)調(diào)用。
build_opener默認(rèn)添加幾個(gè)處理器,但提供快捷的方法來添加或更新默認(rèn)處理器。
其他的處理器handlers你或許會希望處理代理,驗(yàn)證,和其他常用但有點(diǎn)特殊的情況。

install_opener 用來創(chuàng)建(全局)默認(rèn)opener。這個(gè)表示調(diào)用urlopen將使用你安裝的opener。
Opener對象有一個(gè)open方法。
該方法可以像urlopen函數(shù)那樣直接用來獲取urls:通常不必調(diào)用install_opener,除了為了方便。

說完了上面兩個(gè)內(nèi)容,下面我們來看一下基本認(rèn)證的內(nèi)容,這里會用到上面提及的Opener和Handler。

Basic Authentication 基本驗(yàn)證

為了展示創(chuàng)建和安裝一個(gè)handler,我們將使用HTTPBasicAuthHandler。
當(dāng)需要基礎(chǔ)驗(yàn)證時(shí),服務(wù)器發(fā)送一個(gè)header(401錯(cuò)誤碼) 請求驗(yàn)證。這個(gè)指定了scheme 和一個(gè)‘realm',看起來像這樣:Www-authenticate: SCHEME realm="REALM".
例如
Www-authenticate: Basic realm="cPanel Users"
客戶端必須使用新的請求,并在請求頭里包含正確的姓名和密碼。
這是“基礎(chǔ)驗(yàn)證”,為了簡化這個(gè)過程,我們可以創(chuàng)建一個(gè)HTTPBasicAuthHandler的實(shí)例,并讓opener使用這個(gè)handler就可以啦。

HTTPBasicAuthHandler使用一個(gè)密碼管理的對象來處理URLs和realms來映射用戶名和密碼。
如果你知道realm(從服務(wù)器發(fā)送來的頭里)是什么,你就能使用HTTPPasswordMgr。

通常人們不關(guān)心realm是什么。那樣的話,就能用方便的HTTPPasswordMgrWithDefaultRealm。
這個(gè)將在你為URL指定一個(gè)默認(rèn)的用戶名和密碼。
這將在你為特定realm提供一個(gè)其他組合時(shí)得到提供。
我們通過給realm參數(shù)指定None提供給add_password來指示這種情況。

最高層次的URL是第一個(gè)要求驗(yàn)證的URL。你傳給.add_password()更深層次的URLs將同樣合適。
說了這么多廢話,下面來用一個(gè)例子演示一下上面說到的內(nèi)容。
我們建一個(gè)urllib2_test12.py來測試一下info的應(yīng)用:

復(fù)制代碼 代碼如下:

# -*- coding: utf-8 -*-?
import urllib2?
# 創(chuàng)建一個(gè)密碼管理者?
password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()?
# 添加用戶名和密碼?
top_level_url = " http://example.com/foo/"?
# 如果知道 realm, 我們可以使用他代替 ``None``.?
# password_mgr.add_password(None, top_level_url, username, password)?
password_mgr.add_password(None, top_level_url,'why', '1223')?
# 創(chuàng)建了一個(gè)新的handler?
handler = urllib2.HTTPBasicAuthHandler(password_mgr)?
# 創(chuàng)建 "opener" (OpenerDirector 實(shí)例)?
opener = urllib2.build_opener(handler)?
a_url = 'http://www.baidu.com/'?
# 使用 opener 獲取一個(gè)URL?
opener.open(a_url)?
# 安裝 opener.?
# 現(xiàn)在所有調(diào)用 urllib2.urlopen 將用我們的 opener.?
urllib2.install_opener(opener)?

??
注意:以上的例子我們僅僅提供我們的HHTPBasicAuthHandler給build_opener。
默認(rèn)的openers有正常狀況的handlers:ProxyHandler,UnknownHandler,HTTPHandler,HTTPDefaultErrorHandler, HTTPRedirectHandler,F(xiàn)TPHandler, FileHandler, HTTPErrorProcessor。
代碼中的top_level_url 實(shí)際上可以是完整URL(包含"http:",以及主機(jī)名及可選的端口號)。
例如: http://example.com/。
也可以是一個(gè)“authority”(即主機(jī)名和可選的包含端口號)。
例如:“example.com” or “example.com:8080”。
后者包含了端口號。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产成年视频 | 欧美jizz19性欧美 | 亚洲精品国产成人中文 | 欧美专区一区二区三区 | 久草在线精品视频 | 国产亚洲精品sese在线播放 | 一区二区在线播放福利视频 | 久久中文在线 | 午夜在线观看网站 | 久草视频免费在线观看 | 精品偷拍模特露出丝袜在线 | 日本不卡二区 | 国产大片中文字幕在线观看 | 国产精品亚洲精品久久成人 | 久久久久久夜精品精品免费 | 欧美videofree高清杂交 | 人人艹在线 | 97在线观看免费观看高清 | 99福利网| 欧美男人天堂网 | 欧美日韩国产一区二区三区 | 亚洲精品一区二区三区福利 | 欧美亚洲一区二区三区 | 国产一区在线免费观看 | 四虎影视在线影院在线观看 | 国产毛片一区二区三区精品 | 色狠狠一区二区 | 嘿咻嘿咻免费区在线观看吃奶 | 国产成人免费高清在线观看 | 久久精品视频在线 | 日本高清中文字幕一区二区三区 | 成人欧美一区二区三区黑人妖 | 国产亚洲图片 | 精品免费国产一区二区三区 | 四虎影视成人精品 | 日本毛片在线看 | 日本不卡免费高清一级视频 | 91av国产精品| 久久亚洲国产中v天仙www | 奇米影视四色狠狠888俺去啦 | 欧美激情精品久久久久久大尺度 |