背景
中秋的時(shí)候,一個(gè)朋友給我發(fā)了一封郵件,說(shuō)他在爬鏈家的時(shí)候,發(fā)現(xiàn)網(wǎng)頁(yè)返回的代碼都是亂碼,讓我?guī)退麉⒅\參謀(中秋加班,真是敬業(yè)= =!),其實(shí)這個(gè)問(wèn)題我很早就遇到過(guò),之前在爬小說(shuō)的時(shí)候稍微看了一下,不過(guò)沒(méi)當(dāng)回事,其實(shí)這個(gè)問(wèn)題就是對(duì)編碼的理解不到位導(dǎo)致的。
問(wèn)題
很普通的一個(gè)爬蟲(chóng)代碼,代碼是這樣的:
# ecoding=utf-8 import re import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/' res = requests.get(url) print res.text
目的其實(shí)很簡(jiǎn)單,就是爬一下鏈家的內(nèi)容,但是這樣執(zhí)行之后,返回的結(jié)果,所有涉及到中文的內(nèi)容,全部會(huì)變成亂碼,比如這樣
這樣的數(shù)據(jù)拿來(lái)可以說(shuō)毫無(wú)作用。
問(wèn)題分析
這里的問(wèn)題很明顯了,就是文字的編碼不正確,導(dǎo)致了亂碼。
查看網(wǎng)頁(yè)的編碼
從爬取的目標(biāo)網(wǎng)頁(yè)的頭來(lái)看,網(wǎng)頁(yè)是用utf-8來(lái)編碼的。
所以,最終的編碼,我們肯定也要用utf-8來(lái)處理,也就是說(shuō),最終的文本處理,要用utf-8來(lái)解碼,也就是:decode('utf-8')
文本的編碼解碼
Python的編碼解碼的過(guò)程是這樣的,源文件 ===》 encode(編碼方式) ===》decode(解碼方式),在很大的程度上,不推薦使用
import sys reload(sys) sys.setdefaultencoding('utf8')
這種方式來(lái)硬處理文字編碼。不過(guò)在某些時(shí)候不影響的情況下,偷偷懶也不是什么大問(wèn)題,不過(guò)比較建議的就是獲取源文件之后,使用encode和decode的方式來(lái)處理文本。
回到問(wèn)題
現(xiàn)在問(wèn)題最大的是源文件的編碼方式,我們正常使用requests的時(shí)候,它會(huì)自動(dòng)猜源文件的編碼方式,然后轉(zhuǎn)碼成Unicode的編碼,但是,畢竟是程序,是有可能猜錯(cuò)的,所以如果猜錯(cuò)了,我們就需要手工來(lái)指定編碼方式。官方文檔的描述如下:
When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.
所以我們需要查看requests返回的編碼方式到底是什么?
# ecoding=utf-8 import re import requests from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/' res = requests.get(url) print res.encoding
打印的結(jié)果如下:
ISO-8859-1
也就是說(shuō),源文件使用的是ISO-8859-1來(lái)編碼。百度一下ISO-8859-1,結(jié)果如下:
ISO8859-1,通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語(yǔ)言不可缺少的附加字符。
問(wèn)題解決
發(fā)現(xiàn)了這個(gè)東東,問(wèn)題就很好解決了,只要指定一下編碼,就能正確的打出中文了。代碼如下:
# ecoding=utf-8 import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/' res = requests.get(url) res.encoding = ('utf8') print res.text
打印的結(jié)果就很明顯,中文都正確的顯示出來(lái)了。
另一種方式是在源文件上做解碼和編碼,代碼如下:
# ecoding=utf-8 import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/' res = requests.get(url) # res.encoding = ('utf8') print res.text.encode('ISO-8859-1').decode('utf-8')
另:ISO-8859-1也叫做latin1,使用latin1做解碼結(jié)果也是正常的。
關(guān)于字符的編碼,很多東西可以說(shuō),想了解的朋友可以參考以下大神的資料。
?《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》
以上這篇淺談Python爬取網(wǎng)頁(yè)的編碼處理就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
