亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python爬蟲豆瓣網(wǎng)的模擬登錄實現(xiàn)

系統(tǒng) 1806 0

思路

一、想要實現(xiàn)登錄豆瓣關(guān)鍵點

分析真實post地址 ----尋找它的formdata,如下圖,按瀏覽器的F12可以找到。

python爬蟲豆瓣網(wǎng)的模擬登錄實現(xiàn)_第1張圖片

實戰(zhàn)操作

  • 實現(xiàn):模擬登錄豆瓣,驗證碼處理,登錄到個人主頁就算是success
  • 數(shù)據(jù):沒有抓取數(shù)據(jù),此實戰(zhàn)主要是模擬登錄和處理驗證碼的學習。要是有需求要抓取數(shù)據(jù),編寫相關(guān)的抓取規(guī)則即可抓取內(nèi)容。

登錄成功展示如圖:

python爬蟲豆瓣網(wǎng)的模擬登錄實現(xiàn)_第2張圖片

spiders文件夾中DouBan.py主要代碼如下:

            
# -*- coding: utf-8 -*-
import scrapy,urllib,re
from scrapy.http import Request,FormRequest
import ruokuai
'''
遇到不懂的問題?Python學習交流群:821460695滿足你的需求,資料都已經(jīng)上傳群文件,可以自行下載!
'''
class DoubanSpider(scrapy.Spider):
 name = "DouBan"
 allowed_domains = ["douban.com"]
 #start_urls = ['http://douban.com/']
 header={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"} #供登錄模擬使用
 def start_requests(self):
  url='https://www.douban.com/accounts/login'
  return [Request(url=url,meta={"cookiejar":1},callback=self.parse)]#可以傳遞一個標示符來使用多個。如meta={'cookiejar': 1}這句,后面那個1就是標示符

 def parse(self, response):
  captcha=response.xpath('//*[@id="captcha_image"]/@src').extract() #獲取驗證碼圖片的鏈接
  print captcha
  if len(captcha)>0:
   '''此時有驗證碼'''
   #人工輸入驗證碼
   #urllib.urlretrieve(captcha[0],filename="C:/Users/pujinxiao/Desktop/learn/douban20170405/douban/douban/spiders/captcha.png")
   #captcha_value=raw_input('查看captcha.png,有驗證碼請輸入:')

   #用快若打碼平臺處理驗證碼--------驗證碼是任意長度字母,成功率較低
   captcha_value=ruokuai.get_captcha(captcha[0])
   reg=r'
            
              (.*?)
            
            '
   reg=re.compile(reg)
   captcha_value=re.findall(reg,captcha_value)[0]
   print '驗證碼為:',captcha_value

   data={
    "form_email": "weisuen007@163.com",
    "form_password": "weijc7789",
    "captcha-solution": captcha_value,
    #"redir": "https://www.douban.com/people/151968962/",  #設(shè)置需要轉(zhuǎn)向的網(wǎng)址,由于我們需要爬取個人中心頁,所以轉(zhuǎn)向個人中心頁
   }
  else:
   '''此時沒有驗證碼'''
   print '無驗證碼'
   data={
    "form_email": "weisuen007@163.com",
    "form_password": "weijc7789",
    #"redir": "https://www.douban.com/people/151968962/",
   }
  print '正在登陸中......'
  ####FormRequest.from_response()進行登陸
  return [
   FormRequest.from_response(
    response,
    meta={"cookiejar":response.meta["cookiejar"]},
    headers=self.header,
    formdata=data,
    callback=self.get_content,
   )
  ]
 def get_content(self,response):
  title=response.xpath('//title/text()').extract()[0]
  if u'登錄豆瓣' in title:
   print '登錄失敗,請重試!'
  else:
   print '登錄成功'
   '''
   可以繼續(xù)后續(xù)的爬取工作
   '''
          

ruokaui.py代碼如下:

我所用的是若塊打碼平臺,選擇url識別驗證碼,直接給打碼平臺驗證碼圖片的鏈接地址,傳回驗證碼的值。

            
# -*- coding: utf-8 -*-
import sys, hashlib, os, random, urllib, urllib2
from datetime import *
'''
遇到不懂的問題?Python學習交流群:821460695滿足你的需求,資料都已經(jīng)上傳群文件,可以自行下載!
'''
class APIClient(object):
 def http_request(self, url, paramDict):
  post_content = ''
  for key in paramDict:
   post_content = post_content + '%s=%s&'%(key,paramDict[key])
  post_content = post_content[0:-1]
  #print post_content
  req = urllib2.Request(url, data=post_content)
  req.add_header('Content-Type', 'application/x-www-form-urlencoded')
  opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) 
  response = opener.open(req, post_content) 
  return response.read()

 def http_upload_image(self, url, paramKeys, paramDict, filebytes):
  timestr = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
  boundary = '------------' + hashlib.md5(timestr).hexdigest().lower()
  boundarystr = '\r\n--%s\r\n'%(boundary)
  
  bs = b''
  for key in paramKeys:
   bs = bs + boundarystr.encode('ascii')
   param = "Content-Disposition: form-data; name=\"%s\"\r\n\r\n%s"%(key, paramDict[key])
   #print param
   bs = bs + param.encode('utf8')
  bs = bs + boundarystr.encode('ascii')
  
  header = 'Content-Disposition: form-data; name=\"image\"; filename=\"%s\"\r\nContent-Type: image/gif\r\n\r\n'%('sample')
  bs = bs + header.encode('utf8')
  
  bs = bs + filebytes
  tailer = '\r\n--%s--\r\n'%(boundary)
  bs = bs + tailer.encode('ascii')
  
  import requests
  headers = {'Content-Type':'multipart/form-data; boundary=%s'%boundary,
     'Connection':'Keep-Alive',
     'Expect':'100-continue',
     }
  response = requests.post(url, params='', data=bs, headers=headers)
  return response.text

def arguments_to_dict(args):
 argDict = {}
 if args is None:
  return argDict
 
 count = len(args)
 if count <= 1:
  print 'exit:need arguments.'
  return argDict
 
 for i in [1,count-1]:
  pair = args[i].split('=')
  if len(pair) < 2:
   continue
  else:
   argDict[pair[0]] = pair[1]

 return argDict

def get_captcha(image_url):
 client = APIClient()
 while 1:
  paramDict = {}
  result = ''
  act = raw_input('請輸入打碼方式url:')
  if cmp(act, 'info') == 0: 
   paramDict['username'] = raw_input('username:')
   paramDict['password'] = raw_input('password:')
   result = client.http_request('http://api.ruokuai.com/info.xml', paramDict)
  elif cmp(act, 'register') == 0:
   paramDict['username'] = raw_input('username:')
   paramDict['password'] = raw_input('password:')
   paramDict['email'] = raw_input('email:')
   result = client.http_request('http://api.ruokuai.com/register.xml', paramDict)
  elif cmp(act, 'recharge') == 0:
   paramDict['username'] = raw_input('username:')
   paramDict['id'] = raw_input('id:')
   paramDict['password'] = raw_input('password:')
   result = client.http_request('http://api.ruokuai.com/recharge.xml', paramDict)
  elif cmp(act, 'url') == 0:
   paramDict['username'] = '********'
   paramDict['password'] = '********'
   paramDict['typeid'] = '2000'
   paramDict['timeout'] = '90'
   paramDict['softid'] = '76693'
   paramDict['softkey'] = 'ec2b5b2a576840619bc885a47a025ef6'
   paramDict['imageurl'] = image_url
   result = client.http_request('http://api.ruokuai.com/create.xml', paramDict)
  elif cmp(act, 'report') == 0:
   paramDict['username'] = raw_input('username:')
   paramDict['password'] = raw_input('password:')
   paramDict['id'] = raw_input('id:')
   result = client.http_request('http://api.ruokuai.com/create.xml', paramDict)
  elif cmp(act, 'upload') == 0:
   paramDict['username'] = '********'
   paramDict['password'] = '********'
   paramDict['typeid'] = '2000'
   paramDict['timeout'] = '90'
   paramDict['softid'] = '76693'
   paramDict['softkey'] = 'ec2b5b2a576840619bc885a47a025ef6'
   paramKeys = ['username',
     'password',
     'typeid',
     'timeout',
     'softid',
     'softkey'
    ]

   from PIL import Image
   imagePath = raw_input('Image Path:')
   img = Image.open(imagePath)
   if img is None:
    print 'get file error!'
    continue
   img.save("upload.gif", format="gif")
   filebytes = open("upload.gif", "rb").read()
   result = client.http_upload_image("http://api.ruokuai.com/create.xml", paramKeys, paramDict, filebytes)
  
  elif cmp(act, 'help') == 0:
   print 'info'
   print 'register'
   print 'recharge'
   print 'url'
   print 'report'
   print 'upload'
   print 'help'
   print 'exit'
  elif cmp(act, 'exit') == 0:
   break
  
  return result
          

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 日韩精品影视 | 日韩 亚洲 欧美 中文 高清 | 亚洲综合色婷婷在线观看 | 欧美一级色 | 国产精品欧美亚洲区 | 爱操综合网 | 午夜毛片视频 | 亚洲久久视频 | 开心久久婷婷综合中文字幕 | 这里只有精品在线观看 | 日韩免费不卡视频 | 天天操天天擦 | 午夜精品久久久 | 模特啪啪| 91在线播放免费不卡无毒 | 私人免费影院入口 | 免费一级a毛片在线 | 亚洲精品国产精品一区二区 | 婷婷夜夜躁天天躁人人躁 | 国产成人久久精品一区二区三区 | 亚洲视频一二 | 日本1区| 99国内精品| 免费观看欧美成人禁片 | 国产一区视频在线播放 | 中国一级特黄真人毛片免 | 国产黄色自拍 | 日韩一区二区三区在线观看 | 国产婷婷高清在线观看免费 | 苗族一级特黄a大片 | 中文字幕伦视频 | 夜夜骑夜夜操 | 日本最新在线 | 亚洲成人在线免费视频 | 免费看美女吃男生私人部位 | 夜色私人影院永久入口 | 欧美亚洲综合在线观看 | 色在线网站 | 91嫩草国产线免费观看 | 好吊色青青青国产欧美日韩 | 精品国产影院 |