亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python使用Scrapy框架抓取起點中文網(wǎng)免費小說案例

系統(tǒng) 1982 0

使用工具,ubuntu,python,pycharm
一、使用pycharm創(chuàng)建項目:過程略
二、安裝scrapy框架

          
            pip install Scrapy
          
        

三、創(chuàng)建scrapy項目:

          
            1.創(chuàng)建爬蟲項目
          
        
          
                scrapy startproject qidian
          
        
          
            2.創(chuàng)建爬蟲,先進入爬蟲項目目錄

          
        
          
            cd qidian/
scrapy genspider book book.qidian.com
          
        

創(chuàng)建完成后項目目錄如下


目錄下的的book.py就是我們的爬蟲文件

四、打開book.py編寫爬蟲的代碼

          
            1.進入需要爬去的書的目錄,找到開始url
設置start_url:
          
        
          
            #鬼吹燈圖書目錄
start_urls = ['https://book.qidian.com/info/53269#Catalog']
          
        
          
            2、在創(chuàng)建項目的時候,篩選的url地址為:
          
        

allowed_domains = ['book.qidian.com']

          
              打開圖書章節(jié)后發(fā)現(xiàn)章節(jié)的url如下:
 # https://read.qidian.com/chapter/PNjTiyCikMo1/FzxWdm35gIE1
  所以需要將read.qidian.com 加入allowed_domains 中,
          
        
          
            allowed_domains = ['book.qidian.com', 'read.qidian.com']
          
        
          
            剩下的就是通過xpath 獲取抓取到的內(nèi)容,提取我們需要的內(nèi)容
完整代碼如下
          
        
          
            # -*- coding: utf-8 -*-
import scrapy
import logging

logger = logging.getLogger(__name__)


class BookSpider(scrapy.Spider):
    name = 'book'
    allowed_domains = ['book.qidian.com', 'read.qidian.com']
    start_urls = ['https://book.qidian.com/info/53269#Catalog']

    def parse(self, response):
        # 獲取章節(jié)列表
        li_list = response.xpath('//div[@class="volume"][2]/ul/li')
        # 列表循環(huán)取出章節(jié)名稱和章節(jié)對應的url
        for li in li_list:
            item = {}
            # 章節(jié)名稱
            item['chapter_name'] = li.xpath('./a/text()').extract_first()
            # 章節(jié)url
            item['chapter_url'] = li.xpath('./a/@href').extract_first()
            # 獲取到的url //read.qidian.com/chapter/PNjTiyCikMo1/TpiSLsyH5Hc1
            # 需要重新構(gòu)造
            item['chapter_url'] = 'https:' + item['chapter_url']
            # 循環(huán)抓取每個章節(jié)的內(nèi)容
            if item['chapter_url'] is not None:
                # meta:傳遞item數(shù)據(jù)
                yield scrapy.Request(item['chapter_url'], callback=self.parse_chapter, meta={'item': item})

    def parse_chapter(self, response):
        item = response.meta['item']
        # 獲取文章內(nèi)容
        item['chapter_content'] = response.xpath('//div[@class="read-content j_readContent"]/p/text()').extract()
        yield item

          
        

五、將爬去數(shù)據(jù)保存到mongodb中

          
            1.修改setting文件
找到并打開注釋:
          
        
          
            ITEM_PIPELINES = {
    'qidain.pipelines.QidainPipeline': 300,
}
          
        
          
            2.添加monggodb相關(guān)配置

          
        
          
            # 主機地址
MONGODB_HOST = '127.0.0.1'
# 端口
MONGODB_PORT = 27017
# 需要保存的數(shù)據(jù)哭名字
MONGODB_DBNAME = 'qidian'
# 保存的文件名
MONGODB_DOCNAME = 'dmbj'
          
        
          
            3.在pipelines.py文件中保存數(shù)據(jù),最終文件內(nèi)容如下
          
        
          
            # -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.conf import settings
import pymongo


class QidainPipeline(object):
    def __init__(self):
        '''在__init__中配置mongodb'''
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        db_name = settings['MONGODB_DBNAME']
        client = pymongo.MongoClient(host=host, port=port)
        db = client[db_name]
        self.post = db[settings['MONGODB_DOCNAME']]

    def process_item(self, item, spider):
        self.post.insert(item)
        return item

          
        

更多文章、技術(shù)交流、商務合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产精品66在线观看 | 特黄未满14周岁毛片 | 国产激情一区二区三区在线观看 | 天天插天天射天天操 | 9984四虎永久免费网站 | 亚洲狠狠97婷婷综合久久久久 | 正在播放亚洲一区 | 日日摸日日碰日日狠狠 | 神马影院我不卡影院 | 国产成人精品日本亚洲语音2 | 黄 色 免费网 站 成 人 | 亚洲免费中文字幕 | 久久综合成人 | 99久久99这里只有免费费精品 | a视频在线 | 久久亚洲精中文字幕冲田杏梨 | 天天干天天操天天舔 | 国产性色视频在线高清 | 色综合久久久久久久久五月性色 | 亚洲乱淫 | 亚洲一区视频在线 | 天天曰天天干天天操 | 色综合天天综久久久噜噜噜久久〔 | 中文字幕在线激情日韩一区 | 深夜免费 | 国产精品久久久久一区二区三区 | 99久国产| 免费看黄色的网站 | 97av视频 | 影视先锋av资源噜噜 | 久久精品国产一区二区三区不卡 | 在线免费看a | 国内精自品线一区91 | 婷婷四房综合激情五月在线 | 深夜福利影院在线观看 | 亚洲国产一区在线 | 成年男女免费视频网站 | 久久精品观看影院2828 | 尤物福利视频 | 亚洲激情视频网站 | 中文字幕亚洲无线码在线一区 |