亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

用PYTHON爬蟲簡單爬取網絡小說

系統 2093 0

用PYTHON爬蟲簡單爬取網絡小說。

這里是17K小說網上,隨便找了一本小說,名字是《千萬大獎》。

里面主要是三個函數:

1、get_download_url() 用于獲取該小說的所有章節的URL。

分析了該小說的目錄頁http://www.17k.com/list/2819620.html的HTML源碼,發現其目錄是包含在Volume里的A標簽合集。所以就提取出了URLS列表。

2、get_contents(target) 用于獲取小說指定章節的正文內容

分析了小說中第一章節的頁面http://www.17k.com/chapter/2819620/34988369.html,發現其正文內容包含在P標簽中,正文標題包含在H1標簽中,經過對換行等處理,得到正文內容。傳入參數是上一函數得到的URL。

3、writer(name, path, text) 用于將得到的正文內容和章節標題寫入到千萬大獎.txt

理論上,該簡單爬蟲可以爬取該網站的任意小說。

            
              from bs4 import BeautifulSoup
import requests, sys
'''
遇到不懂的問題?Python學習交流群:821460695滿足你的需求,資料都已經上傳群文件,可以自行下載!
'''
target='http://www.17k.com/list/2819620.html'
server='http://www.17k.com'
urls=[]

def get_download_url():
    req = requests.get(url = target)
    html = req.text
    div_bf = BeautifulSoup(html,'lxml')
    div = div_bf.find_all('dl', class_ = 'Volume')
    a_bf = BeautifulSoup(str(div[0]),'lxml')
    a = a_bf.find_all('a')
    for each in a[1:]:
        urls.append(server + each.get('href'))


def get_contents(target):
        req = requests.get(url = target)
        html = req.text
        bf = BeautifulSoup(html,'lxml')
        title=bf.find_all('div', class_ = 'readAreaBox content')
        title_bf = BeautifulSoup(str(title[0]),'lxml')
        title = title_bf.find_all('h1')
        title=str(title[0]).replace('
              

','') title=str(title).replace('

','') title=str(title).replace(' ','') title=str(title).replace('\n','') texts = bf.find_all('div', class_ = 'p') texts=str(texts).replace('
','\n') texts=texts[:texts.index('本書首發來自17K小說網,第一時間看正版內容!')] texts=str(texts).replace('   ','') return title,str(texts[len('[
'):]) def writer(name, path, text): write_flag = True with open(path, 'a', encoding='utf-8') as f: f.write(name + '\n') f.writelines(text) f.write('\n') #title,content=get_contents(target) #print(title,content) #writer(title,title+".txt",content) get_download_url() #print(urls) i=1 for url in urls: title,content=get_contents(url) writer(title,"千萬大獎.txt",content) print(str(int(i/len(urls)*100))+"%") i+=1

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 奇米影视首页 | bbbb成人毛片免费看 | 特级无码a级毛片特黄 | 国产伦精品一区三区视频 | 韩国日本三级在线观看 | 伊色综合久久之综合久久 | 欧美激情在线免费 | 国产日产欧美一区二区三区 | 久草久| 亚洲成年| 国产亚洲综合在线 | 欧美综合亚洲 | 看全色黄大色大片免费久久久 | 精品久久久中文字幕 | 五月天婷婷在线播放 | 国产成人aa免费视频 | 精品久久香蕉国产线看观看亚洲 | 国产精品日韩欧美一区二区 | 老妇女人一级毛片 | 欧美色视频日本片高清在线观看 | 特级aaa毛片 | 四虎影视免费永久在线观看 | 精品国产免费久久久久久婷婷 | 色中色资源站 | 日日摸日日碰夜夜爽久久 | 国产精品视_精品国产免费 国产精品视频2021 | 乱人伦精品一区二区 | 亚洲精品在线视频观看 | 国产精品天天看 | 99国产超薄丝袜足j在线观看 | 日本毛片在线 | videos欧美黑白爆交 | 欧美成人xxxxxxxx在线 | 在线色av | 亚洲字幕| 精品国免费一区二区三区 | 国产免费青青青免费视频观看 | 欧美色视频超清在线观看 | 日本又黄又爽又色的免费视频 | 天天综合在线视频 | 国内外一级毛片 |