亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

Python 爬取CSDN博客文章

系統(tǒng) 2042 0

新建一個(gè)module,用于根據(jù)用戶名來(lái)獲取文章的url

            
              #coding=utf-8
from bs4 import BeautifulSoup
import requests

#獲取博客文章數(shù)量
def get_page_size(user_name):
    article_list_url = 'https://blog.csdn.net/'+user_name
    req = requests.get(url = article_list_url)
    article_list_html = req.text
    bf = BeautifulSoup(article_list_html)
    page_list = bf.find('span', class_ = 'count')
    page_size = int(page_list.text)
    if page_size%20 > 0:
        page_size = (page_size//20+1)
    else:
        page_size = page_size//20+0
    return page_size
#獲取博客文章的url
def get_article_list(user_name):
    
    article_list_page = get_page_size(user_name)
    article_list = {}
    page_num = 1
    while page_num <= article_list_page:
        article_list_url = 'https://blog.csdn.net/'+user_name + '/article/list/' + str(page_num)
        page_num+=1
        req = requests.get(url = article_list_url)
        article_list_html = req.text
        bf = BeautifulSoup(article_list_html)
        article_list_texts = bf.find('div', class_ = 'article-list').find_all('h4')    
        #獲取博客的地址
        for article_url in article_list_texts:
            name = article_url.find('a').text.replace(' ','').replace('\n','').replace('原','').replace('轉(zhuǎn)','')
            url = article_url.find('a').get("href")
            #article_list.append(url)
            article_list[name] = url
    return article_list
if __name__ == "__main__":
    print(get_article_list('Henry_Lin_Wind'))
            
          

根據(jù)上述步驟獲取的文章url,獲取文章內(nèi)容,并保存在本地

            
              #coding=utf-8
from bs4 import BeautifulSoup
import requests
import re
import src.article_list as al

if __name__ == "__main__":
    url_list = al.get_article_list('Henry_Lin_Wind')
    for article_name in url_list.keys():
        url = url_list[article_name]
        print(article_name)
        print(url)
        req = requests.get(url)
        html = req.text
        bf = BeautifulSoup(html)
        texts = bf.find_all('div', class_ = 'htmledit_views') 
        #判斷文章是否存在
        if texts.__len__() !=0:
            #截取文章url中的文章id,生成文件名,文件類型為。txt
            filename =re.search(r'details/[0-9]+',url).group().replace('details/','')+'.txt'
            print(filename)
            with open(filename, 'a', encoding='utf-8') as f:
                f.writelines(article_name)
                f.write('\n\n')
                #循環(huán)打印文章的每一行內(nèi)容
                for content in texts[0].contents:
                    #判斷該行的內(nèi)容是否存在
                    if content != '\n' and  content != ' ':
                        text = content.find('img')
                        #判斷該行是否是img,如果是則查找并打印圖片鏈接。否則直接打印文本內(nèi)容。
                        if text != None :
                            print("image--> " + text['src'])
                            f.writelines("image--> " + text['src'])
                            f.write('\n\n')
                        else:
                            print(content.text)                           
                            f.writelines(content.text)
                            f.write('\n\n')
            print('--------------------')                    
        else:
            print("該頁(yè)面不存在")
            print('--------------------')
            
          

?


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 精品国产一区二区三区久 | 国内精品视频在线播放一区 | 老司机一级毛片 | 亚洲乱码国产乱码精品精98 | 国产亚洲精品一区久久 | 久久伊人在 | 青青久久精品国产免费看 | 美女美女高清毛片视频 | 亚洲午夜网| 国产视频自拍一区 | 伊人网综合视频 | 久久夜夜操妹子 | 色婷婷久久合月综 | 97影院理论午夜论不卡 | 天天摸天天舔天天操 | 免费观看日本污污ww网站一区 | 国产精品第一区亚洲精品 | 在线成人爽a毛片免费软件 在线成人天天鲁夜啪视频 在线成人亚洲 | 国产视频一区在线观看 | 欧美夜夜操 | 高清国产天干天干天干不卡顿 | 日本不卡高清 | 日日摸天天添天天添破 | 免费精品精品国产欧美在线 | 国产精品人成福利视频 | 色六月丁香 | 亚洲a视频在线观看 | 亚洲国产精品一区二区三区 | 香蕉成人| 粗大猛烈进出呻吟声的视频 | 国产尤物视频在线 | 亚洲精品国产第一区二区图片 | 久久久久久久久免费影院 | 四虎影视2022入口网址 | 91精品免费久久久久久久久 | 性做久久久久久久免费看 | 伊人狼人久久 | 亚洲欧美在线看 | 国产精品亚洲片在线观看麻豆 | 免费观看性欧美毛片 | 国产精品青草久久福利不卡 |