爬取TOP500的音樂(lè)信息,包括排名情況、歌曲名、歌曲時(shí)間。
網(wǎng)頁(yè)版酷狗不能手動(dòng)翻頁(yè)進(jìn)行下一步的瀏覽,仔細(xì)觀察第一頁(yè)的URL:
http://www.kugou.com/yy/rank/home/1-8888.html
這里嘗試將1改為2,再進(jìn)行瀏覽,恰好是第二頁(yè)的信息,再改為3,恰好是第三頁(yè)的信息,多次嘗試發(fā)現(xiàn)不同的數(shù)字即為不同的頁(yè)面。因此只需更改home/后面的數(shù)字即可。由于每頁(yè)顯示的為22首歌曲,所以總共需要23個(gè)URL。
import requests from bs4 import BeautifulSoup from time import sleep import pymongo #連接數(shù)據(jù)庫(kù) client = pymongo.MongoClient(‘localhost',27017) mydb = client[‘yourdb'] #創(chuàng)建數(shù)據(jù)庫(kù) musicTop = mydb[‘musicTop'] #使用header是用于偽裝為瀏覽器,讓爬蟲(chóng)更穩(wěn)定 Headers = { ‘User-Agent': ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36' } #定義獲取信息的函數(shù) def get_info(url): wd_data = requests.get(url,headers=Headers) soup = BeautifulSoup(wd_data.text,‘lxml') #獲取排名情況 ranks = soup.select(‘span.pc_temp_num') #獲取標(biāo)題 titles = soup.select(‘div.pc_temp_songlist > ul > li > a') #獲取時(shí)間 times = soup.select(‘span.pc_temp_tips_r > span') for rank,title,time in zip(ranks,titles,times): data = { ‘rank':rank.get_text().strip(), ‘singer':title.get_text(), ‘song':title.get_text(), ‘time':time.get_text().strip() } musicTop.insert_one(data) #存入數(shù)據(jù)庫(kù)中 if name == ‘main': urls = [‘http://www.kugou.com/yy/rank/home/{}-8888.html'.format(number) for number in range(1,24)] for url in urls: get_info(url) sleep(2)
運(yùn)行后,爬取的數(shù)據(jù)在mongoDB數(shù)據(jù)庫(kù)中顯示如下:
以上這篇python3 實(shí)現(xiàn)爬取TOP500的音樂(lè)信息并存儲(chǔ)到mongoDB數(shù)據(jù)庫(kù)中就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
