亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

未完成·python爬蟲第8關nlpir人工智能

系統 1804 0

練習介紹
【程序功能】

我們將完成一個和語義識別相關的爬蟲程序,輸入任意詞匯、句子、文章或段落,會返回聯想的詞匯。

【背景信息】

有一個非常牛的處理語言的網站nlpir,上面有非常多的處理語言的功能(如分詞標注、情感分析、相關詞匯)。

舉個例子,我輸入“音樂劇”:

未完成·python爬蟲第8關nlpir人工智能_第1張圖片
然后點擊“Word2vec”(返回聯想詞匯的功能):

未完成·python爬蟲第8關nlpir人工智能_第2張圖片

下面就會返回“音樂劇”的聯想詞匯:

未完成·python爬蟲第8關nlpir人工智能_第3張圖片

當然這個網站還有其他的功能,像“分詞標注”,就是把你輸入的文本切成一個個的詞,并且把這些詞的詞性都標出來;

還有“情感分析”的功能,就是分析你輸入的文本里面“樂”、“惡”、“怒”、“哀”等情緒的占比是多少…

可是,這些功能的意義在哪呢?

在人工智能領域里,有一個很重要的領域,叫自然語言處理(NLP)。NLP致力于讓計算機聽懂人的話,理解人的話,在此基礎上,人與計算機才有對話的可能。

而這個處理語言的網站的主要功能(如分詞標注、情感分析、關鍵詞提取、相關詞匯等),就是NLP中的核心的底層技術。

我們所理解的siri、小愛同學、微軟小冰,這些可以和人交流的對話系統,也是建構在NLP之上的。

無論最后建成的大樓有多么宏偉,都不可缺少堅實的地基。而對詞語的基本處理,就是人工智能的一種“地基”,所以大家不要小覷這個網站中對語言處理的基本功能。

【實現路徑】

剛剛提到,我們的程序有這樣的功能:輸入任意詞匯、句子、文章或段落,會返回該聯想詞匯。

我們會用post發送請求,然后得到返回的結果。
會用到的知識點:
json和列表/字典的相互轉換

            
              import json
# 引入json模塊
a = [1,2,3,4]
# 創建一個列表a。
b = json.dumps(a)
# 使用dumps()函數,將列表a轉換為json格式的字符串,賦值給b。
print(b)
# 打印b。
print(type(b))
# 打印b的數據類型,為字符串。
c = json.loads(b)
# 使用loads()函數,將json格式的字符串b轉為列表,賦值給c。
print(c)
# 打印c。
print(type(c))
# 打印c的數據類型,為列表。



            
          

字符串的方法

字符串類的對象,都有一個方法str.split(),可以通過指定分隔符對字符串進行切片。

str.split()需要輸入參數,參數的內容是用于切分字符串的符號。來看示例。

            
              a='鄭云龍,阿云嘎,馬佳,蔡程昱,高天鶴,余笛'
# a是一個大字符串,可以把這個字符串切開。
b=a.split(',')
# 指定分隔符是逗號,每碰到一個逗號,就切一下。
print(b)
# 打印b,結果會是一個由6個字符串組成的列表。
print(type(b))
# b是一個列表。




            
          

打印出來會是一個包含6個字符串的列表,列表的內容是[‘鄭云龍’,‘阿云嘎’,‘馬佳’,‘蔡程昱’,‘高天鶴’,‘余笛’]

分析過程
首先打開網站:
http://ictclas.nlpir.org/nlpir/
未完成·python爬蟲第8關nlpir人工智能_第4張圖片
然后我們輸入“音樂劇”,點擊實體抽取,不知道為什么有些status_code顯示500,不能訪問,比如這里我點的第一個分詞標注就顯示紅色,所以我們來看實體抽取。
未完成·python爬蟲第8關nlpir人工智能_第5張圖片
headers里有請求網址的URL和請求方式是post,form data里是我們輸入的內容content,

            
              import requests,json
url = 'http://ictclas.nlpir.org/nlpir/index6/getWord2Vec.do'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
words = input('請輸入你想查詢的詞匯:')
data = {'content':words}
res = requests.post(url,data=data,headers=headers)
data=res.text
# 以上,為上一步的代碼


data1=json.loads(data)# 把json數據轉換為字典print ('和“'+words+'”相關的詞匯,至少還有:')# 打印文字
f=0# 設置變量ffor i in data1['w2vlist']: # 遍歷列表
    f=f+1
    word = i.split(',')    # 切割字符串
    print ('('+str(f)+')'+word[0]+',其相關度為'+word[1]) # 打印數據




            
          

請輸入你想查詢的詞匯:百度
和“百度”相關的詞匯,至少還有:
(1)騰訊,其相關度為0.52671057
(2)詞條,其相關度為0.47400305
(3)網易,其相關度為0.46367505
(4)搜索引擎,其相關度為0.4557111
(5)地圖,其相關度為0.44420305
(6)阿里,其相關度為0.40419072
(7)關鍵字,其相關度為0.39202824
(8)網站,其相關度為0.3855128
(9)阿里巴巴,其相關度為0.37937027
(10)站長,其相關度為0.37208536


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 日韩免费观看一级毛片看看 | 欧美日韩国产高清精卡 | 国产成人亚洲综合欧美一部 | 久久精品国产久精国产 | 亚洲欧美日本在线观看 | 奇米777视频国产 | 伊人五月 | 青青青爽在线视频观看 | 起碰成人免费公开网视频 | 国产成人在线观看免费网站 | 国产亚洲99影院 | 国产一级特黄aaaa大片野外 | 黄色网一级片 | 羞羞色男人的天堂伊人久久 | 一区二区三区在线 | 欧 | 乱子伦有声小说mp3 仑乱高清在线一级播放 | 123日本不卡在线观看 | 亚洲精品色婷婷在线影院麻豆 | 中文字幕视频二区 | 亚洲婷婷丁香 | 四虎.com | 国产精品视频观看 | 亚洲欧美日韩国产vr在线观 | 婷婷综合激情 | jizjizjiz亚洲人 | 国产亚洲精品美女 | 99久久国产综合精品成人影院 | 久久久久久青草大香综合精品 | 性丰满妇女free性性性 | 精品免费tv久久久久久久 | 青青青国产免费线在 | 青青热久久国产久精品秒播 | 99热久久国产精品这里有6 | 国产色婷婷亚洲 | 国产精品久久久久影院色老大 | 在线亚洲欧洲国产综合444 | 国产亚洲精品久久久久久午夜 | 国产一级特黄aa级特黄裸毛片 | 色综合网站在线 | 欧洲成人免费视频 | 成熟女人免费一级毛片 |