由于nltk等都沒有實現句子級別的tokenize,或者文本分句。這里使用python正則,快速實現一個,可以把文本分成若干個小句子。
代碼如下,如果你想要實現自己個性化的分句,例如只考慮“。!”等的分句,可以調整正則項,“|”代表或的意思。
def sent_tokenize(x):
sents_temp = re.split('(:|:|,|,|。|!|\!|\.|?|\?)', x)
sents = []
for i in range(len(sents_temp)//2):
sent = sents_temp[2*i] + sents_temp[2*i+1]
sents.append(sent)
return sents
x:'這個配置和價位真的很合適,完全夠用,而且小黑的質量非常不錯。'
sents:['這個配置和價位真的很合適,', '完全夠用,', '而且小黑的質量非常不錯。']
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
