要使得計算機能高效的處理真實文本,就必須找到一種理想的形式化表示方法,這種表示一方面能真實的反映文檔內(nèi)容(主題、領(lǐng)域或結(jié)構(gòu)等),另一方面也要有對不同文檔的區(qū)分能力。目前文本表示通常采用向量空間模型(vectorspacemodel,VSM)。VSM是20世紀60年代末期由G.Salton等人提出的,是當前自然語言處理中常用的主流模型。下面首先給出VSM設計的基本概念:(1)文檔(document):通常是文章中具有一定規(guī)模的字符串。文檔通常我們也叫文本。(
系統(tǒng) 2019-08-29 21:59:30 1779
但假如被合并的代碼所在的類具有某種并列關(guān)系,甚至是同一個父類下的多個子類,或者同一接口的多個實現(xiàn)類,則我們可以采用繼承的方式解決代碼復用的問題。具體做法是這樣的,第一步還是整理原有的代碼,通過比較,將需要重構(gòu)的多份原代碼中相同的與不同的代碼整理出來。在整理過程中,可以將不同的代碼,保留在各自的原程序中,而將相同的代碼抽取出來成為獨立的函數(shù)。這些函數(shù)就是我們后面需要抽象、合并、復用的代碼。下一步呢,就是運用“抽取父類(ExtractSuperclass)”的
系統(tǒng) 2019-08-29 21:59:08 1779
——對用例模型及其應用的一次有益的探討前言:這是一次對用例模型的探討。怎樣建立用例模型,怎樣編寫用例說明,它與需求規(guī)格說明書有什么區(qū)別,它能替代需求規(guī)格說明書嗎?也許在這里可以找到你要的答案。進入軟件業(yè)稍微久一點兒的人恐怕都不會陌生,軟件開發(fā)的最初階段都是談需求、寫需求規(guī)格說明書。需求規(guī)格說明書是與客戶最終確認到紙上的,非常正式的公文。軟件開發(fā)應當做什么,做成什么樣子,什么東西不做,項目范圍有多寬,需求規(guī)格說明書都是白紙黑字寫得清清楚楚,誰都無法抵賴。所以
系統(tǒng) 2019-08-29 21:59:01 1779
暴雪公司有個經(jīng)典的字符串的hash公式先提一個簡單的問題,假如有一個龐大的字符串數(shù)組,然后給你一個單獨的字符串,讓你從這個數(shù)組中查找是否有這個字符串并找到它,你會怎么做?有一個方法最簡單,老老實實從頭查到尾,一個一個比較,直到找到為止,我想只要學過程序設計的人都能把這樣一個程序作出來,但要是有程序員把這樣的程序交給用戶,我只能用無語來評價,或許它真的能工作,但...也只能如此了。最合適的算法自然是使用HashTable(哈希表),先介紹介紹其中的基本知識,
系統(tǒng) 2019-08-12 09:30:13 1779
在軟件構(gòu)建過程中,某些對象的狀態(tài)如果改變,其行為也會隨之而發(fā)生變化。如何在運行時根據(jù)對象的狀態(tài)來透明地更改對象的行為?而不會為對象操作和狀態(tài)轉(zhuǎn)化之間引入緊耦合?允許一個對象在其內(nèi)部狀態(tài)改變時改變它的行為。從而使對象看起來似乎修改了其行為。一,結(jié)構(gòu):二,示例代碼:publicinterfaceState{publicvoidhandle(Contextcontext);}classConcreteStateAimplementsState{publicvoi
系統(tǒng) 2019-08-12 09:29:27 1779
Python基礎之數(shù)據(jù)類型、流程控制逆水行舟,不進則退序言Python簡介輸入和輸出數(shù)據(jù)類型流程控制逆水行舟,不進則退沒有改變的勇氣,又怎會知道改變后的結(jié)果呢。當我下定決心改變時,就不曾有過后悔。30歲自學轉(zhuǎn)行做開發(fā)又怎樣,只要堅持,就一定會有收獲。相信很多人都有同感,自學沒有任何公司項目經(jīng)驗,很難有公司給你機會。但一旦有了這個機會,如何把握就靠你自己的能力了。作為一個有了一年多Web前端開發(fā)經(jīng)驗的我,這點深有體會,深知只有不斷進步,才能有更好的發(fā)展和平臺
系統(tǒng) 2019-09-27 17:57:30 1778
偶然發(fā)現(xiàn)了for…else…這種用法,使用這個實現(xiàn)了break跳出嵌套的for循環(huán)In[31]:foriinrange(1,5):...:forjinrange(5,10):...:print(i,j)...:ifj==6:...:break...:else:...:continue...:break1516for…else…的運行邏輯是當for循環(huán)正常執(zhí)行結(jié)束就會運行其else語句,如果中途break的話,就不會執(zhí)行else中的內(nèi)容上面的代碼實現(xiàn)了內(nèi)存f
系統(tǒng) 2019-09-27 17:57:18 1778
枚舉類型可以看作是一種標簽或是一系列常量的集合,通常用于表示某些特定的有限集合,例如星期、月份、狀態(tài)等。Python的原生類型(Built-intypes)里并沒有專門的枚舉類型,但是我們可以通過很多方法來實現(xiàn)它,例如字典、類等:MiracleLove={'MON':'林志玲','TUS':'陳意涵','WEN':'張柏芝','THU':'辛芷蕾','FRI':'周冬雨'}classMiracleLove:MON='林志玲'TUS='陳意涵'WEN='張柏
系統(tǒng) 2019-09-27 17:56:49 1778
獲取制定標簽內(nèi)容,以及HTML全部文本代碼#-*-coding:utf-8-*-importrehtml="崗位職責:完成推薦算法、數(shù)據(jù)統(tǒng)計、接口、后臺等服務器端相關(guān)工作必備要求:良好的自我驅(qū)動力和職業(yè)素養(yǎng),工作積極主動、結(jié)果導向"#獲得全部文本dr=re.compile(r'<[^>]+>',re.S)dd=dr.sub('',html)print(dd)print("*"*20)#取出p標簽中的文本html_regex=r".*?(.*?)"resul
系統(tǒng) 2019-09-27 17:56:47 1778
dict的很多方法跟list有類似的地方,下面一一道來,并且會跟list做一個對比嵌套嵌套在list中也存在,就是元素是list,在dict中,也有類似的樣式:>>>a_list=[[1,2,3],[4,5],[6,7]]>>>a_list[1][1]5>>>a_dict={1:{"name":"qiwsir"},2:"python","email":"qiwsir@gmail.com"}>>>a_dict{1:{'name':'qiwsir'},2:'p
系統(tǒng) 2019-09-27 17:56:38 1778