使用網(wǎng)絡(luò)搜索引擎計(jì)算漢語詞匯的語義相似度
本文關(guān)鍵詞:使用網(wǎng)絡(luò)搜索引擎計(jì)算漢語詞匯的語義相似度 出處:《計(jì)算機(jī)技術(shù)與發(fā)展》2014年07期 論文類型:期刊論文
【摘要】:漢字詞語的語義相似度計(jì)算是中文信息處理中的一個(gè)關(guān)鍵問題。文中利用網(wǎng)絡(luò)搜索引擎提供的信息來計(jì)算漢語詞對的語義相似性。首先通過程序訪問搜索引擎,獲取漢字詞匯的搜索結(jié)果數(shù),并依此實(shí)現(xiàn)了相似度計(jì)算模型WebPMI;然后描述了根據(jù)查詢返回的文本片段進(jìn)行語義相關(guān)性分析的模型CODC;最后,結(jié)合這個(gè)兩個(gè)模型,給出了文中算法的偽代碼。實(shí)驗(yàn)結(jié)果顯示,文中的算法較好地利用了互聯(lián)網(wǎng)信息,實(shí)現(xiàn)了一種較新的漢語詞匯語義相似度計(jì)算方法,接近于利用詞典提供的信息計(jì)算相似度的傳統(tǒng)算法。
[Abstract]:The semantic similarity calculation of Chinese characters is a key problem in Chinese information processing. This paper uses the information provided by web search engines to calculate the semantic similarity of Chinese word pairs. The number of search results of Chinese words is obtained, and a similarity calculation model, WebPMI-based, is implemented. Then we describe the model of semantic correlation analysis based on the text fragment returned by the query. Finally, combining the two models, the pseudo code of the algorithm is given. The experimental results show that the algorithm in this paper makes good use of the Internet information, and realizes a new method for calculating semantic similarity of Chinese vocabulary. It is close to the traditional algorithm which uses the information provided by the dictionary to calculate the similarity.
【作者單位】: 武漢紡織大學(xué)傳媒學(xué)院;
【基金】:湖北省自然科學(xué)基金(2013CFB310) 湖北教育科研項(xiàng)目(B2013205) 湖北省高等學(xué)校2013年省級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(2013CXZD027) 2013年武漢紡織大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(2013CXXL008,2013CXXL009)
【分類號】:TP391.3
【正文快照】: 0引言詞匯間語義相似度的研究一直是信息檢索和自然語言處理的核心部分,對于漢語來說尤其如此。詞匯之間的語義相似度在時(shí)間和領(lǐng)域范圍內(nèi)是經(jīng)常變動的。比如說,在互聯(lián)網(wǎng)上“蘋果”經(jīng)常是“蘋果電腦”的意思,然而在大部分詞典中蘋果是沒有這種意思的。一個(gè)用戶在互聯(lián)網(wǎng)上搜索“
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 王桐;王磊;吳吉義;徐賀;;WordNet中的綜合概念語義相似度計(jì)算方法[J];北京郵電大學(xué)學(xué)報(bào);2013年02期
2 夏天;;漢語詞語語義相似度計(jì)算研究[J];計(jì)算機(jī)工程;2007年06期
3 王春東;陳英輝;常青;鄧全才;王懷彬;;基于特征相似度的貝葉斯網(wǎng)絡(luò)入侵檢測方法[J];計(jì)算機(jī)工程;2011年21期
4 李紅蓮,何偉,袁保宗;一種文本相似度及其在語音識別中的應(yīng)用[J];中文信息學(xué)報(bào);2003年01期
5 廖志芳;邱麗霞;謝岳山;樊曉平;;一種頻率增強(qiáng)的語句語義相似度計(jì)算[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年02期
6 魏凱斌;冉延平;余牛;;語義相似度的計(jì)算方法研究與分析[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年07期
7 冉婕;孫瑜;;語義檢索中的詞語相似度計(jì)算研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年04期
8 孫昌年;鄭誠;夏青松;;基于LDA的中文文本相似度計(jì)算[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年01期
9 楊方穎;蔣正翔;張姍姍;;基于本體結(jié)構(gòu)的語義相似度計(jì)算[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年07期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李園白;崔蒙;楊陽;朱曉博;;證候相似性比較方法研究[J];中華中醫(yī)藥雜志;2012年02期
2 蔣溢;丁優(yōu);熊安萍;王化晶;;一種基于知網(wǎng)的詞匯語義相似度改進(jìn)計(jì)算方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
3 朱占輝;李紅蓮;;基于文音相似度的語音查號系統(tǒng)[J];電腦開發(fā)與應(yīng)用;2006年02期
4 袁保宗,阮秋琦,王延江,劉汝杰,唐曉芳;新一代(第四代)人機(jī)交互的概念框架特征及關(guān)鍵技術(shù)[J];電子學(xué)報(bào);2003年S1期
5 李劍;李金厚;;一種基于知網(wǎng)的概念相似度計(jì)算方法[J];工業(yè)控制計(jì)算機(jī);2011年04期
6 王俊超;劉晨帆;徐明世;紀(jì)山;蘭偉;;語義相似性度量技術(shù)在地名匹配研究中的應(yīng)用[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期
7 張仰森;鐘鼎;;基于SKCC與統(tǒng)計(jì)相結(jié)合的詞語相似度計(jì)算方法[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期
8 畢海濱;黃宇光;;基于語義與SVM的中文實(shí)體關(guān)系抽取[J];福建電腦;2013年12期
9 李紅蓮;宋占嶺;;基于文音相似度的語音查詢系統(tǒng)的設(shè)計(jì)與開發(fā)[J];計(jì)算機(jī)工程與應(yīng)用;2006年26期
10 傅鶴崗;徐晨霞;;基于知網(wǎng)的元搜索引擎多關(guān)鍵詞檢索研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年22期
相關(guān)會議論文 前4條
1 李紅蓮;潘建軍;范京;;音節(jié)相似度及其在語音識別中的應(yīng)用[A];第十四屆全國信號處理學(xué)術(shù)年會(CCSP-2009)論文集[C];2009年
2 何二寶;梁滿貴;李俊杰;;智能電話號碼語音查詢系統(tǒng)[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
3 崔磊;陳清才;郭鴻志;王曉龍;;HowNet與維基百科知識融合中的義類屬性自動構(gòu)建方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
4 張冠元;林健;;一種針對餐館評論的文本傾向性分析算法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
相關(guān)博士學(xué)位論文 前10條
1 宋巖;基于多Agent和本體的散雜貨港口集團(tuán)船舶調(diào)度系統(tǒng)研究[D];北京交通大學(xué);2011年
2 蔡盈芳;基于本體的航空產(chǎn)品知識庫構(gòu)建研究[D];北京交通大學(xué);2011年
3 李園白;中醫(yī)醫(yī)案文獻(xiàn)特殊性評價(jià)方法研究[D];中國中醫(yī)科學(xué)院;2010年
4 李勤超;基于本體的地理信息語義轉(zhuǎn)換模型與方法研究[D];解放軍信息工程大學(xué);2011年
5 傅魁;基于Web的本體學(xué)習(xí)研究[D];武漢理工大學(xué);2007年
6 劉紫玉;多專業(yè)領(lǐng)域本體的構(gòu)建及語義檢索研究[D];北京交通大學(xué);2010年
7 鐘茂生;基于內(nèi)容相關(guān)度計(jì)算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年
8 劉興林;中文詞匯知識獲取算法和語義計(jì)算研究及應(yīng)用[D];華南理工大學(xué);2012年
9 王靜;基于本體的中醫(yī)文獻(xiàn)診療信息的智能檢索示范研究[D];中國中醫(yī)科學(xué)院;2012年
10 張素芳;網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源關(guān)聯(lián)研究[D];南開大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 井志強(qiáng);基于擴(kuò)展的VSM中文文本分類方法[D];哈爾濱工程大學(xué);2010年
2 孟祥燕;問答對自動獲取的研究[D];昆明理工大學(xué);2008年
3 吳波;改進(jìn)的編輯距離算法的研究及其在電子政務(wù)中的應(yīng)用[D];電子科技大學(xué);2011年
4 周倩;基于多值詞匯語義相似度的SME模型改進(jìn)[D];河南大學(xué);2011年
5 吳全娥;漢語句子相似度計(jì)算及其在自動問答系統(tǒng)中的應(yīng)用[D];西南大學(xué);2011年
6 張紅春;中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計(jì)算[D];華中師范大學(xué);2011年
7 李劍;基于分塊的句子語義相似度研究[D];安徽工業(yè)大學(xué);2011年
8 何亞;主觀題輔助評分方法的研究與應(yīng)用[D];中南大學(xué);2010年
9 劉青磊;漢語詞語及句子相似度算法研究與應(yīng)用[D];電子科技大學(xué);2011年
10 嚴(yán)羽;自然語言理解中并列名詞歧義消解及其在智能儀器設(shè)計(jì)領(lǐng)域的應(yīng)用[D];西安電子科技大學(xué);2011年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 夏天,樊孝忠,劉林,駱正華;基于ALICE的漢語自然語言接口[J];北京理工大學(xué)學(xué)報(bào);2004年10期
2 梅翔;孟祥武;陳俊亮;徐萌;;一種基于語義關(guān)聯(lián)的查詢優(yōu)化方法[J];北京郵電大學(xué)學(xué)報(bào);2006年06期
3 趙文峰;孟祥武;陳俊亮;;信息提供類Web服務(wù)與RDF數(shù)據(jù)源的集成[J];北京郵電大學(xué)學(xué)報(bào);2008年06期
4 趙軍;胡栓柱;樊興華;;一種新的詞語相似度計(jì)算方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
5 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2010年06期
6 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報(bào);2003年06期
7 劉亞軍,徐易;一種基于加權(quán)語義相似度模型的自動問答系統(tǒng)[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年05期
8 王鵬浩,朱璇,張京濤;高性能語音撥號器的設(shè)計(jì)與實(shí)現(xiàn)[J];電子技術(shù)應(yīng)用;2000年12期
9 李紅蓮,袁保宗,王春花;利用背景知識提高web語音瀏覽中的識別精度的方法[J];電子學(xué)報(bào);2002年12期
10 李熙;徐德智;;基于WordNet的概念語義相似度研究[J];湖南科技學(xué)院學(xué)報(bào);2008年12期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 顧榕,王小平,曹立明;一種基于潛在語義分析的查詢擴(kuò)展算法[J];計(jì)算機(jī)工程與應(yīng)用;2004年18期
2 王惠敏;聶規(guī)劃;付魁;;領(lǐng)域本體中基于多維特征的語義相似度算法研究[J];情報(bào)雜志;2008年10期
3 黃宏斌;劉志忠;張維明;鄧蘇;馬麗麗;;基于層次本體模型(HOM)的語義相似度計(jì)算方法[J];系統(tǒng)工程與電子技術(shù);2009年07期
4 吳飛珍;馬文麗;王旺迪;陳啟龍;鄭文嶺;;一種新的基因注釋語義相似度計(jì)算方法[J];生物信息學(xué);2010年01期
5 張承立;陳劍波;齊開悅;;基于語義網(wǎng)的語義相似度算法改進(jìn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年17期
6 徐德智;C.Onyango;王懷民;;上位本體中語義相似度的計(jì)算及其實(shí)現(xiàn)[J];計(jì)算技術(shù)與自動化;2007年02期
7 張曉孿;王西鋒;;FCA中的概念語義相似度計(jì)算[J];現(xiàn)代圖書情報(bào)技術(shù);2007年03期
8 周粉;夏幼明;;一種改進(jìn)的基于知網(wǎng)的語義相似度計(jì)算方法[J];云南大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年S2期
9 史斌;閆健卓;王普;方麗英;;基于本體的概念語義相似度度量[J];計(jì)算機(jī)工程;2009年19期
10 劉衛(wèi);劉金嶺;;基于《知網(wǎng)》的詞語語義相似度改進(jìn)及應(yīng)用[J];福建電腦;2010年05期
相關(guān)會議論文 前10條
1 關(guān)毅;王曉龍;;基于統(tǒng)計(jì)的漢語詞匯間語義相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
2 黃佳來;王立波;袁道敏;;基于語義相似度的查詢擴(kuò)展研究[A];浙江省電子學(xué)會2008年學(xué)術(shù)年會論文集[C];2008年
3 劉曉平;沈冠町;;協(xié)同討論觀點(diǎn)影響度分析方法及其應(yīng)用[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
4 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
5 劉立;余正濤;王蒙;毛存禮;郭劍毅;;結(jié)合詞相關(guān)特征與流行學(xué)習(xí)的中文問句分類[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
6 駱正華;;基于E-Chunk問句實(shí)例庫問答系統(tǒng)的研究[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
7 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計(jì)算方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
8 陸勇;侯漢清;;基于詞典注釋的漢語同義詞自動識別[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
9 陳雷明;鄒欣;黨德玉;;一種基于語義優(yōu)化非單調(diào)推理的方法[A];2006年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(三)[C];2006年
10 章成志;李斌;;基于混合策略的查詢串相似度計(jì)算方法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
相關(guān)博士學(xué)位論文 前10條
1 王俊華;基于不確定性理論的單詞語義相似度度量[D];吉林大學(xué);2014年
2 劉宏哲;文本語義相似度計(jì)算方法研究[D];北京交通大學(xué);2012年
3 宋玲;語義相似度計(jì)算及其應(yīng)用研究[D];山東大學(xué);2009年
4 楊月華;基于領(lǐng)域知識模型的突發(fā)事件智能信息檢索系統(tǒng)研究[D];北京郵電大學(xué);2013年
5 周子力;基于WordNet的本體構(gòu)建及其在安全領(lǐng)域應(yīng)用關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2009年
6 潘建國;基于語義的用戶建模技術(shù)與應(yīng)用研究[D];上海大學(xué);2009年
7 李宏偉;基于Ontology的地理信息服務(wù)研究[D];解放軍信息工程大學(xué);2007年
8 王芳;基于本體的廣域農(nóng)業(yè)信息服務(wù)系統(tǒng)關(guān)鍵技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2012年
9 楊峰;本體映射關(guān)鍵技術(shù)研究[D];吉林大學(xué);2011年
10 趙瓊;基于視頻和三維動作捕捉數(shù)據(jù)的人體動作識別方法的研究[D];中國科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 鄭麗萍;本體映射的研究[D];山東科技大學(xué);2005年
2 常曉環(huán);基于概念圖的語義檢索方法研究[D];吉林大學(xué);2009年
3 秦鵬;基于WordNet的本體匹配關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];華東師范大學(xué);2010年
4 郭嘉琦;領(lǐng)域本體的構(gòu)建及其在信息檢索中的應(yīng)用研究[D];北京郵電大學(xué);2007年
5 趙大明;基于本體的專業(yè)搜索引擎的研究與設(shè)計(jì)[D];西北大學(xué);2009年
6 關(guān)淞元;本體匹配算法的研究[D];吉林大學(xué);2009年
7 尹睿;基于語義相似度的論文文本聚類算法研究[D];大連理工大學(xué);2009年
8 王曙光;基于蟻群的文本聚類算法的改進(jìn)研究[D];大連理工大學(xué);2006年
9 宗裕朋;基于本體的中文智能答疑系統(tǒng)研究與實(shí)現(xiàn)[D];上海交通大學(xué);2007年
10 羅思明;基于語義相似度的漢語未登錄動詞語義框架識別[D];北京郵電大學(xué);2008年
,本文編號:1440284
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1440284.html