天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于《知網(wǎng)》義原空間的文本相似度計算研究與實現(xiàn)

發(fā)布時間:2018-02-10 20:37

  本文關(guān)鍵詞: 文本相似度 VSM GVSM 語義相似度 《知網(wǎng)》 文本查重系統(tǒng) 出處:《重慶大學(xué)》2013年碩士論文 論文類型:學(xué)位論文


【摘要】:文本相似度計算是知識產(chǎn)權(quán)保護(hù)、文本分類、機(jī)器翻譯、自然語言處理、復(fù)制檢測、自動問答和信息檢索等領(lǐng)域的核心技術(shù)。現(xiàn)有的文本相似度計算方法大致可以歸納為兩類,第一類是基于文本特征統(tǒng)計的方法,第二類則是基于文本語義理解的方法。基于文本特征統(tǒng)計的方法在長文本等大粒度實體的相似度計算方面取得了較好的效果,其中最具代表性的就是向量空間模型(Vector Space Model,簡稱VSM)和廣義向量空間模型(General Vector Space Model,簡稱GVSM)。GVSM在VSM的基礎(chǔ)上利用文本特征項的共現(xiàn)信息,對VSM模型中特征項正交的假設(shè)進(jìn)行了改進(jìn);谡Z義理解的方法,通常以某種知識庫作為依據(jù)實現(xiàn)詞語之間或者句子之間相似度的計算。基于統(tǒng)計的方法簡單高效,但是缺乏語義,無法處理自然語言中“一詞多義”和“一義多詞”的情況。而基于語義理解的方法往往計算比較復(fù)雜,不適合大規(guī)模的文本處理。 本文借鑒了廣義向量空間模型的思想,利用知識庫《知網(wǎng)》中的義原,,提出了一種基于《知網(wǎng)》義原空間的文本語義相似度計算方法(Sememe Vector SpaceModel,簡稱SVSM)。 SVSM把基于統(tǒng)計和語義理解的方法相互結(jié)合,將文本表示為義原空間中的向量,并通過計算文本義原向量之間的夾角實現(xiàn)文本相似度的計算。為了驗證提出方法的有效性,本文通過文本聚類實驗對比了SVSM與經(jīng)典的VSM和GVSM模型。實驗結(jié)果表明本文提出的算法在語義相似度計算方面相比VSM與GVSM有所提高。 在義原文本相似度計算方法的基礎(chǔ)上,本文基于J2EE平臺設(shè)計并實現(xiàn)了一個文本查重系統(tǒng)。在該系統(tǒng)中將《知網(wǎng)》的義原、概念、詞語、義原之間的相似度和詞語的義原向量表示設(shè)計為數(shù)據(jù)庫中的關(guān)系表。這樣在進(jìn)行文本相似度計算時可以直接查表取得相關(guān)信息,避免了重復(fù)計算,提高了文本相似度計算的效率。利用開源的軟件工具包Lucence、ICTCLAS、hibernate Search等實現(xiàn)文本義原向量的構(gòu)建和相似度的計算。通過將文本中實現(xiàn)的查重系統(tǒng)應(yīng)用于實際的工程應(yīng)用中,取得了良好的使用效果。
[Abstract]:Text similarity calculation is the core technology in the fields of intellectual property protection, text classification, machine translation, natural language processing, copy detection, automatic question answering and information retrieval. The first method is based on text feature statistics and the second is based on text semantic understanding. The method based on text feature statistics has achieved good results in the similarity calculation of large grained entities such as long text. Among them, the vector space model (VSM) and the generalized vector space model (GVSM) are the vector space model (VSM) and the generalized vector space model (GVSM). The GVSM).GVSM uses the cooccurrence information of the text feature on the basis of VSM. The hypothesis of orthogonality of feature items in VSM model is improved. Based on semantic understanding, some knowledge base is usually used to calculate the similarity between words and sentences. The statistical method is simple and efficient. However, the lack of semantics makes it impossible to deal with the cases of "polysemy" and "one meaning multi-word" in natural language, and the method based on semantic understanding is often complicated and is not suitable for large-scale text processing. In this paper, the idea of generalized vector space model is used for reference, and the meaning of knowledge net in knowledge base is used. In this paper, a method for calculating semantic similarity of text based on semantic primitive space is proposed, which is called Sememe Vector Space Model. SVSM combines the methods based on statistics and semantic understanding to express the text as vectors in the sememe space. In order to verify the effectiveness of the proposed method, the text similarity is calculated by calculating the angle between the literal primitive vectors. This paper compares SVSM with classical VSM and GVSM models through text clustering experiments. The experimental results show that the proposed algorithm is better than VSM and GVSM in semantic similarity calculation. On the basis of the similarity calculation method of semantic text, this paper designs and implements a text checking and rechecking system based on J2EE platform. The similarity between semantic elements and the semantic vector representation of words is designed as a relational table in the database. In this way, we can directly look up the table to obtain relevant information when calculating the text similarity, thus avoiding double calculation. The efficiency of text similarity calculation is improved. By using open source software toolkit LucenceCass hibernate Search, the text semantic primitive vector is constructed and the similarity is calculated. Good results have been obtained.
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2010年06期

2 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學(xué)學(xué)報;2005年02期

3 金博;史彥軍;滕弘飛;;基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法[J];大連理工大學(xué)學(xué)報;2007年01期

4 張煥炯,王國勝,鐘義信;基于漢明距離的文本相似度計算[J];計算機(jī)工程與應(yīng)用;2001年19期

5 李素建;基于語義計算的語句相關(guān)度研究[J];計算機(jī)工程與應(yīng)用;2002年07期

6 晉耀紅;基于語義的文本過濾系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2003年17期

7 晉耀紅;基于語境框架的文本相似度計算[J];計算機(jī)工程與應(yīng)用;2004年16期

8 白秋產(chǎn);金春霞;周海巖;;概念向量文本聚類算法[J];計算機(jī)工程與應(yīng)用;2011年35期

9 夏天;;漢語詞語語義相似度計算研究[J];計算機(jī)工程;2007年06期

10 潘謙紅,王炬,史忠植;基于屬性論的文本相似度計算[J];計算機(jī)學(xué)報;1999年06期



本文編號:1501380

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/falvlunwen/zhishichanquanfa/1501380.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9a5d4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com