基于文本和公式的科技文檔相似度計算研究

發(fā)布時間：2021-10-14 09:36

　　常用的文檔相似度計算方法主要包括集合模型方法、向量空間模型方法、潛在語義分析法等,這些方法僅利用文本信息計算文檔相似度。然而,科技文檔中包含著大量的非文本信息,如公式、圖和表,從而使得原有方法已不太適用。本文提出一種基于文本和公式的科技文檔相似度計算方法。該方法主要考慮科技文檔中的文本和公式信息,在得到文本相似度和文檔間公式相似度的基礎(chǔ)上,利用線性組合方法得到科技文檔相似度。在MREC數(shù)據(jù)集上的實驗結(jié)果表明,文本和公式方法在宏平均F1-score（MF）上最大可提高3%。結(jié)合公式信息計算科技文檔相似度,不僅能有效提高科技文檔相似度的準(zhǔn)確性,而且可以實現(xiàn)跨語言科技文檔的相似度計算。本文的主要工作包括:公式相似度計算方法有很多種,在不考慮公式變量的前提下,本文提出兩種公式相似度計算方法。針對基于文本方法中未考慮公式特征元素有序性的問題,提出一種基于特征序列化的公式相似度計算方法。該方法有序提取公式的運算符、常量和括號作為其特征元素,將公式特征元素的位置映射為位置向量,通過計算位置向量是否相等得到公式相似度。針對混合方法中子樹的無效匹配問題,提出一種基于有效匹配子樹的公式相似度計算方法。該方...

【文章來源】：河北大學(xué)河北省

【文章頁數(shù)】：61 頁

【學(xué)位級別】：碩士

【部分圖文】：

基于文本和公式的科技文檔相似度計算研究

詞-文本矩陣

貨物運輸,倉庫

貨物運輸優(yōu)化圖

樹型結(jié)構(gòu),公式,采用公式,樹型

圖 2-3 公式樹型結(jié)構(gòu)及子路徑Y(jié)okoi 將子路徑集定義為從根節(jié)點到葉子節(jié)點的任何一條路徑。一個公式樹型其子路徑集如圖 2-3 所示。獲取到公式樹型結(jié)構(gòu)的子路徑集后，采用公式(2.11)計算公式相似度。

【參考文獻(xiàn)】：
期刊論文
[1]文本相似度計算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源.  情報科學(xué). 2019(03)
[2]基于數(shù)學(xué)表達(dá)式特征的科技文檔檢索模型[J]. 田學(xué)東,崔曉娟.  河北大學(xué)學(xué)報(自然科學(xué)版). 2017(06)
[3]基于維基百科的多種類型文獻(xiàn)自動分類研究[J]. 李湘東,阮濤,劉康.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(10)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]基于RPYS分析的引文分析研究:起源和演化[J]. 李信,趙薇,肖香龍,吳夢佳.  圖書館論壇. 2017(11)
[6]基于術(shù)語同義關(guān)系的文檔相似度研究[J]. 張錫忠,徐建民.  河北大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[7]深度文本匹配綜述[J]. 龐亮,蘭艷艷,徐君,郭嘉豐,萬圣賢,程學(xué)旗.  計算機(jī)學(xué)報. 2017(04)
[8]基于語義概念分析的科技文獻(xiàn)檢索研究[J]. 張孝飛,孔繁秀.  情報理論與實踐. 2016(08)
[9]基于有效路徑權(quán)重的XML樹匹配算法[J]. 趙艷妮,郭華磊.  計算機(jī)工程與設(shè)計. 2016(04)
[10]基于術(shù)語間本體關(guān)聯(lián)度的文檔相關(guān)度研究[J]. 吳樹芳,劉暢,徐建民.  現(xiàn)代情報. 2014(09)

碩士論文
[1]基于共引的科技文獻(xiàn)聚類算法的研究與應(yīng)用[D]. 王秋秋.浙江工業(yè)大學(xué) 2017
[2]融入數(shù)學(xué)表達(dá)式特征的科技論文個性化推薦[D]. 李曉雨.河北大學(xué) 2017
[3]匈牙利算法及其推廣[D]. 謝博耶夫.華東師范大學(xué) 2016
[4]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學(xué) 2016
[5]基于Hadamard變換的編碼壓縮及其主成分增強技術(shù)[D]. 何永龍.湖南大學(xué) 2014
[6]文本相似度計算理論與應(yīng)用研究[D]. 馬軍紅.西北大學(xué) 2011
[7]基于圖的科技文獻(xiàn)相似性搜索關(guān)鍵技術(shù)研究[D]. 朱戈.黑龍江大學(xué) 2011
[8]科技文檔中數(shù)學(xué)公式的描述與檢索[D]. 盧托.華中科技大學(xué) 2007

本文編號：3435908

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3435908.html

上一篇：上海聯(lián)通機(jī)房運維信息管理系統(tǒng)設(shè)計與實現(xiàn)
下一篇：基于數(shù)據(jù)驅(qū)動的學(xué)生程序代碼推薦

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本和公式的科技文檔相似度計算研究