基于文本和公式的科技文檔相似度計(jì)算研究
發(fā)布時(shí)間:2021-10-14 09:36
常用的文檔相似度計(jì)算方法主要包括集合模型方法、向量空間模型方法、潛在語(yǔ)義分析法等,這些方法僅利用文本信息計(jì)算文檔相似度。然而,科技文檔中包含著大量的非文本信息,如公式、圖和表,從而使得原有方法已不太適用。本文提出一種基于文本和公式的科技文檔相似度計(jì)算方法。該方法主要考慮科技文檔中的文本和公式信息,在得到文本相似度和文檔間公式相似度的基礎(chǔ)上,利用線性組合方法得到科技文檔相似度。在MREC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,文本和公式方法在宏平均F1-score(MF)上最大可提高3%。結(jié)合公式信息計(jì)算科技文檔相似度,不僅能有效提高科技文檔相似度的準(zhǔn)確性,而且可以實(shí)現(xiàn)跨語(yǔ)言科技文檔的相似度計(jì)算。本文的主要工作包括:公式相似度計(jì)算方法有很多種,在不考慮公式變量的前提下,本文提出兩種公式相似度計(jì)算方法。針對(duì)基于文本方法中未考慮公式特征元素有序性的問(wèn)題,提出一種基于特征序列化的公式相似度計(jì)算方法。該方法有序提取公式的運(yùn)算符、常量和括號(hào)作為其特征元素,將公式特征元素的位置映射為位置向量,通過(guò)計(jì)算位置向量是否相等得到公式相似度。針對(duì)混合方法中子樹的無(wú)效匹配問(wèn)題,提出一種基于有效匹配子樹的公式相似度計(jì)算方法。該方...
【文章來(lái)源】:河北大學(xué)河北省
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
詞-文本矩陣
貨物運(yùn)輸優(yōu)化圖
圖 2-3 公式樹型結(jié)構(gòu)及子路徑Y(jié)okoi 將子路徑集定義為從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的任何一條路徑。一個(gè)公式樹型其子路徑集如圖 2-3 所示。獲取到公式樹型結(jié)構(gòu)的子路徑集后,采用公式(2.11)計(jì)算公式相似度。
【參考文獻(xiàn)】:
期刊論文
[1]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報(bào)科學(xué). 2019(03)
[2]基于數(shù)學(xué)表達(dá)式特征的科技文檔檢索模型[J]. 田學(xué)東,崔曉娟. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[3]基于維基百科的多種類型文獻(xiàn)自動(dòng)分類研究[J]. 李湘東,阮濤,劉康. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(10)
[4]文本相似度計(jì)算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(06)
[5]基于RPYS分析的引文分析研究:起源和演化[J]. 李信,趙薇,肖香龍,吳夢(mèng)佳. 圖書館論壇. 2017(11)
[6]基于術(shù)語(yǔ)同義關(guān)系的文檔相似度研究[J]. 張錫忠,徐建民. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[7]深度文本匹配綜述[J]. 龐亮,蘭艷艷,徐君,郭嘉豐,萬(wàn)圣賢,程學(xué)旗. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
[8]基于語(yǔ)義概念分析的科技文獻(xiàn)檢索研究[J]. 張孝飛,孔繁秀. 情報(bào)理論與實(shí)踐. 2016(08)
[9]基于有效路徑權(quán)重的XML樹匹配算法[J]. 趙艷妮,郭華磊. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(04)
[10]基于術(shù)語(yǔ)間本體關(guān)聯(lián)度的文檔相關(guān)度研究[J]. 吳樹芳,劉暢,徐建民. 現(xiàn)代情報(bào). 2014(09)
碩士論文
[1]基于共引的科技文獻(xiàn)聚類算法的研究與應(yīng)用[D]. 王秋秋.浙江工業(yè)大學(xué) 2017
[2]融入數(shù)學(xué)表達(dá)式特征的科技論文個(gè)性化推薦[D]. 李曉雨.河北大學(xué) 2017
[3]匈牙利算法及其推廣[D]. 謝博耶夫.華東師范大學(xué) 2016
[4]基于word2vec的中文文本相似度研究與實(shí)現(xiàn)[D]. 吳多堅(jiān).西安電子科技大學(xué) 2016
[5]基于Hadamard變換的編碼壓縮及其主成分增強(qiáng)技術(shù)[D]. 何永龍.湖南大學(xué) 2014
[6]文本相似度計(jì)算理論與應(yīng)用研究[D]. 馬軍紅.西北大學(xué) 2011
[7]基于圖的科技文獻(xiàn)相似性搜索關(guān)鍵技術(shù)研究[D]. 朱戈.黑龍江大學(xué) 2011
[8]科技文檔中數(shù)學(xué)公式的描述與檢索[D]. 盧托.華中科技大學(xué) 2007
本文編號(hào):3435908
【文章來(lái)源】:河北大學(xué)河北省
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
詞-文本矩陣
貨物運(yùn)輸優(yōu)化圖
圖 2-3 公式樹型結(jié)構(gòu)及子路徑Y(jié)okoi 將子路徑集定義為從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的任何一條路徑。一個(gè)公式樹型其子路徑集如圖 2-3 所示。獲取到公式樹型結(jié)構(gòu)的子路徑集后,采用公式(2.11)計(jì)算公式相似度。
【參考文獻(xiàn)】:
期刊論文
[1]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報(bào)科學(xué). 2019(03)
[2]基于數(shù)學(xué)表達(dá)式特征的科技文檔檢索模型[J]. 田學(xué)東,崔曉娟. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[3]基于維基百科的多種類型文獻(xiàn)自動(dòng)分類研究[J]. 李湘東,阮濤,劉康. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(10)
[4]文本相似度計(jì)算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(06)
[5]基于RPYS分析的引文分析研究:起源和演化[J]. 李信,趙薇,肖香龍,吳夢(mèng)佳. 圖書館論壇. 2017(11)
[6]基于術(shù)語(yǔ)同義關(guān)系的文檔相似度研究[J]. 張錫忠,徐建民. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[7]深度文本匹配綜述[J]. 龐亮,蘭艷艷,徐君,郭嘉豐,萬(wàn)圣賢,程學(xué)旗. 計(jì)算機(jī)學(xué)報(bào). 2017(04)
[8]基于語(yǔ)義概念分析的科技文獻(xiàn)檢索研究[J]. 張孝飛,孔繁秀. 情報(bào)理論與實(shí)踐. 2016(08)
[9]基于有效路徑權(quán)重的XML樹匹配算法[J]. 趙艷妮,郭華磊. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(04)
[10]基于術(shù)語(yǔ)間本體關(guān)聯(lián)度的文檔相關(guān)度研究[J]. 吳樹芳,劉暢,徐建民. 現(xiàn)代情報(bào). 2014(09)
碩士論文
[1]基于共引的科技文獻(xiàn)聚類算法的研究與應(yīng)用[D]. 王秋秋.浙江工業(yè)大學(xué) 2017
[2]融入數(shù)學(xué)表達(dá)式特征的科技論文個(gè)性化推薦[D]. 李曉雨.河北大學(xué) 2017
[3]匈牙利算法及其推廣[D]. 謝博耶夫.華東師范大學(xué) 2016
[4]基于word2vec的中文文本相似度研究與實(shí)現(xiàn)[D]. 吳多堅(jiān).西安電子科技大學(xué) 2016
[5]基于Hadamard變換的編碼壓縮及其主成分增強(qiáng)技術(shù)[D]. 何永龍.湖南大學(xué) 2014
[6]文本相似度計(jì)算理論與應(yīng)用研究[D]. 馬軍紅.西北大學(xué) 2011
[7]基于圖的科技文獻(xiàn)相似性搜索關(guān)鍵技術(shù)研究[D]. 朱戈.黑龍江大學(xué) 2011
[8]科技文檔中數(shù)學(xué)公式的描述與檢索[D]. 盧托.華中科技大學(xué) 2007
本文編號(hào):3435908
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3435908.html
最近更新
教材專著