基于專利文本的摘要生成技術(shù)研究
發(fā)布時間:2021-08-14 23:18
在國際競爭越來越激烈的今天,企業(yè)為了快速占領(lǐng)消費市場,提高國家的經(jīng)濟(jì)實力,都在不斷的進(jìn)行技術(shù)創(chuàng)新。專利作為一個企業(yè)乃至國家核心技術(shù)的代名詞,在其中發(fā)揮著越來越重要作用,而對專利技術(shù)的相關(guān)研究,逐漸成為了人們所關(guān)注的焦點。在專利大數(shù)據(jù)時代,如何從海量的專利數(shù)據(jù)庫中快速準(zhǔn)確地檢索出目標(biāo)領(lǐng)域的專利,如何快速地發(fā)現(xiàn)相關(guān)專利的核心技術(shù)內(nèi)容,成為專利技術(shù)分析中首先需要解決的問題。本課題在此背景下,借鑒自動文摘領(lǐng)域的相關(guān)研究,探索研究適用于專利文本摘要提取算法,提取專利文本中核心技術(shù)內(nèi)容。首先考慮到經(jīng)典的Text Rank摘要抽取式算法不能表達(dá)句子語義信息的缺點,本文以Glo Ve語義特征表示方法為參照,提出使用BERT預(yù)訓(xùn)練模型進(jìn)行句向量表示的方法,并構(gòu)成了基于Text Rank和BERT的摘要提取算法。其次本文根據(jù)專利文本的特點,考慮文本句子位置、句子長度與主題相關(guān)度等特征,對基于Text Rank和BERT的摘要提取算法所迭代計算的權(quán)重加以修正;同時考慮所生成摘要的冗余性,使用MMR算法對摘要候選句進(jìn)行冗余處理,從而提出了基于改進(jìn)的Text Rank和BERT的摘要提取算法。最后,本文以計算機(jī)...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW模型結(jié)構(gòu)
哈爾濱工業(yè)大學(xué)應(yīng)用統(tǒng)計碩士專業(yè)學(xué)位論文-13-的預(yù)測目標(biāo)是)|,,,,,,,()1(11)1(mtmtmtttmttwwwwwwwp(2-3)圖2-2Skip-Gram模型其模型框架如圖2-2所示,輸入向量kx為一個維度為V的某個詞的One-Hot向量,同理V表示所建立的語料庫中詞語的個數(shù);經(jīng)過輸入矩陣NVW后,得到一個維度為N的稠密向量ih。輸入矩陣NVW是訓(xùn)練需要得到的參數(shù),可獲得所有詞的詞向量;在輸出矩陣VNW之后再經(jīng)過一個Softmax回歸;輸出層是上下文詞的One-Hot編碼向量。2.2.3GloVe模型2014年P(guān)ennington等[31]認(rèn)為Word2Vec詞袋模型詞袋模型僅僅考慮了詞的局部信息,忽略了單詞與局部上下文窗口外的信息的聯(lián)系。他們在Word2Vec模型的基礎(chǔ)上提出了GloVe詞向量模型,它保留了局部窗口的共現(xiàn)信息,以整個語料庫
哈爾濱工業(yè)大學(xué)應(yīng)用統(tǒng)計碩士專業(yè)學(xué)位論文-17-圖2-3Transform模型框架BERT模型預(yù)訓(xùn)練過程中采用Masked語言模型(MaskedLanguageModel,簡稱“MLM”)來學(xué)習(xí)融合兩個不同方向的文本特征。具體操作表現(xiàn)為隨機(jī)選擇一些詞語將其遮蔽掉,并用“[Mask]”掩碼來代替原始單詞,然后在預(yù)訓(xùn)練過程中對其進(jìn)行預(yù)測。對于BERT模型的輸入主要有三部分組成:詞語向量(TokenEmbedings)、段向量(SegmentEmbeddings)和位置向量(PositionalEmbeddings),如圖2-4所示。對于詞向量,其中每個句子的輸入標(biāo)記都是[CLS],是用來表示整個句子的,可用于之后的分類任務(wù)。標(biāo)記[SEP]是用來分隔兩個句子的,對于句子分類任務(wù),只需對一個句子進(jìn)行輸入,即對于單句僅使用一個段向量。對于段向量,主要用于刻畫全局語義信息。對于位置向量,由于Transformer模型不能記住時序,而出現(xiàn)在文本不同位置的詞所攜帶的語義信息存在差異,所以人為加入表
【參考文獻(xiàn)】:
期刊論文
[1]基于Transformer的蒙漢神經(jīng)機(jī)器翻譯研究[J]. 高芬,蘇依拉,牛向華,趙亞平,范婷婷,仁慶道爾吉. 計算機(jī)應(yīng)用與軟件. 2020(02)
[2]一種基于TextRank的中文自動摘要方法[J]. 石元兵,周俊,魏忠. 通信技術(shù). 2019(09)
[3]基于TextRank和GloVe的自動文本摘要算法[J]. 徐馳,陳麗容. 中國新通信. 2019(09)
[4]文本摘要研究進(jìn)展與趨勢[J]. 明拓思宇,陳鴻昶. 網(wǎng)絡(luò)與信息安全學(xué)報. 2018(06)
[5]基于TextRank的自動摘要優(yōu)化算法[J]. 李娜娜,劉培玉,劉文鋒,劉偉童. 計算機(jī)應(yīng)用研究. 2019(04)
[6]基于改進(jìn)的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計算機(jī)科學(xué). 2016(06)
碩士論文
[1]基于GloVe的文本聚類研究與改進(jìn)[D]. 徐露.華南理工大學(xué) 2019
[2]基于TextRank算法的單文檔自動文摘研究[D]. 曹洋.南京大學(xué) 2016
本文編號:3343361
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW模型結(jié)構(gòu)
哈爾濱工業(yè)大學(xué)應(yīng)用統(tǒng)計碩士專業(yè)學(xué)位論文-13-的預(yù)測目標(biāo)是)|,,,,,,,()1(11)1(mtmtmtttmttwwwwwwwp(2-3)圖2-2Skip-Gram模型其模型框架如圖2-2所示,輸入向量kx為一個維度為V的某個詞的One-Hot向量,同理V表示所建立的語料庫中詞語的個數(shù);經(jīng)過輸入矩陣NVW后,得到一個維度為N的稠密向量ih。輸入矩陣NVW是訓(xùn)練需要得到的參數(shù),可獲得所有詞的詞向量;在輸出矩陣VNW之后再經(jīng)過一個Softmax回歸;輸出層是上下文詞的One-Hot編碼向量。2.2.3GloVe模型2014年P(guān)ennington等[31]認(rèn)為Word2Vec詞袋模型詞袋模型僅僅考慮了詞的局部信息,忽略了單詞與局部上下文窗口外的信息的聯(lián)系。他們在Word2Vec模型的基礎(chǔ)上提出了GloVe詞向量模型,它保留了局部窗口的共現(xiàn)信息,以整個語料庫
哈爾濱工業(yè)大學(xué)應(yīng)用統(tǒng)計碩士專業(yè)學(xué)位論文-17-圖2-3Transform模型框架BERT模型預(yù)訓(xùn)練過程中采用Masked語言模型(MaskedLanguageModel,簡稱“MLM”)來學(xué)習(xí)融合兩個不同方向的文本特征。具體操作表現(xiàn)為隨機(jī)選擇一些詞語將其遮蔽掉,并用“[Mask]”掩碼來代替原始單詞,然后在預(yù)訓(xùn)練過程中對其進(jìn)行預(yù)測。對于BERT模型的輸入主要有三部分組成:詞語向量(TokenEmbedings)、段向量(SegmentEmbeddings)和位置向量(PositionalEmbeddings),如圖2-4所示。對于詞向量,其中每個句子的輸入標(biāo)記都是[CLS],是用來表示整個句子的,可用于之后的分類任務(wù)。標(biāo)記[SEP]是用來分隔兩個句子的,對于句子分類任務(wù),只需對一個句子進(jìn)行輸入,即對于單句僅使用一個段向量。對于段向量,主要用于刻畫全局語義信息。對于位置向量,由于Transformer模型不能記住時序,而出現(xiàn)在文本不同位置的詞所攜帶的語義信息存在差異,所以人為加入表
【參考文獻(xiàn)】:
期刊論文
[1]基于Transformer的蒙漢神經(jīng)機(jī)器翻譯研究[J]. 高芬,蘇依拉,牛向華,趙亞平,范婷婷,仁慶道爾吉. 計算機(jī)應(yīng)用與軟件. 2020(02)
[2]一種基于TextRank的中文自動摘要方法[J]. 石元兵,周俊,魏忠. 通信技術(shù). 2019(09)
[3]基于TextRank和GloVe的自動文本摘要算法[J]. 徐馳,陳麗容. 中國新通信. 2019(09)
[4]文本摘要研究進(jìn)展與趨勢[J]. 明拓思宇,陳鴻昶. 網(wǎng)絡(luò)與信息安全學(xué)報. 2018(06)
[5]基于TextRank的自動摘要優(yōu)化算法[J]. 李娜娜,劉培玉,劉文鋒,劉偉童. 計算機(jī)應(yīng)用研究. 2019(04)
[6]基于改進(jìn)的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計算機(jī)科學(xué). 2016(06)
碩士論文
[1]基于GloVe的文本聚類研究與改進(jìn)[D]. 徐露.華南理工大學(xué) 2019
[2]基于TextRank算法的單文檔自動文摘研究[D]. 曹洋.南京大學(xué) 2016
本文編號:3343361
本文鏈接:http://sikaile.net/guanlilunwen/keyanlw/3343361.html
最近更新
教材專著