基于專利文本的摘要生成技術(shù)研究

發(fā)布時間：2021-08-14 23:18

　　在國際競爭越來越激烈的今天,企業(yè)為了快速占領(lǐng)消費市場,提高國家的經(jīng)濟(jì)實力,都在不斷的進(jìn)行技術(shù)創(chuàng)新。專利作為一個企業(yè)乃至國家核心技術(shù)的代名詞,在其中發(fā)揮著越來越重要作用,而對專利技術(shù)的相關(guān)研究,逐漸成為了人們所關(guān)注的焦點。在專利大數(shù)據(jù)時代,如何從海量的專利數(shù)據(jù)庫中快速準(zhǔn)確地檢索出目標(biāo)領(lǐng)域的專利,如何快速地發(fā)現(xiàn)相關(guān)專利的核心技術(shù)內(nèi)容,成為專利技術(shù)分析中首先需要解決的問題。本課題在此背景下,借鑒自動文摘領(lǐng)域的相關(guān)研究,探索研究適用于專利文本摘要提取算法,提取專利文本中核心技術(shù)內(nèi)容。首先考慮到經(jīng)典的Text Rank摘要抽取式算法不能表達(dá)句子語義信息的缺點,本文以Glo Ve語義特征表示方法為參照,提出使用BERT預(yù)訓(xùn)練模型進(jìn)行句向量表示的方法,并構(gòu)成了基于Text Rank和BERT的摘要提取算法。其次本文根據(jù)專利文本的特點,考慮文本句子位置、句子長度與主題相關(guān)度等特征,對基于Text Rank和BERT的摘要提取算法所迭代計算的權(quán)重加以修正;同時考慮所生成摘要的冗余性,使用MMR算法對摘要候選句進(jìn)行冗余處理,從而提出了基于改進(jìn)的Text Rank和BERT的摘要提取算法。最后,本文以計算機(jī)...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：52 頁

【學(xué)位級別】：碩士

【部分圖文】：

CBOW模型結(jié)構(gòu)

模型圖,模型,向量,輸入矩陣

哈爾濱工業(yè)大學(xué)應(yīng)用統(tǒng)計碩士專業(yè)學(xué)位論文-13-的預(yù)測目標(biāo)是)|,,,,,,,()1(11)1(mtmtmtttmttwwwwwwwp(2-3)圖2-2Skip-Gram模型其模型框架如圖2-2所示，輸入向量kx為一個維度為V的某個詞的One-Hot向量，同理V表示所建立的語料庫中詞語的個數(shù)；經(jīng)過輸入矩陣NVW后，得到一個維度為N的稠密向量ih。輸入矩陣NVW是訓(xùn)練需要得到的參數(shù)，可獲得所有詞的詞向量；在輸出矩陣VNW之后再經(jīng)過一個Softmax回歸；輸出層是上下文詞的One-Hot編碼向量。2.2.3GloVe模型2014年P(guān)ennington等[31]認(rèn)為Word2Vec詞袋模型詞袋模型僅僅考慮了詞的局部信息，忽略了單詞與局部上下文窗口外的信息的聯(lián)系。他們在Word2Vec模型的基礎(chǔ)上提出了GloVe詞向量模型，它保留了局部窗口的共現(xiàn)信息，以整個語料庫

框架圖,框架,模型,句子

哈爾濱工業(yè)大學(xué)應(yīng)用統(tǒng)計碩士專業(yè)學(xué)位論文-17-圖2-3Transform模型框架BERT模型預(yù)訓(xùn)練過程中采用Masked語言模型（MaskedLanguageModel，簡稱“MLM”）來學(xué)習(xí)融合兩個不同方向的文本特征。具體操作表現(xiàn)為隨機(jī)選擇一些詞語將其遮蔽掉，并用“[Mask]”掩碼來代替原始單詞，然后在預(yù)訓(xùn)練過程中對其進(jìn)行預(yù)測。對于BERT模型的輸入主要有三部分組成：詞語向量（TokenEmbedings）、段向量（SegmentEmbeddings）和位置向量（PositionalEmbeddings），如圖2-4所示。對于詞向量，其中每個句子的輸入標(biāo)記都是[CLS]，是用來表示整個句子的，可用于之后的分類任務(wù)。標(biāo)記[SEP]是用來分隔兩個句子的，對于句子分類任務(wù)，只需對一個句子進(jìn)行輸入，即對于單句僅使用一個段向量。對于段向量，主要用于刻畫全局語義信息。對于位置向量，由于Transformer模型不能記住時序，而出現(xiàn)在文本不同位置的詞所攜帶的語義信息存在差異，所以人為加入表

【參考文獻(xiàn)】：
期刊論文
[1]基于Transformer的蒙漢神經(jīng)機(jī)器翻譯研究[J]. 高芬,蘇依拉,牛向華,趙亞平,范婷婷,仁慶道爾吉.  計算機(jī)應(yīng)用與軟件. 2020(02)
[2]一種基于TextRank的中文自動摘要方法[J]. 石元兵,周俊,魏忠.  通信技術(shù). 2019(09)
[3]基于TextRank和GloVe的自動文本摘要算法[J]. 徐馳,陳麗容.  中國新通信. 2019(09)
[4]文本摘要研究進(jìn)展與趨勢[J]. 明拓思宇,陳鴻昶.  網(wǎng)絡(luò)與信息安全學(xué)報. 2018(06)
[5]基于TextRank的自動摘要優(yōu)化算法[J]. 李娜娜,劉培玉,劉文鋒,劉偉童.  計算機(jī)應(yīng)用研究. 2019(04)
[6]基于改進(jìn)的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛.  計算機(jī)科學(xué). 2016(06)

碩士論文
[1]基于GloVe的文本聚類研究與改進(jìn)[D]. 徐露.華南理工大學(xué) 2019
[2]基于TextRank算法的單文檔自動文摘研究[D]. 曹洋.南京大學(xué) 2016

本文編號：3343361

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/keyanlw/3343361.html

上一篇：CIAE科研工程項目管理研究
下一篇：用赤泥制備水泥的專利技術(shù)分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于專利文本的摘要生成技術(shù)研究