天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 管理論文 > 科研管理論文 >

基于專利文本的摘要生成技術(shù)研究

發(fā)布時(shí)間:2021-08-14 23:18
  在國(guó)際競(jìng)爭(zhēng)越來(lái)越激烈的今天,企業(yè)為了快速占領(lǐng)消費(fèi)市場(chǎng),提高國(guó)家的經(jīng)濟(jì)實(shí)力,都在不斷的進(jìn)行技術(shù)創(chuàng)新。專利作為一個(gè)企業(yè)乃至國(guó)家核心技術(shù)的代名詞,在其中發(fā)揮著越來(lái)越重要作用,而對(duì)專利技術(shù)的相關(guān)研究,逐漸成為了人們所關(guān)注的焦點(diǎn)。在專利大數(shù)據(jù)時(shí)代,如何從海量的專利數(shù)據(jù)庫(kù)中快速準(zhǔn)確地檢索出目標(biāo)領(lǐng)域的專利,如何快速地發(fā)現(xiàn)相關(guān)專利的核心技術(shù)內(nèi)容,成為專利技術(shù)分析中首先需要解決的問(wèn)題。本課題在此背景下,借鑒自動(dòng)文摘領(lǐng)域的相關(guān)研究,探索研究適用于專利文本摘要提取算法,提取專利文本中核心技術(shù)內(nèi)容。首先考慮到經(jīng)典的Text Rank摘要抽取式算法不能表達(dá)句子語(yǔ)義信息的缺點(diǎn),本文以Glo Ve語(yǔ)義特征表示方法為參照,提出使用BERT預(yù)訓(xùn)練模型進(jìn)行句向量表示的方法,并構(gòu)成了基于Text Rank和BERT的摘要提取算法。其次本文根據(jù)專利文本的特點(diǎn),考慮文本句子位置、句子長(zhǎng)度與主題相關(guān)度等特征,對(duì)基于Text Rank和BERT的摘要提取算法所迭代計(jì)算的權(quán)重加以修正;同時(shí)考慮所生成摘要的冗余性,使用MMR算法對(duì)摘要候選句進(jìn)行冗余處理,從而提出了基于改進(jìn)的Text Rank和BERT的摘要提取算法。最后,本文以計(jì)算機(jī)... 

【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】:52 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于專利文本的摘要生成技術(shù)研究


CBOW模型結(jié)構(gòu)

模型圖,模型,向量,輸入矩陣


哈爾濱工業(yè)大學(xué)應(yīng)用統(tǒng)計(jì)碩士專業(yè)學(xué)位論文-13-的預(yù)測(cè)目標(biāo)是)|,,,,,,,()1(11)1(mtmtmtttmttwwwwwwwp(2-3)圖2-2Skip-Gram模型其模型框架如圖2-2所示,輸入向量kx為一個(gè)維度為V的某個(gè)詞的One-Hot向量,同理V表示所建立的語(yǔ)料庫(kù)中詞語(yǔ)的個(gè)數(shù);經(jīng)過(guò)輸入矩陣NVW后,得到一個(gè)維度為N的稠密向量ih。輸入矩陣NVW是訓(xùn)練需要得到的參數(shù),可獲得所有詞的詞向量;在輸出矩陣VNW之后再經(jīng)過(guò)一個(gè)Softmax回歸;輸出層是上下文詞的One-Hot編碼向量。2.2.3GloVe模型2014年P(guān)ennington等[31]認(rèn)為Word2Vec詞袋模型詞袋模型僅僅考慮了詞的局部信息,忽略了單詞與局部上下文窗口外的信息的聯(lián)系。他們?cè)赪ord2Vec模型的基礎(chǔ)上提出了GloVe詞向量模型,它保留了局部窗口的共現(xiàn)信息,以整個(gè)語(yǔ)料庫(kù)

框架圖,框架,模型,句子


哈爾濱工業(yè)大學(xué)應(yīng)用統(tǒng)計(jì)碩士專業(yè)學(xué)位論文-17-圖2-3Transform模型框架BERT模型預(yù)訓(xùn)練過(guò)程中采用Masked語(yǔ)言模型(MaskedLanguageModel,簡(jiǎn)稱“MLM”)來(lái)學(xué)習(xí)融合兩個(gè)不同方向的文本特征。具體操作表現(xiàn)為隨機(jī)選擇一些詞語(yǔ)將其遮蔽掉,并用“[Mask]”掩碼來(lái)代替原始單詞,然后在預(yù)訓(xùn)練過(guò)程中對(duì)其進(jìn)行預(yù)測(cè)。對(duì)于BERT模型的輸入主要有三部分組成:詞語(yǔ)向量(TokenEmbedings)、段向量(SegmentEmbeddings)和位置向量(PositionalEmbeddings),如圖2-4所示。對(duì)于詞向量,其中每個(gè)句子的輸入標(biāo)記都是[CLS],是用來(lái)表示整個(gè)句子的,可用于之后的分類任務(wù)。標(biāo)記[SEP]是用來(lái)分隔兩個(gè)句子的,對(duì)于句子分類任務(wù),只需對(duì)一個(gè)句子進(jìn)行輸入,即對(duì)于單句僅使用一個(gè)段向量。對(duì)于段向量,主要用于刻畫全局語(yǔ)義信息。對(duì)于位置向量,由于Transformer模型不能記住時(shí)序,而出現(xiàn)在文本不同位置的詞所攜帶的語(yǔ)義信息存在差異,所以人為加入表

【參考文獻(xiàn)】:
期刊論文
[1]基于Transformer的蒙漢神經(jīng)機(jī)器翻譯研究[J]. 高芬,蘇依拉,牛向華,趙亞平,范婷婷,仁慶道爾吉.  計(jì)算機(jī)應(yīng)用與軟件. 2020(02)
[2]一種基于TextRank的中文自動(dòng)摘要方法[J]. 石元兵,周俊,魏忠.  通信技術(shù). 2019(09)
[3]基于TextRank和GloVe的自動(dòng)文本摘要算法[J]. 徐馳,陳麗容.  中國(guó)新通信. 2019(09)
[4]文本摘要研究進(jìn)展與趨勢(shì)[J]. 明拓思宇,陳鴻昶.  網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2018(06)
[5]基于TextRank的自動(dòng)摘要優(yōu)化算法[J]. 李娜娜,劉培玉,劉文鋒,劉偉童.  計(jì)算機(jī)應(yīng)用研究. 2019(04)
[6]基于改進(jìn)的TextRank的自動(dòng)摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛.  計(jì)算機(jī)科學(xué). 2016(06)

碩士論文
[1]基于GloVe的文本聚類研究與改進(jìn)[D]. 徐露.華南理工大學(xué) 2019
[2]基于TextRank算法的單文檔自動(dòng)文摘研究[D]. 曹洋.南京大學(xué) 2016



本文編號(hào):3343361

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/keyanlw/3343361.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9a1d3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com