天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

基于主題模型的專利文本挖掘方法及應(yīng)用研究

發(fā)布時(shí)間:2020-07-05 01:54
【摘要】:進(jìn)入二十一世紀(jì)以來,人類社會(huì)的科技發(fā)展進(jìn)入了前所未有的高速時(shí)期?焖俑?lián)Q代的技術(shù)帶動(dòng)了相應(yīng)專利文獻(xiàn)的產(chǎn)生與積累,這種大背景下,專利文本挖掘已經(jīng)不再僅僅是一個(gè)相對(duì)孤立的輔助模塊,而是一躍成為技術(shù)發(fā)展決策活動(dòng)中必不可少的一環(huán),在技術(shù)研發(fā)的起始與收尾過程中扮演著發(fā)掘重要知識(shí)、支持戰(zhàn)略制定以及總結(jié)發(fā)展情況的重要角色。因此,如何準(zhǔn)確高效地進(jìn)行海量專利文獻(xiàn)的文本挖掘,同時(shí)識(shí)別并獲取其中所隱藏的關(guān)鍵技術(shù)內(nèi)容及潛在重大機(jī)遇,目前已經(jīng)成為研究與應(yīng)用中被廣泛關(guān)注的重點(diǎn)。本文面向?qū)@谋就诰?在回顧總結(jié)國(guó)內(nèi)外現(xiàn)有技術(shù)與方法的基礎(chǔ)上,構(gòu)建并實(shí)現(xiàn)了基于主題模型的專利文本發(fā)掘方法,以無監(jiān)督學(xué)習(xí)的方式完成了對(duì)大量專利文本技術(shù)主題的自動(dòng)識(shí)別與抓取,同時(shí),通過運(yùn)用分段線性表達(dá)、最小二乘法等數(shù)學(xué)方法,對(duì)已獲取的專利主題進(jìn)行了定量的重要程度評(píng)定、趨勢(shì)轉(zhuǎn)折貢獻(xiàn)度估計(jì)以及未來發(fā)展趨勢(shì)分析。為了證明方法的可行性和有效性,本文采用了來自美國(guó)專利與商標(biāo)局的實(shí)用新型專利進(jìn)行了實(shí)證研究和案例分析。具體來說,本文的主要?jiǎng)?chuàng)新點(diǎn)如下:(1)基于主題模型的專利文本挖掘系統(tǒng)框架本文將主題模型這一國(guó)際前沿的熱點(diǎn)統(tǒng)計(jì)模型引入到專利文本挖掘及科技管理領(lǐng)域,提出了基于主題模型的專利文本挖掘系統(tǒng)框架,并開發(fā)實(shí)現(xiàn)了從數(shù)據(jù)輸入、文本清理、主題識(shí)別、主題選取到主題貢獻(xiàn)程度估計(jì)、主題發(fā)展趨勢(shì)預(yù)測(cè)的完整分析流程。(2)基于專利權(quán)利要求的科技主題識(shí)別及抓取方法本文針對(duì)權(quán)利要求的特有屬性,建立并實(shí)現(xiàn)了基于權(quán)利要求的科技主題識(shí)別及抓取方法:在給定技術(shù)范圍后,通過網(wǎng)頁(yè)信息抓取的形式獲取目標(biāo)專利的權(quán)利要求文本,同時(shí)制定了適用于權(quán)利要求的文本清洗模塊,通過運(yùn)用隱含狄利克雷分布(Latent Dirichlet Allocation)實(shí)現(xiàn)了對(duì)大量文本中潛在的科技主題及主題分布的非監(jiān)督自動(dòng)識(shí)別與獲取。為了驗(yàn)證方法可行性和有效性,本文以2000年至2014年受讓人國(guó)家為澳大利亞的1,3910條美國(guó)實(shí)用新型專利對(duì)方法進(jìn)行了實(shí)證研究和案例分析。(3)定量的專利授權(quán)活動(dòng)趨勢(shì)轉(zhuǎn)折點(diǎn)抓取方法本文針對(duì)傳統(tǒng)技術(shù)預(yù)測(cè)及評(píng)估中,模型擬合無法判斷趨勢(shì)轉(zhuǎn)折和具體專利活動(dòng)趨勢(shì)變動(dòng)等問題,采用分段線性表示的數(shù)學(xué)方法,定量地獲取了專利活動(dòng)中的趨勢(shì)轉(zhuǎn)折點(diǎn),并使用轉(zhuǎn)折點(diǎn)將專利活動(dòng)分割成在時(shí)序上的趨勢(shì)段,從而凸顯并抓取潛在的專利發(fā)表趨勢(shì)變動(dòng)。同樣,為了驗(yàn)證方法有效性,本文隨后以上述美國(guó)實(shí)用新型專利數(shù)據(jù)及澳大利亞ICT產(chǎn)業(yè)相關(guān)專利數(shù)據(jù)對(duì)方法進(jìn)行了實(shí)證研究和案例分析。(4)科技主題對(duì)發(fā)表趨勢(shì)轉(zhuǎn)折貢獻(xiàn)度的分析評(píng)估方法在已獲取的隱含在大量權(quán)利要求中的科技主題中,不同的主題對(duì)于該領(lǐng)域內(nèi)專利授權(quán)量的整體趨勢(shì)變化的貢獻(xiàn)度不盡相同。本文提出了一種定量評(píng)估科技主題對(duì)整體技術(shù)范圍發(fā)展趨勢(shì)轉(zhuǎn)折貢獻(xiàn)度的方法,由主題分布矩陣計(jì)算出每個(gè)科技主題的貢獻(xiàn)系數(shù),從而對(duì)各個(gè)主題在各趨勢(shì)段中的重要性變化加以評(píng)估分析。為了驗(yàn)證方法可行性和有效性,本文以美國(guó)實(shí)用新型專利對(duì)方法進(jìn)行了實(shí)證研究和案例分析。(5)基于年度主題權(quán)重矩陣的科技主題發(fā)展趨勢(shì)分析本文綜合由隱含狄利克雷分布估計(jì)出的科技主題信息及主題分布,建立年度主題權(quán)重矩陣,并利用最小二乘法對(duì)各個(gè)重要科技主題自身的時(shí)序權(quán)重變化進(jìn)行了定量的計(jì)算,最終實(shí)現(xiàn)了對(duì)每個(gè)科技主題發(fā)展趨勢(shì)的預(yù)測(cè)及估計(jì)。為了驗(yàn)證方法可行性和有效性,本文隨后以美國(guó)實(shí)用新型專利對(duì)方法進(jìn)行了實(shí)證研究和案例分析。此外,在主題表達(dá)方面,針對(duì)傳統(tǒng)專利文本挖掘中,關(guān)鍵詞無法清晰獲取科技主題語義并難以區(qū)分同義詞這一不足,本文采用詞匯分布的方式表達(dá)科技主題,以分布中概率最高的一組詞匯來反映對(duì)應(yīng)科技主題的具體內(nèi)容。避免了“以詞表意”容易產(chǎn)生歧義的問題,切實(shí)地賦予了各個(gè)技術(shù)主題以語義含義。
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1;G306

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王娜;李云松;;基于概念格的文本挖掘[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年01期

2 程志;黃榮懷;;文本挖掘及其教育應(yīng)用[J];現(xiàn)代遠(yuǎn)距離教育;2008年02期

3 郭洪濤;鄭光;趙靜;姜淼;何曉娟;呂愛平;;基于文本挖掘分析甲型H1N1流感的中醫(yī)藥治療特色[J];世界科學(xué)技術(shù)(中醫(yī)藥現(xiàn)代化);2011年05期

4 鄒權(quán);林琛;劉曉燕;郭茂祖;;生物信息學(xué)中的文本挖掘方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年12期

5 陸宇杰;許鑫;郭金龍;;文本挖掘在人文社會(huì)科學(xué)研究中的典型應(yīng)用述評(píng)[J];圖書情報(bào)工作;2012年08期

6 湛燕,陳昊,袁方,王麗娟;文本挖掘研究進(jìn)展[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年02期

7 常青;文本挖掘 挖掘知識(shí)[J];中國(guó)計(jì)算機(jī)用戶;2004年24期

8 劉劍蘭;用信息萃取進(jìn)行文本挖掘的方法[J];情報(bào)雜志;2004年12期

9 唐明;張自力;;文本挖掘在多文化交流平臺(tái)中的應(yīng)用研究[J];西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年03期

10 胡冰;胡東軍;馬文超;;文本挖掘研究及發(fā)展[J];電腦知識(shí)與技術(shù);2008年31期

相關(guān)會(huì)議論文 前10條

1 陳林;王曉華;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年

2 王巍;楊武;張樂君;鄭軍;;支持網(wǎng)絡(luò)話題管理的文本挖掘算法分析[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年

3 王繼成;孫穎;張福炎;;文本挖掘-數(shù)據(jù)挖掘研究的新課題[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年

4 高飛;荊繼武;向繼;;文本挖掘系統(tǒng)的可視化方法研究[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

5 朱強(qiáng)生;田英;周延泉;何華燦;;基于非負(fù)因子分析的模糊文本挖掘[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2006年

6 錢程揚(yáng);龍毅;徐震;孫昊;;基于Web文本挖掘的地理位置信息重建技術(shù)[A];中國(guó)地理學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文摘要集[C];2007年

7 蔣子海;周斌;吳泉源;;基于UIMA AS的文本挖掘系統(tǒng)的性能分析與評(píng)估[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年

8 邱曉蕾;張聰超;;基于SVD和部分聚集分類的文本挖掘算法[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

9 武洪萍;周國(guó)祥;;Web文本挖掘研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年

10 陳宇;王強(qiáng);;聚類算法在Web文本挖掘中的應(yīng)用研究[A];2009全國(guó)計(jì)算機(jī)網(wǎng)絡(luò)與通信學(xué)術(shù)會(huì)議論文集[C];2009年

相關(guān)重要報(bào)紙文章 前4條

1 本報(bào)記者 施鵬;非結(jié)構(gòu)信息和文本挖掘[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2009年

2 周青 編譯;文本挖掘工具實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)價(jià)值[N];計(jì)算機(jī)世界;2004年

3 ;SAS公司收購(gòu)Teragram 強(qiáng)化BI領(lǐng)域地位[N];計(jì)算機(jī)世界;2008年

4 ;用挖掘技術(shù)使學(xué)術(shù)資源利用效益最大化[N];中國(guó)計(jì)算機(jī)報(bào);2007年

相關(guān)博士學(xué)位論文 前10條

1 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

2 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年

3 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年

4 曹奇敏;網(wǎng)絡(luò)信息文本挖掘若干問題研究[D];北京理工大學(xué);2015年

5 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學(xué);2005年

6 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

7 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年

8 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2000年

9 陳曉云;文本挖掘若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年

10 檀敬東;文本挖掘的若干關(guān)鍵算法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 高希瑞;基于文本挖掘的企業(yè)危機(jī)預(yù)警研究[D];華東師范大學(xué);2011年

2 劉智勇;基于云計(jì)算的文本挖掘算法研究[D];電子科技大學(xué);2011年

3 唐明;文本挖掘及其在多文化交流平臺(tái)中的應(yīng)用[D];西南大學(xué);2006年

4 郭建永;聚類分析在文本挖掘中的應(yīng)用與研究[D];江南大學(xué);2008年

5 張慶;基于本體的文本挖掘結(jié)果的存儲(chǔ)與表現(xiàn)[D];中國(guó)醫(yī)科大學(xué);2009年

6 王春鋒;基于整合文本挖掘方法的中醫(yī)證與分子生物學(xué)知識(shí)的關(guān)聯(lián)分析系統(tǒng)[D];北京交通大學(xué);2008年

7 鄒振華;基于文本挖掘的量化投資系統(tǒng)[D];華南理工大學(xué);2013年

8 郭飛;文本挖掘方法探討及應(yīng)用[D];成都理工大學(xué);2006年

9 管芳;基于偏序結(jié)構(gòu)圖對(duì)中醫(yī)藥治療失眠文獻(xiàn)的文本挖掘[D];燕山大學(xué);2014年

10 楊青;轉(zhuǎn)錄調(diào)控信息文本挖掘算法及實(shí)現(xiàn)[D];復(fù)旦大學(xué);2009年



本文編號(hào):2741907

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2741907.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6fa16***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com