層次主題模型在技術(shù)演化分析上的應(yīng)用研究
發(fā)布時間:2019-08-27 06:37
【摘要】:[目的 /意義]采用h LDA從專利語料庫中抽取層次主題,以描述隱藏在專利文本中的技術(shù)結(jié)構(gòu),并基于層次主題隨時間變化情況進(jìn)行技術(shù)演化分析。[方法 /過程]從專利術(shù)語中獲取閉頻繁項集,并基于此建立關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)來度量術(shù)語的重要性和術(shù)語間語義關(guān)系強(qiáng)弱,進(jìn)而對語料庫進(jìn)行重構(gòu),并對不同時間片段的專利集合進(jìn)行層次主題結(jié)構(gòu)抽取。[結(jié)果 /結(jié)論]將本方法應(yīng)用于硬盤驅(qū)動器磁頭領(lǐng)域的專利數(shù)據(jù)分析,實證結(jié)果表明該方法是一種可行和有效的技術(shù)演化分析方法。
【圖文】:
漚猓囗虼素叫杞鄶勻揮镅源鐚砹煊虻撓?秀成果吸納進(jìn)來,以推動專利分析方法的繼續(xù)發(fā)展。3方法本文嘗試使用主題來替代領(lǐng)域本體中的概念實體,使用主題層次關(guān)系來描述實體間上下位關(guān)系并將其應(yīng)用于技術(shù)演化分析,具體來說就是使用hLDA[13]模型自動從專利數(shù)據(jù)集中抽取出主題樹和主題-詞匯概率分布并進(jìn)行時間序列分析。相比經(jīng)典主題模型LDA(LatentDirichletAllocation)[14]所抽取的平行主題,hLDA所提供的主題樹能夠挖掘出隱藏于語料庫中的語義層次結(jié)構(gòu),從而使技術(shù)演化研究更加深入。本文方法總體框架如圖1所示。下面分別對本文的核心環(huán)節(jié),即基于術(shù)語的關(guān)聯(lián)規(guī)則挖掘,使用hLDA生成主題層次樹和使用主題層次樹進(jìn)行技術(shù)演化分析進(jìn)行詳細(xì)說明。圖1技術(shù)演化分析流程3.1基于術(shù)語的關(guān)聯(lián)規(guī)則挖掘術(shù)語作為專利文獻(xiàn)中承擔(dān)表述功能的基本語義單元,與學(xué)術(shù)論文中關(guān)鍵詞可由數(shù)據(jù)庫直接提供不同,需要研究者從文本中抽齲目前可用的自動化抽取方法較多,諸如基于規(guī)則的C-Value、NC-Value方法[15],基于統(tǒng)計的tf-idf方法、卡方方法[16]或由主題模型所擴(kuò)展的TurboTopic方法等[17],然而在專利文本中這樣抽取術(shù)語會產(chǎn)生形式多樣的同義詞,需要將其規(guī)范化,為進(jìn)一步分析打好基矗領(lǐng)域詞表方法雖無此問題,但它和領(lǐng)域本體一樣需要由專家構(gòu)建,難以通過快速、低成本和可重復(fù)性的方式實現(xiàn)快速迭代,來減少其相對科技發(fā)展現(xiàn)狀的時滯。本文采用關(guān)聯(lián)規(guī)則挖掘方法在抽取術(shù)語的基礎(chǔ)上進(jìn)行同義詞歸并[18-19],具體來說,將專利文檔中所抽取的術(shù)語作為事務(wù)、術(shù)語包含詞匯作為項,進(jìn)行閉頻繁項集挖掘[20]和關(guān)聯(lián)規(guī)則抽齲以專利文獻(xiàn)中關(guān)于“硬盤磁頭”的術(shù)語表述為例,存在多種術(shù)語諸如hea
陳亮,張靜,張海超,等.層次主題模型在技術(shù)演化分析上的應(yīng)用研究[J].圖書情報工作,2017,61(5):103-108.圖2基于術(shù)語的關(guān)聯(lián)規(guī)則挖掘以硬盤專業(yè)領(lǐng)域為例,分析圖2中3個術(shù)語的關(guān)系:磁頭(head)有多種分類,比如薄膜磁頭(thinfilmhead)、磁阻磁頭(magnetoresistanthead)、鐵氧體磁頭(ferromagnetichead),因此磁頭和薄膜磁頭雖然具有語義關(guān)聯(lián),但作為同義詞的可能性較低;另一方面,在薄膜磁頭術(shù)語中,以thinfilmmagnetichead詞頻為最高,其余形式還包括thinfilmhead和thinfilmmagneticread、writehead等,在圖2中可見,head和thinfilmhead之間的關(guān)聯(lián)規(guī)則置信度僅為0.09,而thinfilmhead和thinfilmmagnetichead的關(guān)聯(lián)規(guī)則置信度高達(dá)0.8,也就是說通過基于閉頻繁項集的關(guān)聯(lián)規(guī)則挖掘方法,能夠?qū)⒉煌g(shù)語的結(jié)構(gòu)特征和詞頻特征結(jié)合起來,通過關(guān)聯(lián)規(guī)則置信度來度量其語義關(guān)系的親疏。3.2使用hLDA生成主題層次樹hLDA是D.Blei等于2004年提出的一種層次主題模型,其概率圖模型如圖3所示,該模型在生成主題-詞匯概率分布的同時,還能夠從語料庫中提取出隱藏的主題層次樹,如圖4所示,,其中節(jié)點代表主題,連線由父主題指向子主題,語料庫中每個文檔的主題分布在一條從根主題到葉子主題的路徑上(在不引起混淆的情況下,后文簡稱“路徑”)。該模型對隨機(jī)過程的應(yīng)用使主題數(shù)量的設(shè)置完全由訓(xùn)練數(shù)據(jù)本身決定,從而避免人工設(shè)置所帶來的主觀性和隨意性。但hL-DA仍然是一種詞袋模型,即它放棄詞匯在文檔中的語法關(guān)系和先后順序以換取模型的簡化和計算復(fù)雜度的降低,這種放棄所帶來的劣勢在包含大量多詞術(shù)語的專利文本中表現(xiàn)尤其突出,嚴(yán)重影響著主題的可解釋性和最終分析效果,因此,筆者將3.1節(jié)所獲取的規(guī)范化術(shù)語作為不可拆分單
【作者單位】: 中國科學(xué)技術(shù)信息研究所;吉林大學(xué)管理學(xué)院;
【基金】:中國科學(xué)技術(shù)信息研究所預(yù)研基金項目“基于知識圖譜的專利技術(shù)信息表示方法研究”(項目編號:YY2016-03)研究成果之一
【分類號】:G254
本文編號:2529577
【圖文】:
漚猓囗虼素叫杞鄶勻揮镅源鐚砹煊虻撓?秀成果吸納進(jìn)來,以推動專利分析方法的繼續(xù)發(fā)展。3方法本文嘗試使用主題來替代領(lǐng)域本體中的概念實體,使用主題層次關(guān)系來描述實體間上下位關(guān)系并將其應(yīng)用于技術(shù)演化分析,具體來說就是使用hLDA[13]模型自動從專利數(shù)據(jù)集中抽取出主題樹和主題-詞匯概率分布并進(jìn)行時間序列分析。相比經(jīng)典主題模型LDA(LatentDirichletAllocation)[14]所抽取的平行主題,hLDA所提供的主題樹能夠挖掘出隱藏于語料庫中的語義層次結(jié)構(gòu),從而使技術(shù)演化研究更加深入。本文方法總體框架如圖1所示。下面分別對本文的核心環(huán)節(jié),即基于術(shù)語的關(guān)聯(lián)規(guī)則挖掘,使用hLDA生成主題層次樹和使用主題層次樹進(jìn)行技術(shù)演化分析進(jìn)行詳細(xì)說明。圖1技術(shù)演化分析流程3.1基于術(shù)語的關(guān)聯(lián)規(guī)則挖掘術(shù)語作為專利文獻(xiàn)中承擔(dān)表述功能的基本語義單元,與學(xué)術(shù)論文中關(guān)鍵詞可由數(shù)據(jù)庫直接提供不同,需要研究者從文本中抽齲目前可用的自動化抽取方法較多,諸如基于規(guī)則的C-Value、NC-Value方法[15],基于統(tǒng)計的tf-idf方法、卡方方法[16]或由主題模型所擴(kuò)展的TurboTopic方法等[17],然而在專利文本中這樣抽取術(shù)語會產(chǎn)生形式多樣的同義詞,需要將其規(guī)范化,為進(jìn)一步分析打好基矗領(lǐng)域詞表方法雖無此問題,但它和領(lǐng)域本體一樣需要由專家構(gòu)建,難以通過快速、低成本和可重復(fù)性的方式實現(xiàn)快速迭代,來減少其相對科技發(fā)展現(xiàn)狀的時滯。本文采用關(guān)聯(lián)規(guī)則挖掘方法在抽取術(shù)語的基礎(chǔ)上進(jìn)行同義詞歸并[18-19],具體來說,將專利文檔中所抽取的術(shù)語作為事務(wù)、術(shù)語包含詞匯作為項,進(jìn)行閉頻繁項集挖掘[20]和關(guān)聯(lián)規(guī)則抽齲以專利文獻(xiàn)中關(guān)于“硬盤磁頭”的術(shù)語表述為例,存在多種術(shù)語諸如hea
陳亮,張靜,張海超,等.層次主題模型在技術(shù)演化分析上的應(yīng)用研究[J].圖書情報工作,2017,61(5):103-108.圖2基于術(shù)語的關(guān)聯(lián)規(guī)則挖掘以硬盤專業(yè)領(lǐng)域為例,分析圖2中3個術(shù)語的關(guān)系:磁頭(head)有多種分類,比如薄膜磁頭(thinfilmhead)、磁阻磁頭(magnetoresistanthead)、鐵氧體磁頭(ferromagnetichead),因此磁頭和薄膜磁頭雖然具有語義關(guān)聯(lián),但作為同義詞的可能性較低;另一方面,在薄膜磁頭術(shù)語中,以thinfilmmagnetichead詞頻為最高,其余形式還包括thinfilmhead和thinfilmmagneticread、writehead等,在圖2中可見,head和thinfilmhead之間的關(guān)聯(lián)規(guī)則置信度僅為0.09,而thinfilmhead和thinfilmmagnetichead的關(guān)聯(lián)規(guī)則置信度高達(dá)0.8,也就是說通過基于閉頻繁項集的關(guān)聯(lián)規(guī)則挖掘方法,能夠?qū)⒉煌g(shù)語的結(jié)構(gòu)特征和詞頻特征結(jié)合起來,通過關(guān)聯(lián)規(guī)則置信度來度量其語義關(guān)系的親疏。3.2使用hLDA生成主題層次樹hLDA是D.Blei等于2004年提出的一種層次主題模型,其概率圖模型如圖3所示,該模型在生成主題-詞匯概率分布的同時,還能夠從語料庫中提取出隱藏的主題層次樹,如圖4所示,,其中節(jié)點代表主題,連線由父主題指向子主題,語料庫中每個文檔的主題分布在一條從根主題到葉子主題的路徑上(在不引起混淆的情況下,后文簡稱“路徑”)。該模型對隨機(jī)過程的應(yīng)用使主題數(shù)量的設(shè)置完全由訓(xùn)練數(shù)據(jù)本身決定,從而避免人工設(shè)置所帶來的主觀性和隨意性。但hL-DA仍然是一種詞袋模型,即它放棄詞匯在文檔中的語法關(guān)系和先后順序以換取模型的簡化和計算復(fù)雜度的降低,這種放棄所帶來的劣勢在包含大量多詞術(shù)語的專利文本中表現(xiàn)尤其突出,嚴(yán)重影響著主題的可解釋性和最終分析效果,因此,筆者將3.1節(jié)所獲取的規(guī)范化術(shù)語作為不可拆分單
【作者單位】: 中國科學(xué)技術(shù)信息研究所;吉林大學(xué)管理學(xué)院;
【基金】:中國科學(xué)技術(shù)信息研究所預(yù)研基金項目“基于知識圖譜的專利技術(shù)信息表示方法研究”(項目編號:YY2016-03)研究成果之一
【分類號】:G254
【相似文獻(xiàn)】
相關(guān)期刊論文 前2條
1 李莉;武邦濤;譚曉燕;;科研論文合著網(wǎng)絡(luò)結(jié)構(gòu)及其演化[J];系統(tǒng)管理學(xué)報;2014年03期
2 ;[J];;年期
本文編號:2529577
本文鏈接:http://sikaile.net/tushudanganlunwen/2529577.html