基于主題模型的汽車專利文本主題挖掘與應用研究
發(fā)布時間:2021-03-22 21:53
汽車專利文本以其專業(yè)性和高技術價值性,為汽車廠商和相關研究者把握該行業(yè)的技術發(fā)展、尋求技術創(chuàng)新等提供了一個重要途徑,F(xiàn)有針對汽車專利文本的研究分析,多是基于傳統(tǒng)的專利計量分析、文本挖掘模型或方法等,它們或是只針對其結構化部分進行較粗粒度的統(tǒng)計分析,或是只能挖掘其非結構化文本內容的淺層信息,很少能深入其文本內部挖掘其深層的語義信息,從而無法從語義角度進行一些較精細的分析或應用,如技術主題識別、技術趨勢分析等。隨著自然語言處理技術、機器學習相關模型或方法在文本分析領域的應用和發(fā)展,以LDA(Latent Dirichlet Allocation)模型為代表的主題模型,在非結構化文本內容分析上顯出較大優(yōu)勢,被廣泛地應用在許多領域的文本挖掘任務中。主題模型通過抽取文本中蘊含的主題來深刻揭示文本的語義信息,實現(xiàn)對文本內容更好的表征,進而提高文本分析的效果。因此,本文基于汽車專利文本研究分析現(xiàn)狀,開展了基于主題模型的汽車專利文本主題挖掘與應用研究,拓展對汽車專利文本研究分析的方式方法,主要完成了以下工作:(1)構建了汽車專利文本主題挖掘與分析框架。在梳理分析汽車專利文本的組成、特點、IPC(Int...
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學位級別】:碩士
【部分圖文】:
汽車專利文本示例
錄、服務使用記錄、文本處理結果等的存儲;系統(tǒng)后端業(yè)務實現(xiàn)主要使用 Java 語言,前端頁面使用 JSP 實現(xiàn)等;項目開發(fā)使用 STS 軟件,使用 Maven 對項目依賴Jar 包管理,Tomcat 提供系統(tǒng)運行的容器;Mallet 機器學習工具包用于文本聚類、主題建模等功能,HanLP 分詞包提供文本分詞、詞性標注等功能,二者都基于 Java語言,可以較方便地與系統(tǒng)框架整合;ECharts 圖表包用于將處理結果以圖表的形式可視化展示到前端頁面上。5.4.2 系統(tǒng)主要功能模塊運行效果原型系統(tǒng)開發(fā)完成后,使用第四章實驗采集的國內新能源汽車的專利文本進行文本主題挖掘與分析實驗,測試系統(tǒng)主要功能模塊的運行效果。汽車專利文本預處理功能模塊的運行效果如圖 5.8 所示。該功能模塊對每一條汽車專利文本原始數(shù)據(jù)進行申請時間、IPC 分類號,以及專利名稱、摘要和權利要求等著作項抽取和處理,獲得規(guī)范化的文本語料,并將處理結果存儲到數(shù)據(jù)庫中以備后續(xù)的文本主題挖掘功能模塊的使用。
圖 5.9 汽車專利文本主題挖掘示例Fig 5.9 An example of auto patent topic mining汽車專利文本主題挖掘結果分析模塊運行效果如圖 5.10 所示。該模塊基于文本語料主題挖掘的結果,實現(xiàn)對其熱點主題識別、主題強度演化分析和文本推薦的分析或應用。圖中顯示了 Top-5 的熱點主題,涉及了新能源汽車的動力、能源、車輛系統(tǒng)等方面,并且以主題 patent_topic_3(電池模塊)為例,直觀地顯示了該主題在各年的強度變化情況。其中,由于 2002-2007 年的專利文本量過少,計算的主題強度過低,不便于顯示,因此將該 6 年的專利文本合并到一個時間窗中,再進行相應的主題強度計算和可視化顯示。文本推薦模塊給出了和該主題相關度最大的文本列表,點擊相應的列表項,可以較方便地獲取到其詳細的汽車專利文本內容。
【參考文獻】:
期刊論文
[1]主題模型中的參數(shù)估計方法綜述[J]. 杜慧,陳云芳,張偉. 計算機科學. 2017(S1)
[2]中文文本聚類常用停用詞表對比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
[3]基于雙向長短時記憶模型的中文分詞方法[J]. 張洪剛,李煥. 華南理工大學學報(自然科學版). 2017(03)
[4]融合主題模型和協(xié)同過濾的多樣化移動應用推薦[J]. 黃璐,林川杰,何軍,劉紅巖,杜小勇. 軟件學報. 2017(03)
[5]利用專利文本分析識別技術主題的關鍵技術研究綜述[J]. 許海云,王振蒙,胡正銀,王超,朱禮軍. 情報理論與實踐. 2016(11)
[6]新興技術發(fā)現(xiàn)模型研究[J]. 任智軍,喬曉東,張江濤. 現(xiàn)代圖書情報技術. 2016(Z1)
[7]專利引證視角下的技術演化研究綜述[J]. 張嫻,方曙,王春華. 科學學與科學技術管理. 2016(03)
[8]基于專利信息的中國新能源汽車產(chǎn)業(yè)技術創(chuàng)新研究[J]. 王靜宇,劉穎琦,Ari Kokko. 情報雜志. 2016(01)
[9]基于專利IPC分類號的技術競爭對象的群組分析方法[J]. 韓紅旗,付媛,朱禮軍. 情報工程. 2015(04)
[10]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
博士論文
[1]文本分類中特征加權算法和文本表示策略研究[D]. 賈隆嘉.東北師范大學 2016
[2]基于主題模型的專利文本挖掘方法及應用研究[D]. 陳虹樞.北京理工大學 2015
[3]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學 2013
碩士論文
[1]基于主題模型的文本挖掘的研究[D]. 王亮.大連理工大學 2015
[2]中文社會媒體環(huán)境下汽車質量問題發(fā)現(xiàn)方法研究[D]. 王齊林.合肥工業(yè)大學 2015
[3]基于主題模型的資訊推薦系統(tǒng)的研究與實現(xiàn)[D]. 張姣.上海交通大學 2015
[4]專利文獻主題發(fā)現(xiàn)方法的比較研究[D]. 賈龍飛.大連理工大學 2014
[5]基于專利數(shù)據(jù)挖掘的技術趨勢分析方法[D]. 張超.大連理工大學 2014
[6]基于專利文獻的關鍵技術分析方法研究[D]. 徐珂珂.大連理工大學 2013
[7]基于專利數(shù)據(jù)的電動汽車發(fā)展趨勢研究[D]. 翟亮.武漢理工大學 2013
[8]幾種特征提取方法的研究[D]. 趙浩鑫.河北大學 2012
[9]基于LDA模型的文本聚類研究[D]. 董婧靈.華中師范大學 2012
[10]基于專利的技術發(fā)展趨勢研究[D]. 歷妍.北京工業(yè)大學 2011
本文編號:3094543
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學位級別】:碩士
【部分圖文】:
汽車專利文本示例
錄、服務使用記錄、文本處理結果等的存儲;系統(tǒng)后端業(yè)務實現(xiàn)主要使用 Java 語言,前端頁面使用 JSP 實現(xiàn)等;項目開發(fā)使用 STS 軟件,使用 Maven 對項目依賴Jar 包管理,Tomcat 提供系統(tǒng)運行的容器;Mallet 機器學習工具包用于文本聚類、主題建模等功能,HanLP 分詞包提供文本分詞、詞性標注等功能,二者都基于 Java語言,可以較方便地與系統(tǒng)框架整合;ECharts 圖表包用于將處理結果以圖表的形式可視化展示到前端頁面上。5.4.2 系統(tǒng)主要功能模塊運行效果原型系統(tǒng)開發(fā)完成后,使用第四章實驗采集的國內新能源汽車的專利文本進行文本主題挖掘與分析實驗,測試系統(tǒng)主要功能模塊的運行效果。汽車專利文本預處理功能模塊的運行效果如圖 5.8 所示。該功能模塊對每一條汽車專利文本原始數(shù)據(jù)進行申請時間、IPC 分類號,以及專利名稱、摘要和權利要求等著作項抽取和處理,獲得規(guī)范化的文本語料,并將處理結果存儲到數(shù)據(jù)庫中以備后續(xù)的文本主題挖掘功能模塊的使用。
圖 5.9 汽車專利文本主題挖掘示例Fig 5.9 An example of auto patent topic mining汽車專利文本主題挖掘結果分析模塊運行效果如圖 5.10 所示。該模塊基于文本語料主題挖掘的結果,實現(xiàn)對其熱點主題識別、主題強度演化分析和文本推薦的分析或應用。圖中顯示了 Top-5 的熱點主題,涉及了新能源汽車的動力、能源、車輛系統(tǒng)等方面,并且以主題 patent_topic_3(電池模塊)為例,直觀地顯示了該主題在各年的強度變化情況。其中,由于 2002-2007 年的專利文本量過少,計算的主題強度過低,不便于顯示,因此將該 6 年的專利文本合并到一個時間窗中,再進行相應的主題強度計算和可視化顯示。文本推薦模塊給出了和該主題相關度最大的文本列表,點擊相應的列表項,可以較方便地獲取到其詳細的汽車專利文本內容。
【參考文獻】:
期刊論文
[1]主題模型中的參數(shù)估計方法綜述[J]. 杜慧,陳云芳,張偉. 計算機科學. 2017(S1)
[2]中文文本聚類常用停用詞表對比研究[J]. 官琴,鄧三鴻,王昊. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(03)
[3]基于雙向長短時記憶模型的中文分詞方法[J]. 張洪剛,李煥. 華南理工大學學報(自然科學版). 2017(03)
[4]融合主題模型和協(xié)同過濾的多樣化移動應用推薦[J]. 黃璐,林川杰,何軍,劉紅巖,杜小勇. 軟件學報. 2017(03)
[5]利用專利文本分析識別技術主題的關鍵技術研究綜述[J]. 許海云,王振蒙,胡正銀,王超,朱禮軍. 情報理論與實踐. 2016(11)
[6]新興技術發(fā)現(xiàn)模型研究[J]. 任智軍,喬曉東,張江濤. 現(xiàn)代圖書情報技術. 2016(Z1)
[7]專利引證視角下的技術演化研究綜述[J]. 張嫻,方曙,王春華. 科學學與科學技術管理. 2016(03)
[8]基于專利信息的中國新能源汽車產(chǎn)業(yè)技術創(chuàng)新研究[J]. 王靜宇,劉穎琦,Ari Kokko. 情報雜志. 2016(01)
[9]基于專利IPC分類號的技術競爭對象的群組分析方法[J]. 韓紅旗,付媛,朱禮軍. 情報工程. 2015(04)
[10]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
博士論文
[1]文本分類中特征加權算法和文本表示策略研究[D]. 賈隆嘉.東北師范大學 2016
[2]基于主題模型的專利文本挖掘方法及應用研究[D]. 陳虹樞.北京理工大學 2015
[3]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學 2013
碩士論文
[1]基于主題模型的文本挖掘的研究[D]. 王亮.大連理工大學 2015
[2]中文社會媒體環(huán)境下汽車質量問題發(fā)現(xiàn)方法研究[D]. 王齊林.合肥工業(yè)大學 2015
[3]基于主題模型的資訊推薦系統(tǒng)的研究與實現(xiàn)[D]. 張姣.上海交通大學 2015
[4]專利文獻主題發(fā)現(xiàn)方法的比較研究[D]. 賈龍飛.大連理工大學 2014
[5]基于專利數(shù)據(jù)挖掘的技術趨勢分析方法[D]. 張超.大連理工大學 2014
[6]基于專利文獻的關鍵技術分析方法研究[D]. 徐珂珂.大連理工大學 2013
[7]基于專利數(shù)據(jù)的電動汽車發(fā)展趨勢研究[D]. 翟亮.武漢理工大學 2013
[8]幾種特征提取方法的研究[D]. 趙浩鑫.河北大學 2012
[9]基于LDA模型的文本聚類研究[D]. 董婧靈.華中師范大學 2012
[10]基于專利的技術發(fā)展趨勢研究[D]. 歷妍.北京工業(yè)大學 2011
本文編號:3094543
本文鏈接:http://sikaile.net/kejilunwen/qiche/3094543.html
最近更新
教材專著