天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 科研管理論文 >

中文專利自動(dòng)分類特征選擇與特征加權(quán)方法研究

發(fā)布時(shí)間:2017-07-15 13:30

  本文關(guān)鍵詞:中文專利自動(dòng)分類特征選擇與特征加權(quán)方法研究


  更多相關(guān)文章: 專利自動(dòng)分類 特征選擇 特征加權(quán) 加權(quán)因子


【摘要】:面對(duì)海量專利數(shù)據(jù)的分類,傳統(tǒng)的手工分類方式已經(jīng)無法滿足人們的需求,因此如何實(shí)現(xiàn)專利快速有效的自動(dòng)分類,成為專利分析處理工作的關(guān)鍵問題。在現(xiàn)有的專利自動(dòng)分類技術(shù)的基礎(chǔ)上,本文就中文專利自動(dòng)分類中特征選擇算法以及特征加權(quán)算法兩個(gè)方面的問題開展研究。 在對(duì)中文專利文本進(jìn)行特征選擇時(shí),本文提出在信息增益算法的基礎(chǔ)上,引入詞頻加權(quán)因子以突出詞頻因素對(duì)于特征選擇的作用;引入類間分散度加權(quán)因子以強(qiáng)調(diào)類間分布因素對(duì)于特征選擇的影響,引入調(diào)節(jié)因子以降低處理不均衡專利數(shù)據(jù)集時(shí)不出現(xiàn)的特征詞的負(fù)面影響。在計(jì)算特征權(quán)重時(shí),本文結(jié)合專利文本的結(jié)構(gòu)特點(diǎn),提出引入類間分散度加權(quán)因子與位置加權(quán)因子,引入類間分散度加權(quán)因子可以突出分布類別少、出現(xiàn)頻率高的特征詞的權(quán)重;引入位置加權(quán)因子,可以突出專利的法律特性和技術(shù)特性以及組成專利各元素內(nèi)容的差異性。最后通過對(duì)比試驗(yàn)證明,本文提出的改進(jìn)方法是有效的。
【關(guān)鍵詞】:專利自動(dòng)分類 特征選擇 特征加權(quán) 加權(quán)因子
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1;G306
【目錄】:
  • 摘要3-4
  • Abstract4-7
  • 第一章 緒論7-11
  • 1.1 研究背景及意義7-8
  • 1.2 國內(nèi)外研究現(xiàn)狀8-9
  • 1.3 論文研究內(nèi)容9-10
  • 1.4 論文結(jié)構(gòu)10-11
  • 第二章 專利的相關(guān)理論與文本分類技術(shù)11-21
  • 2.1 專利的相關(guān)理論11
  • 2.1.1 專利的基本概念11
  • 2.1.2 專利的組成結(jié)構(gòu)11
  • 2.2 文本分類體系結(jié)構(gòu)11-12
  • 2.3 中文文本分類的關(guān)鍵技術(shù)12-20
  • 2.3.1 文本預(yù)處理12-15
  • 2.3.2 文本表示15-17
  • 2.3.3 文本分類算法17-20
  • 2.4 本章小結(jié)20-21
  • 第三章 特征選擇算法與特征加權(quán)算法的改進(jìn)研究21-33
  • 3.1 常用特征選擇算法21-23
  • 3.1.1 文檔頻率21
  • 3.1.2 互信息21-22
  • 3.1.3 CHI 統(tǒng)計(jì)22-23
  • 3.1.4 信息增益23
  • 3.2 中文專利自動(dòng)分類中信息增益特征選擇算法的局限性23-25
  • 3.3 改進(jìn)的適用于中文專利自動(dòng)分類的特征選擇算法25-26
  • 3.4 特征權(quán)重評(píng)估26-28
  • 3.4.1 布爾權(quán)重27
  • 3.4.2 詞頻權(quán)重27
  • 3.4.3 TF-IDF 權(quán)重27-28
  • 3.5 中文專利自動(dòng)分類中 TF-IDF 特征加權(quán)算法的局限性28-29
  • 3.6 改進(jìn)的適用于中文專利自動(dòng)分類的特征加權(quán)算法29-30
  • 3.7 改進(jìn)的中文專利自動(dòng)分類方法30-32
  • 3.8 本章小結(jié)32-33
  • 第四章 中文專利自動(dòng)分類實(shí)驗(yàn)與結(jié)果分析33-53
  • 4.1 原型系統(tǒng)33-39
  • 4.1.1 系統(tǒng)環(huán)境與開發(fā)工具33
  • 4.1.2 分類系統(tǒng)設(shè)計(jì)33-34
  • 4.1.3 原型系統(tǒng)概覽34-39
  • 4.2 實(shí)驗(yàn)介紹39-43
  • 4.2.1 分類評(píng)價(jià)指標(biāo)39-41
  • 4.2.2 實(shí)驗(yàn)設(shè)計(jì)41
  • 4.2.3 實(shí)驗(yàn)數(shù)據(jù)41-42
  • 4.2.4 實(shí)驗(yàn)步驟42-43
  • 4.3 實(shí)驗(yàn)結(jié)果43-50
  • 4.3.1 混淆矩陣43-44
  • 4.3.2 各個(gè)類的精確率、召回率、F_1值44-48
  • 4.3.3 總體精確率、召回率、F_1值48-50
  • 4.4 實(shí)驗(yàn)分析50-51
  • 4.5 本章小結(jié)51-53
  • 第五章 總結(jié)與展望53-55
  • 5.1 論文總結(jié)53-54
  • 5.2 研究展望54-55
  • 致謝55-57
  • 參考文獻(xiàn)57-61
  • 附錄 A61-66
  • 碩士期間研究成果66-67

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 鄧擘;樊孝忠;楊立公;;基于統(tǒng)計(jì)分布與集合論的文本分類方法[J];北京理工大學(xué)學(xué)報(bào);2006年07期

2 段靈修;林俊;黃達(dá)臻;黃志華;;中文專利文本特征提取方法研究[J];福建電腦;2011年12期

3 丁月華,文貴華,郭煒強(qiáng);基于核向量空間模型的專利分類[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年08期

4 李程雄;丁月華;文貴華;;SVM-KNN組合改進(jìn)算法在專利文本分類中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2006年20期

5 臺(tái)德藝;王俊;;文本分類特征權(quán)重改進(jìn)算法[J];計(jì)算機(jī)工程;2010年09期

6 馬玉春,宋瀚濤;Web中文文本分詞技術(shù)研究[J];計(jì)算機(jī)應(yīng)用;2004年04期

7 蔣健安;陸介平;倪巍偉;孫志揮;;一種面向?qū)@墨I(xiàn)數(shù)據(jù)的文本自動(dòng)分類方法[J];計(jì)算機(jī)應(yīng)用;2008年01期

8 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計(jì)算機(jī)應(yīng)用;2009年S1期

9 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期

10 周茜,趙明生,扈e,

本文編號(hào):544132


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/keyanlw/544132.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶eecda***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com