基于語義的文檔特征提取研究方法
本文關鍵詞:基于語義的文檔特征提取研究方法
【摘要】:中文文本特征詞選取是文本處理的重要方面,對文本分類有重要影響。現有的文本特征提取方法存在生成特征向量維數高、依賴訓練集、忽略低頻關鍵詞等不足。利用《同義詞詞林》計算詞語之間的語義距離,通過聚類算法篩選類別的主題相關詞,最后通過信息增益算法從主題相關詞中選取特征詞。以宏F值和微F值為評價指標,通過有效性實驗和對比實驗表明,該方法的文本特征選取效果優(yōu)于其他經典算法。
【作者單位】: 中國石油大學(北京)地球物理與信息工程學院;中國石油大學(北京)油氣數據挖掘北京市重點實驗室;中海油研究總院信息數據中心;
【關鍵詞】: 特征詞 語義距離 信息增益 文本分類
【基金】:國家高新技術研究發(fā)展計劃(2009AA062802) 國家自然科學基金(60473125) 中國石油(CNPC)石油科技中青年創(chuàng)新基金(05E7013) 國家重大專項子課題(G5800-08-ZS-WX)資助
【分類號】:TP391.1
【正文快照】: 1引言為了提高中文信息處理的效率,幫助人們全面地掌握自己所需要的信息,特征提取成為研究熱點。本文主要介紹基于文檔的特征提取,文檔特征可以代表相應文檔,在區(qū)分文檔類別時能減少處理詞語數量、降低向量空間維度、簡化計算、提高速度和效率,并且能夠清晰、直接地代表文檔主
【參考文獻】
中國期刊全文數據庫 前1條
1 周海芳;杜云飛;楊學軍;李思昆;;基于互信息的遙感圖像區(qū)域配準并行算法的研究與實現[J];中國圖象圖形學報;2010年01期
【共引文獻】
中國期刊全文數據庫 前9條
1 孫少杰;楊曉東;任繼昌;;基于互信息的亞像素級立體視覺點匹配方法研究[J];電光與控制;2015年04期
2 蔡國榕;李紹滋;陳水利;吳云東;蘇松志;;基于模糊控制的ASIFT圖像特征優(yōu)化算法[J];模糊系統與數學;2012年05期
3 崔丹丹;張耀南;趙國輝;;基于MPI和OpenCV遙感植被指數產品的并行計算[J];科研信息化技術與應用;2013年05期
4 張興國;王正勇;吳曉紅;姚權;;基于巖心掃描儀的多物距巖心圖像的配準[J];計算機與數字工程;2014年03期
5 張永宏;闞希;;基于SURF的抗重復特征干擾圖像配準方法[J];計算機工程與設計;2013年03期
6 沈榮;;自適應層次B樣條彈性圖像配準方法[J];計算機工程與設計;2014年07期
7 李愛農;蔣錦剛;邊金虎;雷光斌;黃成全;;基于AROP程序包的類Landsat遙感影像配準與正射糾正試驗和精度分析[J];遙感技術與應用;2012年01期
8 歐陽能鈞;李偉彤;韋蔚;潘晴;;基于SIFT與Contourlet變換的高分辨遙感圖像配準[J];遙感技術與應用;2013年01期
9 趙穎輝;蔣從鋒;;遙感影像的高性能并行處理技術研究[J];計算機技術與發(fā)展;2014年07期
中國博士學位論文全文數據庫 前1條
1 方雷;基于云計算的土地資源服務高效處理平臺關鍵技術探索與研究[D];浙江大學;2011年
中國碩士學位論文全文數據庫 前7條
1 郭茂銀;基于四階偏微分方程的并行圖像去噪研究[D];重慶郵電大學;2011年
2 歐陽能鈞;基于點特征的遙感圖像配準算法研究[D];廣東工業(yè)大學;2012年
3 萬義萍;基于Treelet變換的遙感圖像變化檢測方法研究[D];西安電子科技大學;2012年
4 姜海英;基于互信息的醫(yī)學圖像配準技術研究[D];江西理工大學;2012年
5 闞希;基于機器視覺的印刷品缺陷在線檢測系統關鍵技術研究[D];南京信息工程大學;2013年
6 王修林;異構并行計算在婁底地區(qū)水土流失分析處理中的應用研究[D];湖南大學;2013年
7 張偉;遙感震害信息智能提取優(yōu)化方法研究[D];中國地震局地震預測研究所;2014年
【二級參考文獻】
中國期刊全文數據庫 前1條
1 曹潔;戴峻峰;;基于互信息和改進PV插值算法的醫(yī)學圖像配準[J];科學技術與工程;2007年23期
【相似文獻】
中國期刊全文數據庫 前10條
1 馬少華,高峰,李敏,吳成東;神經網絡分類器的特征提取和優(yōu)選[J];基礎自動化;2000年06期
2 管聰慧,宣國榮;多類問題中的特征提取[J];計算機工程;2002年01期
3 胡威;李建華;陳波;;入侵檢測建模過程中特征提取最優(yōu)化評估[J];計算機工程;2006年12期
4 朱玉蓮;陳松燦;趙國安;;推廣的矩陣模式特征提取方法及其在人臉識別中的應用[J];小型微型計算機系統;2007年04期
5 趙振勇;王保華;王力;崔磊;;人臉圖像的特征提取[J];計算機技術與發(fā)展;2007年05期
6 馮海亮;王麗;李見為;;一種新的用于人臉識別的特征提取方法[J];計算機科學;2009年06期
7 朱笑榮;楊德運;;基于入侵檢測的特征提取方法[J];計算機應用與軟件;2010年06期
8 王菲;白潔;;一種基于非線性特征提取的被動聲納目標識別方法研究[J];軟件導刊;2010年05期
9 陳偉;瞿曉;葛丁飛;;主觀引導特征提取法在光譜識別中的應用[J];科技通報;2011年04期
10 王華,李介谷;人臉斜視圖象的特征提取與恢復[J];上海交通大學學報;1997年01期
中國重要會議論文全文數據庫 前10條
1 尚修剛;蔣慰孫;;模糊特征提取新算法[A];1997中國控制與決策學術年會論文集[C];1997年
2 潘榮江;孟祥旭;楊承磊;王銳;;旋轉體的幾何特征提取方法[A];第一屆建立和諧人機環(huán)境聯合學術會議(HHME2005)論文集[C];2005年
3 薛燕;李建良;朱學芳;;人臉識別中特征提取的一種改進方法[A];第十三屆全國圖象圖形學學術會議論文集[C];2006年
4 杜栓平;曹正良;;時間—頻率域特征提取及其應用[A];2005年全國水聲學學術會議論文集[C];2005年
5 黃先鋒;韓傳久;陳旭;周劍軍;;運動目標的分割與特征提取[A];全國第二屆信號處理與應用學術會議?痆C];2008年
6 魏明果;;方言比較的特征提取與矩陣分析[A];2009系統仿真技術及其應用學術會議論文集[C];2009年
7 林土勝;賴聲禮;;視網膜血管特征提取的拆支跟蹤法[A];1999年中國神經網絡與信號處理學術會議論文集[C];1999年
8 秦建玲;李軍;;基于核的主成分分析的特征提取方法與樣本篩選[A];2005年中國機械工程學會年會論文集[C];2005年
9 劉紅;陳光,
本文編號:1032427
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1032427.html