基于語(yǔ)義的文檔特征提取研究方法
本文關(guān)鍵詞:基于語(yǔ)義的文檔特征提取研究方法
更多相關(guān)文章: 特征詞 語(yǔ)義距離 信息增益 文本分類
【摘要】:中文文本特征詞選取是文本處理的重要方面,對(duì)文本分類有重要影響,F(xiàn)有的文本特征提取方法存在生成特征向量維數(shù)高、依賴訓(xùn)練集、忽略低頻關(guān)鍵詞等不足。利用《同義詞詞林》計(jì)算詞語(yǔ)之間的語(yǔ)義距離,通過(guò)聚類算法篩選類別的主題相關(guān)詞,最后通過(guò)信息增益算法從主題相關(guān)詞中選取特征詞。以宏F值和微F值為評(píng)價(jià)指標(biāo),通過(guò)有效性實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)表明,該方法的文本特征選取效果優(yōu)于其他經(jīng)典算法。
【作者單位】: 中國(guó)石油大學(xué)(北京)地球物理與信息工程學(xué)院;中國(guó)石油大學(xué)(北京)油氣數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室;中海油研究總院信息數(shù)據(jù)中心;
【關(guān)鍵詞】: 特征詞 語(yǔ)義距離 信息增益 文本分類
【基金】:國(guó)家高新技術(shù)研究發(fā)展計(jì)劃(2009AA062802) 國(guó)家自然科學(xué)基金(60473125) 中國(guó)石油(CNPC)石油科技中青年創(chuàng)新基金(05E7013) 國(guó)家重大專項(xiàng)子課題(G5800-08-ZS-WX)資助
【分類號(hào)】:TP391.1
【正文快照】: 1引言為了提高中文信息處理的效率,幫助人們?nèi)娴卣莆兆约核枰男畔?特征提取成為研究熱點(diǎn)。本文主要介紹基于文檔的特征提取,文檔特征可以代表相應(yīng)文檔,在區(qū)分文檔類別時(shí)能減少處理詞語(yǔ)數(shù)量、降低向量空間維度、簡(jiǎn)化計(jì)算、提高速度和效率,并且能夠清晰、直接地代表文檔主
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 周海芳;杜云飛;楊學(xué)軍;李思昆;;基于互信息的遙感圖像區(qū)域配準(zhǔn)并行算法的研究與實(shí)現(xiàn)[J];中國(guó)圖象圖形學(xué)報(bào);2010年01期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 孫少杰;楊曉東;任繼昌;;基于互信息的亞像素級(jí)立體視覺(jué)點(diǎn)匹配方法研究[J];電光與控制;2015年04期
2 蔡國(guó)榕;李紹滋;陳水利;吳云東;蘇松志;;基于模糊控制的ASIFT圖像特征優(yōu)化算法[J];模糊系統(tǒng)與數(shù)學(xué);2012年05期
3 崔丹丹;張耀南;趙國(guó)輝;;基于MPI和OpenCV遙感植被指數(shù)產(chǎn)品的并行計(jì)算[J];科研信息化技術(shù)與應(yīng)用;2013年05期
4 張興國(guó);王正勇;吳曉紅;姚權(quán);;基于巖心掃描儀的多物距巖心圖像的配準(zhǔn)[J];計(jì)算機(jī)與數(shù)字工程;2014年03期
5 張永宏;闞希;;基于SURF的抗重復(fù)特征干擾圖像配準(zhǔn)方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年03期
6 沈榮;;自適應(yīng)層次B樣條彈性圖像配準(zhǔn)方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年07期
7 李愛(ài)農(nóng);蔣錦剛;邊金虎;雷光斌;黃成全;;基于AROP程序包的類Landsat遙感影像配準(zhǔn)與正射糾正試驗(yàn)和精度分析[J];遙感技術(shù)與應(yīng)用;2012年01期
8 歐陽(yáng)能鈞;李偉彤;韋蔚;潘晴;;基于SIFT與Contourlet變換的高分辨遙感圖像配準(zhǔn)[J];遙感技術(shù)與應(yīng)用;2013年01期
9 趙穎輝;蔣從鋒;;遙感影像的高性能并行處理技術(shù)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年07期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 方雷;基于云計(jì)算的土地資源服務(wù)高效處理平臺(tái)關(guān)鍵技術(shù)探索與研究[D];浙江大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條
1 郭茂銀;基于四階偏微分方程的并行圖像去噪研究[D];重慶郵電大學(xué);2011年
2 歐陽(yáng)能鈞;基于點(diǎn)特征的遙感圖像配準(zhǔn)算法研究[D];廣東工業(yè)大學(xué);2012年
3 萬(wàn)義萍;基于Treelet變換的遙感圖像變化檢測(cè)方法研究[D];西安電子科技大學(xué);2012年
4 姜海英;基于互信息的醫(yī)學(xué)圖像配準(zhǔn)技術(shù)研究[D];江西理工大學(xué);2012年
5 闞希;基于機(jī)器視覺(jué)的印刷品缺陷在線檢測(cè)系統(tǒng)關(guān)鍵技術(shù)研究[D];南京信息工程大學(xué);2013年
6 王修林;異構(gòu)并行計(jì)算在婁底地區(qū)水土流失分析處理中的應(yīng)用研究[D];湖南大學(xué);2013年
7 張偉;遙感震害信息智能提取優(yōu)化方法研究[D];中國(guó)地震局地震預(yù)測(cè)研究所;2014年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 曹潔;戴峻峰;;基于互信息和改進(jìn)PV插值算法的醫(yī)學(xué)圖像配準(zhǔn)[J];科學(xué)技術(shù)與工程;2007年23期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 馬少華,高峰,李敏,吳成東;神經(jīng)網(wǎng)絡(luò)分類器的特征提取和優(yōu)選[J];基礎(chǔ)自動(dòng)化;2000年06期
2 管聰慧,宣國(guó)榮;多類問(wèn)題中的特征提取[J];計(jì)算機(jī)工程;2002年01期
3 胡威;李建華;陳波;;入侵檢測(cè)建模過(guò)程中特征提取最優(yōu)化評(píng)估[J];計(jì)算機(jī)工程;2006年12期
4 朱玉蓮;陳松燦;趙國(guó)安;;推廣的矩陣模式特征提取方法及其在人臉識(shí)別中的應(yīng)用[J];小型微型計(jì)算機(jī)系統(tǒng);2007年04期
5 趙振勇;王保華;王力;崔磊;;人臉圖像的特征提取[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年05期
6 馮海亮;王麗;李見(jiàn)為;;一種新的用于人臉識(shí)別的特征提取方法[J];計(jì)算機(jī)科學(xué);2009年06期
7 朱笑榮;楊德運(yùn);;基于入侵檢測(cè)的特征提取方法[J];計(jì)算機(jī)應(yīng)用與軟件;2010年06期
8 王菲;白潔;;一種基于非線性特征提取的被動(dòng)聲納目標(biāo)識(shí)別方法研究[J];軟件導(dǎo)刊;2010年05期
9 陳偉;瞿曉;葛丁飛;;主觀引導(dǎo)特征提取法在光譜識(shí)別中的應(yīng)用[J];科技通報(bào);2011年04期
10 王華,李介谷;人臉斜視圖象的特征提取與恢復(fù)[J];上海交通大學(xué)學(xué)報(bào);1997年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 尚修剛;蔣慰孫;;模糊特征提取新算法[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
2 潘榮江;孟祥旭;楊承磊;王銳;;旋轉(zhuǎn)體的幾何特征提取方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
3 薛燕;李建良;朱學(xué)芳;;人臉識(shí)別中特征提取的一種改進(jìn)方法[A];第十三屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2006年
4 杜栓平;曹正良;;時(shí)間—頻率域特征提取及其應(yīng)用[A];2005年全國(guó)水聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2005年
5 黃先鋒;韓傳久;陳旭;周劍軍;;運(yùn)動(dòng)目標(biāo)的分割與特征提取[A];全國(guó)第二屆信號(hào)處理與應(yīng)用學(xué)術(shù)會(huì)議?痆C];2008年
6 魏明果;;方言比較的特征提取與矩陣分析[A];2009系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年
7 林土勝;賴聲禮;;視網(wǎng)膜血管特征提取的拆支跟蹤法[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年
8 秦建玲;李軍;;基于核的主成分分析的特征提取方法與樣本篩選[A];2005年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)論文集[C];2005年
9 劉紅;陳光,
本文編號(hào):1032427
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1032427.html