天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于主題詞頻數(shù)特征的文本主題劃分

發(fā)布時(shí)間:2018-03-16 07:34

  本文選題:搜索引擎 切入點(diǎn):文本聚類 出處:《計(jì)算機(jī)應(yīng)用》2006年08期  論文類型:期刊論文


【摘要】:目前文本分類所采用的文本—詞頻矩陣具有詞頻維數(shù)過大和過于稀疏兩個(gè)特點(diǎn),給計(jì)算造成了一定困難。為解決這一問題,從用戶使用搜索引擎時(shí)選擇所需文本的心理出發(fā),提出了一種基于主題詞頻數(shù)特征的文本主題劃分方法。該方法首先根據(jù)統(tǒng)計(jì)方法篩選各文本類的主題詞,然后以主題詞類替代單個(gè)詞作為特征采用模糊C-均值(FCM)算法施行文本聚類。實(shí)驗(yàn)獲得了較好的主題劃分效果,并與一種基于詞聚類的文本聚類方法進(jìn)行了過程及結(jié)果中多個(gè)方面的比較,得出了一些在實(shí)施要點(diǎn)和應(yīng)用背景上較有意義的結(jié)論。
[Abstract]:At present, the text-word frequency matrix used in text classification has the characteristics of excessive dimension and sparsity of word frequency, which makes it difficult to calculate. In order to solve this problem, starting from the psychology of choosing the required text when users use search engine, In this paper, a method of topic partitioning based on the frequency feature of theme words is proposed, which is used to screen the theme words of each text category according to the statistical method. Then the text clustering is implemented by using the fuzzy C- mean FCM-based algorithm instead of the single word as the feature. Compared with a text clustering method based on word clustering, this paper makes a comparison between the process and the results, and draws some meaningful conclusions in the implementation and application background.
【作者單位】: 廈門大學(xué)軟件學(xué)院 廈門大學(xué)軟件學(xué)院 廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院
【基金】:廈門大學(xué)985二期信息創(chuàng)新平臺(tái)項(xiàng)目資助(0000-X07204)
【分類號(hào)】:TP391.1

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王宇,楊莉;模糊k-prototypes聚類算法的一種改進(jìn)算法[J];大連理工大學(xué)學(xué)報(bào);2003年06期

2 行小帥,焦李成;數(shù)據(jù)挖掘的聚類方法[J];電路與系統(tǒng)學(xué)報(bào);2003年01期

3 張巖;趙政;;聚類算法在應(yīng)急系統(tǒng)中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2006年31期

4 汪加才;文巨峰;陳奇;俞瑞釗;;結(jié)構(gòu)化模糊K-prototypes聚類算法[J];計(jì)算機(jī)科學(xué);2005年05期

5 王家耀;張雪萍;周海燕;;一個(gè)用于空間聚類分析的遺傳K-均值算法[J];計(jì)算機(jī)工程;2006年03期

6 劉國營;基于路徑聚類的Web用戶訪問模式發(fā)現(xiàn)算法[J];情報(bào)雜志;2005年07期

7 趙宇;李兵;李秀;劉文煌;任守榘;;混合屬性數(shù)據(jù)聚類融合算法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年10期

8 王宇,楊莉;數(shù)據(jù)挖掘及在英語借詞分類中的應(yīng)用[J];汕頭大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年02期

9 蔡江輝,張繼福;基于聚類的離群數(shù)據(jù)挖掘及應(yīng)用[J];太原重型機(jī)械學(xué)院學(xué)報(bào);2004年04期

10 劉泉鳳,陸蓓;數(shù)據(jù)挖掘中聚類算法的比較研究[J];浙江水利水電?茖W(xué)校學(xué)報(bào);2005年02期

相關(guān)博士學(xué)位論文 前10條

1 郭斯羽;動(dòng)態(tài)數(shù)據(jù)中的數(shù)據(jù)挖掘研究[D];浙江大學(xué);2002年

2 毛國君;數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究[D];北京工業(yè)大學(xué);2003年

3 劉勇國;基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測研究[D];重慶大學(xué);2003年

4 劉君強(qiáng);海量數(shù)據(jù)挖掘技術(shù)研究[D];浙江大學(xué);2003年

5 王達(dá);時(shí)間序列數(shù)據(jù)挖掘研究與應(yīng)用[D];浙江大學(xué);2004年

6 王莉;數(shù)據(jù)挖掘中聚類方法的研究[D];天津大學(xué);2004年

7 陳湘濤;數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在新型鋁電解控制系統(tǒng)中的應(yīng)用研究[D];中南大學(xué);2004年

8 王勇獻(xiàn);蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測的模型與方法研究[D];國防科學(xué)技術(shù)大學(xué);2004年

9 李潔;基于自然計(jì)算的模糊聚類新算法研究[D];西安電子科技大學(xué);2004年

10 王U,

本文編號(hào):1618949


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1618949.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d0b20***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com