中文Web文檔聚類算法研究
[Abstract]:Based on the STC algorithm, a Chinese Web document clustering algorithm, STC-I, is proposed to cluster the retrieval results on-line and efficiently. In STC-I, the document set is removed from synonyms and synonyms. The same sentence method is used to reduce the dimension of the document. By calculating the similarity between the query keyword and the text, the time complexity of the STC is reduced and the accuracy of the STC clustering is improved by scoring the text that participates in the clustering. By comparing the accuracy and time complexity of STC-I and STC,AHC,K-Means, the results show that STC-I is better than STC,AHC and K-Means in terms of accuracy and time complexity.
【作者單位】: 南京理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院;
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 李江波;周強(qiáng);陳祖舜;;漢語詞典的快速查詢算法研究[J];中文信息學(xué)報(bào);2006年05期
2 劉泉鳳,陸蓓,王小華;文本挖掘中聚類算法的比較研究[J];計(jì)算機(jī)時(shí)代;2005年06期
【共引文獻(xiàn)】
相關(guān)會(huì)議論文 前3條
1 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
2 穆飛;李維佳;薛巍;舒繼武;;一種分布式信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
3 孫宏綱;陸余良;;基于二元切分的互聯(lián)網(wǎng)新聞主題詞自動(dòng)提取研究[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)碩士學(xué)位論文 前7條
1 陳麗珍;維文網(wǎng)絡(luò)中不良文本信息檢索、監(jiān)控系統(tǒng)的研究[D];新疆大學(xué);2006年
2 馮周;基于模糊信息處理的個(gè)性化文件搜索引擎算法研究與實(shí)現(xiàn)[D];電子科技大學(xué);2007年
3 艾山·吾買爾;多語種—多媒體電子詞典資源平臺(tái)和大型英漢維電子詞典的研究和實(shí)現(xiàn)[D];新疆大學(xué);2007年
4 圖格木勒;蒙古語語言資源庫建設(shè)相關(guān)技術(shù)研究[D];內(nèi)蒙古大學(xué);2007年
5 李洋;企業(yè)注冊(cè)登記文件聚類軟件設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2007年
6 羅麗俊;中文信息處理中若干技術(shù)的研究與實(shí)現(xiàn)[D];遼寧科技大學(xué);2008年
7 張?zhí)煊?PE系統(tǒng)的自動(dòng)化重構(gòu)研究與實(shí)踐[D];浙江大學(xué);2008年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 王秀坤,李政,簡幼良,劉劍;基于Hash方法的機(jī)器翻譯詞典的組織與構(gòu)造[J];大連理工大學(xué)學(xué)報(bào);1996年03期
2 孫茂松,左正平,黃昌寧;漢語自動(dòng)分詞詞典機(jī)制的實(shí)驗(yàn)研究[J];中文信息學(xué)報(bào);2000年01期
3 楊文峰,陳光英,李星;基于PATRICIA tree的漢語自動(dòng)分詞詞典機(jī)制[J];中文信息學(xué)報(bào);2001年03期
4 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報(bào);2003年04期
5 李戈,邵峰晶,朱本浩;基于神經(jīng)網(wǎng)絡(luò)聚類的研究[J];青島大學(xué)學(xué)報(bào)(工程技術(shù)版);2001年04期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 曾本勝,廉玉忠,,李世取;后綴樹的平均高度[J];運(yùn)籌與管理;1996年04期
2 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期
3 周水庚,關(guān)佶紅,胡運(yùn)發(fā);基于文檔實(shí)例的中文信息檢索[J];計(jì)算機(jī)工程與應(yīng)用;2000年10期
4 鄧英,李明;Web數(shù)據(jù)挖掘技術(shù)及工具研究[J];計(jì)算機(jī)工程與應(yīng)用;2001年20期
5 李睿,李明;Web數(shù)據(jù)挖掘技術(shù)探討[J];甘肅科技;2001年03期
6 姜寧,史忠植;文本聚類中的貝葉斯后驗(yàn)?zāi)P瓦x擇方法[J];計(jì)算機(jī)研究與發(fā)展;2002年05期
7 林鴻飛,楊元生;用戶興趣模型的表示和更新機(jī)制[J];計(jì)算機(jī)研究與發(fā)展;2002年07期
8 姜寧,宮秀軍,史忠植;高維特征空間中文本聚類研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年10期
9 鄭毅,吳斌,史忠植;基于概念空間的文本檢索系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2002年12期
10 李家福,陸建江,張亞非;模糊聚類算法在漢語文本聚類中的應(yīng)用[J];計(jì)算機(jī)工程;2002年04期
相關(guān)會(huì)議論文 前9條
1 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2002年
2 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
3 邱立坤;程葳;龍志yN;孫嬌華;;面向BBS的話題挖掘初探[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 黎琳;;Web內(nèi)容挖掘在數(shù)字圖書館中的應(yīng)用[A];中國工程物理研究院第七屆電子技術(shù)青年學(xué)術(shù)交流會(huì)論文集[C];2005年
5 彭怡;;從數(shù)據(jù)挖掘文章聚類分析看其發(fā)展趨勢[A];現(xiàn)代工業(yè)工程與管理研討會(huì)會(huì)議論文集[C];2006年
6 朱強(qiáng)生;田英;周延泉;何華燦;;基于非負(fù)因子分析的模糊文本挖掘[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2006年
7 羅娜;左萬利;袁福宇;張靖波;張慧杰;;使用本體語義提高文本聚類(英文)[A];全國語域web與本體能研討會(huì)論文集[C];2006年
8 顏端武;李曉鵬;王磊;成曉;;文本聚類中基于本體的相似性測度(英文)[A];全國語域web與本體能研討會(huì)論文集[C];2006年
9 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計(jì)量研究[A];第三屆科技政策與管理學(xué)術(shù)研討會(huì)暨第二屆科教發(fā)展戰(zhàn)略論壇論文匯編[C];2007年
相關(guān)重要報(bào)紙文章 前2條
1 王培森;從Web挖到競爭情報(bào)[N];中國計(jì)算機(jī)報(bào);2003年
2 中國科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年
相關(guān)博士學(xué)位論文 前6條
1 戈鵬;敏捷化CAPP系統(tǒng)原理、關(guān)鍵技術(shù)與應(yīng)用實(shí)踐[D];四川大學(xué);2003年
2 何清;機(jī)器學(xué)習(xí)與文本挖掘若干算法研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2002年
3 梁作鵬;面向Web的XML檢索關(guān)鍵技術(shù)研究[D];東南大學(xué);2005年
4 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
5 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
6 何麗;基于Web挖掘的決策支持系統(tǒng)模型研究[D];天津大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 易靖;基于信息粒度原理的文本分類方法的研究[D];北京工業(yè)大學(xué);2001年
2 蘇偉峰;基于概念的文本自動(dòng)分類研究[D];廈門大學(xué);2002年
3 劉恒;程序中重復(fù)代碼的自動(dòng)檢測[D];大連理工大學(xué);2003年
4 劉立平;一種中文文本聚類方法的研究[D];湘潭大學(xué);2003年
5 張俊艷;基于SVM有聚類指導(dǎo)的Web中文文本分類器的研究及其實(shí)現(xiàn)[D];福州大學(xué);2004年
6 馬國俊;潛在語義索引在中文文本聚類中的應(yīng)用研究[D];西安建筑科技大學(xué);2004年
7 谷波;基于粗集模型的聚類方法及其在文獻(xiàn)過濾系統(tǒng)中的應(yīng)用[D];山西大學(xué);2004年
8 李建祥;智能網(wǎng)頁推薦系統(tǒng)的相關(guān)技術(shù)研究[D];西南交通大學(xué);2004年
9 繆嘉嘉;數(shù)據(jù)倉庫的數(shù)據(jù)獲取關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2003年
10 袁磊;基于概率模型的文本聚類[D];吉林大學(xué);2005年
本文編號(hào):2434625
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2434625.html