中心聚類和語義特征融合的網(wǎng)頁信息文本挖掘方法
本文關(guān)鍵詞:中心聚類和語義特征融合的網(wǎng)頁信息文本挖掘方法 出處:《遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版)》2016年01期 論文類型:期刊論文
更多相關(guān)文章: 中心聚類 語義特征 矩陣 網(wǎng)頁信息 文本挖掘
【摘要】:針對網(wǎng)頁信息內(nèi)容豐富且結(jié)構(gòu)復(fù)雜,難以準(zhǔn)確挖掘的問題,采用中心聚類和語義特征相互融合的方法.利用中心聚類算法確定樣本最終的聚類中心,根據(jù)每個(gè)詞在網(wǎng)頁中出現(xiàn)的頻率和詞的上下文語義,構(gòu)造一個(gè)網(wǎng)頁-詞語的權(quán)重映射矩陣,并將語義特征作為中心聚類相似性的判斷依據(jù),完成網(wǎng)頁文本信息的挖掘.實(shí)驗(yàn)結(jié)果表明:利用該方法對網(wǎng)頁文本進(jìn)行挖掘,在時(shí)間增加不多的情況下,可以獲得更高的召回率和準(zhǔn)確率.
[Abstract]:In order to solve the problem of rich and complex information structure and difficult to mine accurately, the central clustering algorithm is used to determine the final clustering center of the sample by using the method of the fusion of the central clustering and semantic features. According to the frequency of each word appearing in the web page and the context semantics of the word, a weighted mapping matrix of the web-words is constructed, and the semantic features are taken as the basis for judging the similarity of the central clustering. The experimental results show that the method can obtain higher recall rate and higher accuracy when the time is not much increased.
【作者單位】: 柳州職業(yè)技術(shù)學(xué)院電子信息工程系;
【基金】:廣西教育廳科研項(xiàng)目基金項(xiàng)目(201106LX745,201204LX593)
【分類號】:TP393.092;TP391.1
【正文快照】: 0引言21世紀(jì)以來,人類社會信息化的進(jìn)程進(jìn)一步加快.難以計(jì)數(shù)的信息呈現(xiàn)在人們的面前,網(wǎng)絡(luò)已經(jīng)成為最大的信息儲存庫,僅中國的網(wǎng)頁數(shù)量就超過數(shù)百億[1].如此激增的信息量,給人們從中篩選并提取對自己有價(jià)值的信息提出了挑戰(zhàn),從而也推動數(shù)據(jù)挖掘技術(shù)飛速發(fā)展[2].在各種數(shù)據(jù)挖掘
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 魏桂英;高學(xué)東;武森;;基于領(lǐng)域本體的個(gè)性化文本信息檢索[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
2 毛婷;楊敬輝;楊晶東;;基于模糊聚類的自然語言語義特征[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
3 郭景峰;趙玉艷;邊偉峰;李晶;;基于改進(jìn)的凝聚性和分離性的層次聚類算法[J];計(jì)算機(jī)研究與發(fā)展;2008年S1期
4 馬素琴;施化吉;;閾值優(yōu)化的文本密度聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年17期
5 張玉芳;朱俊;熊忠陽;;改進(jìn)的概率潛在語義分析下的文本聚類算法[J];計(jì)算機(jī)應(yīng)用;2011年03期
6 熊忠陽;暴自強(qiáng);李智星;張玉芳;;結(jié)合LSA的中文譜聚類算法研究[J];計(jì)算機(jī)應(yīng)用研究;2010年03期
7 劉一鳴;張化祥;;引入信息增益的層次聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2012年01期
8 王永貴;林琳;劉憲國;;結(jié)合雙粒子群和K-means的混合文本聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2014年02期
9 王秀慧;王麗珍;麻淑芳;;結(jié)合語義的改進(jìn)FTC文本聚類算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年02期
10 何祥;駱祥峰;;基于關(guān)聯(lián)語義鏈網(wǎng)絡(luò)的文本聚類方法[J];上海大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙學(xué)武;劉向嬌;尹孟洋;;數(shù)據(jù)挖掘常用聚類算法研究[J];電腦知識與技術(shù);2014年16期
2 呂小剛;;基于K-means文本聚類算法研究[J];電腦編程技巧與維護(hù);2014年24期
3 楊秋;張群;王敏;孫莉;;稀疏場景目標(biāo)的距離像峰值聚類分割成像方法[J];測繪學(xué)報(bào);2015年08期
4 安世全;丁進(jìn)標(biāo);高濤;;一種改進(jìn)的分解-合并聚類方法[J];計(jì)算機(jī)工程與應(yīng)用;2011年14期
5 肖鳳;鄭海健;盧闖;;基于聚類分析的銀行客戶關(guān)系管理策略研究[J];技術(shù)經(jīng)濟(jì);2010年01期
6 劉漢強(qiáng);;免疫克隆選擇圖劃分方法[J];計(jì)算機(jī)應(yīng)用研究;2012年09期
7 陳華城;杜學(xué)繪;陳性元;夏春濤;;基于興趣本體的文檔敏感信息檢測方法[J];計(jì)算機(jī)應(yīng)用;2012年11期
8 張愛科;符保龍;;基于高維聚類的探索性文本挖掘算法[J];計(jì)算機(jī)應(yīng)用;2013年04期
9 張偉;黃煒;夏利民;;基于廣義內(nèi)容概率潛在語義分析模型的推薦[J];計(jì)算機(jī)應(yīng)用;2013年05期
10 吳志媛;錢雪忠;;基于PLSI的標(biāo)簽聚類研究[J];計(jì)算機(jī)應(yīng)用研究;2013年05期
相關(guān)博士學(xué)位論文 前3條
1 錢鵬江;大規(guī)模數(shù)據(jù)集聚類方法研究及應(yīng)用[D];江南大學(xué);2011年
2 徐建平;再生資源回收利用網(wǎng)絡(luò)研究[D];東華大學(xué);2011年
3 陳圣兵;基于商空間理論的海量信息檢索模型的研究[D];安徽大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 蘇永昌;基于粒度原理的聚類分析及規(guī)則挖掘技術(shù)研究[D];武漢理工大學(xué);2011年
2 鄧子平;面向醫(yī)學(xué)診療的本體自動生成系統(tǒng)的研究與開發(fā)[D];廣東工業(yè)大學(xué);2011年
3 萬元元;社會性標(biāo)簽系統(tǒng)的個(gè)性化資源推薦[D];天津大學(xué);2012年
4 覃思明;結(jié)合時(shí)間窗的用戶訪問興趣聚類分析[D];中南大學(xué);2010年
5 黃菲菲;半監(jiān)督層次協(xié)同文本聚類研究[D];西南交通大學(xué);2012年
6 鄭宇;農(nóng)信銀行多級帳戶管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];云南大學(xué);2012年
7 王惠仙;基于SVM的中文文本分類相關(guān)算法研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2012年
8 丁立朵;半定規(guī)劃核在垃圾標(biāo)簽檢測中的應(yīng)用研究[D];廣西大學(xué);2012年
9 廖麗嬌;基于層次聚類的進(jìn)化樹構(gòu)建算法研究[D];湖南大學(xué);2011年
10 趙利軍;基于語義分析的網(wǎng)絡(luò)服務(wù)智能交互系統(tǒng)研究[D];西南交通大學(xué);2013年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年05期
2 戴新宇;田寶明;周俊生;陳家駿;;一種基于潛在語義分析和直推式譜圖算法的文本分類方法LSASGT[J];電子學(xué)報(bào);2008年08期
3 付寧;喬立巖;彭喜元;;基于改進(jìn)K-means聚類和霍夫變換的稀疏源混合矩陣盲估計(jì)算法[J];電子學(xué)報(bào);2009年S1期
4 任三孩;常文革;劉向君;;一種基于小波變換和變尺度圓模板融合的景象匹配算法[J];電子學(xué)報(bào);2011年09期
5 張?jiān)撇?魏春啟;孟凡麗;;基于遺傳算法的Hopfield神經(jīng)網(wǎng)絡(luò)集成[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年S2期
6 馬翔;;粒子群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)用于重復(fù)記錄檢測[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
7 李娟;;基于本體論的個(gè)性化信息檢索[J];黑龍江科技信息;2009年35期
8 武成崗,焦文品,田啟家,史忠植;基于本體論和多主體的信息檢索服務(wù)器[J];計(jì)算機(jī)研究與發(fā)展;2001年06期
9 白秋產(chǎn);金春霞;周海巖;;概念向量文本聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年35期
10 蔡曉妍;戴冠中;楊黎斌;;譜聚類算法綜述[J];計(jì)算機(jī)科學(xué);2008年07期
相關(guān)博士學(xué)位論文 前3條
1 王修力;基于描述復(fù)雜性的信息檢索理論與若干模型研究[D];北京語言大學(xué);2006年
2 袁方;面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué);2006年
3 周,
本文編號:1419773
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1419773.html