針對(duì)小文本的Web數(shù)據(jù)挖掘技術(shù)及其應(yīng)用
本文選題:智能搜索 + Web數(shù)據(jù)挖掘; 參考:《微計(jì)算機(jī)信息》2006年21期
【摘要】:現(xiàn)有搜索引擎技術(shù)返回給用戶(hù)的信息太多太雜,為此提出一種針對(duì)小文本的基于近似網(wǎng)頁(yè)聚類(lèi)算法的Web文本數(shù)據(jù)挖掘技術(shù),該技術(shù)根據(jù)用戶(hù)的興趣程度形成詞匯庫(kù),利用模糊聚類(lèi)方法獲得分詞詞典組,采用MD5算法去除重復(fù)頁(yè)面,采用近似網(wǎng)頁(yè)聚類(lèi)算法對(duì)剩余頁(yè)面聚類(lèi),并用馬爾可夫Web序列挖掘算法對(duì)聚類(lèi)結(jié)果排序,從而提供用戶(hù)感興趣的網(wǎng)頁(yè)簇序列,使用戶(hù)可以迅速找到感興趣的頁(yè)面。實(shí)驗(yàn)證明該算法在保證查全率和查準(zhǔn)率的基礎(chǔ)上大大提高了搜索效率。由于是針對(duì)小文本的數(shù)據(jù)挖掘,所研究的算法時(shí)間和空間復(fù)雜度都不高,因此有望成為一種實(shí)用、有效的信息檢索技術(shù)。
[Abstract]:The existing search engine technology returns too much information to the user, so a Web text mining technology based on approximate web page clustering algorithm for small text is proposed, which forms a vocabulary base according to the user's interest. Fuzzy clustering method is used to obtain word segmentation dictionary group, MD5 algorithm is used to remove duplicate pages, approximate page clustering algorithm is used to cluster the remaining pages, and Markov Web sequence mining algorithm is used to sort the clustering results. Thus, the user can find the interested pages quickly by providing the sequence of interested web pages. Experiments show that the algorithm greatly improves the search efficiency on the basis of guaranteeing recall and precision. Due to the small text data mining, the algorithm is not high in time and space complexity, so it is expected to become a practical and effective information retrieval technology.
【作者單位】: 湖南大學(xué)電氣與信息工程學(xué)院 長(zhǎng)沙理工大學(xué)電氣與信息工程學(xué)院
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(60375001) 教育部博士點(diǎn)基金資助項(xiàng)目(20030532004)
【分類(lèi)號(hào)】:TP311.13
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 焦軍彩;韓正忠;;高校綜合實(shí)力的模糊綜合評(píng)估與聚類(lèi)分析研究[J];中國(guó)高等教育評(píng)估;2004年02期
2 劉章軍;葉燎原;;模糊概率模型及其在地下水水質(zhì)評(píng)價(jià)中的應(yīng)用[J];應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報(bào);2007年03期
3 陳曉軍;郭金茂;;基于AHP模糊綜合評(píng)判的軍工電子產(chǎn)品質(zhì)量評(píng)價(jià)研究[J];裝甲兵工程學(xué)院學(xué)報(bào);2005年04期
4 湛毅青;高校財(cái)務(wù)績(jī)效的模糊綜合評(píng)判[J];中南工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2001年04期
5 王燕;安徽省節(jié)水農(nóng)業(yè)分區(qū)初步研究[J];中國(guó)農(nóng)村水利水電;2001年07期
6 朱浩;科學(xué)研究中事物模糊性的哲學(xué)意蘊(yùn)[J];自然辯證法研究;2002年10期
7 劉章軍,葉燎原;基于模糊概率的震害預(yù)測(cè)模型及其應(yīng)用[J];自然災(zāi)害學(xué)報(bào);2005年04期
8 翟光群,張玉鳳;燒堿濃度Fuzzy檢測(cè)中隸屬函數(shù)的確定[J];鄭州工業(yè)大學(xué)學(xué)報(bào);2001年04期
9 胡忠日,孫迎霞,方正;高層建筑火災(zāi)危險(xiǎn)性模糊綜合評(píng)估初探[J];消防科學(xué)與技術(shù);2003年05期
10 高明,馬生全;基于模糊可信度的綜合評(píng)判方法[J];西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年03期
相關(guān)會(huì)議論文 前10條
1 丁曙;;運(yùn)用模糊綜合評(píng)價(jià)法評(píng)價(jià)體育新課標(biāo)下學(xué)生學(xué)習(xí)的初探[A];浙江省體育科學(xué)學(xué)會(huì)學(xué)校體育專(zhuān)業(yè)委員會(huì)第十一屆論文報(bào)告會(huì)論文集[C];2008年
2 郝艷紅;王靈梅;;生態(tài)型火電廠評(píng)價(jià)指標(biāo)體系研究[A];第二屆全國(guó)循環(huán)經(jīng)濟(jì)與生態(tài)工業(yè)學(xué)術(shù)研討會(huì)暨中國(guó)生態(tài)經(jīng)濟(jì)學(xué)會(huì)工業(yè)生態(tài)經(jīng)濟(jì)與技術(shù)專(zhuān)業(yè)委員會(huì)2007年年會(huì)論文集[C];2007年
3 楊紅玲;吳建軍;;應(yīng)用模糊綜合法評(píng)析企業(yè)財(cái)務(wù)結(jié)構(gòu)狀況[A];中國(guó)會(huì)計(jì)學(xué)會(huì)高等工科院校分會(huì)2005年學(xué)術(shù)年會(huì)暨第十二屆年會(huì)論文集[C];2005年
4 劉電霆;周德儉;余強(qiáng);;虛擬企業(yè)中細(xì)粒度協(xié)同設(shè)計(jì)任務(wù)的不確定調(diào)度及GA求解[A];先進(jìn)制造技術(shù)高層論壇暨第六屆制造業(yè)自動(dòng)化與信息化技術(shù)研討會(huì)論文集[C];2007年
5 劉章軍;葉燎原;;巖體穩(wěn)定性評(píng)價(jià)的模糊概率方法[A];第一屆中國(guó)水利水電巖土力學(xué)與工程學(xué)術(shù)討論會(huì)論文集(上冊(cè))[C];2006年
6 成曙;姚良;張振仁;;基于小波包分解和模糊C均值聚類(lèi)的柴油機(jī)氣閥機(jī)構(gòu)故障診斷[A];設(shè)備監(jiān)測(cè)與診斷技術(shù)及其應(yīng)用——第十二屆全國(guó)設(shè)備監(jiān)測(cè)與診斷學(xué)術(shù)會(huì)議論文集[C];2005年
7 楊建寧;成立;;基于模糊模式識(shí)別的模塊選擇算法設(shè)計(jì)和應(yīng)用[A];2005亞洲國(guó)際過(guò)程自動(dòng)化技術(shù)與裝備展覽會(huì)論文集[C];2005年
8 孫烈英;;模糊控制過(guò)程中參數(shù)自調(diào)整的方法[A];1995中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1995年
9 戴禎平;;貴州省縣級(jí)供電企業(yè)綜合能力模糊評(píng)判應(yīng)用[A];貴州省軟科學(xué)研究論文選編(2001—2004)[C];2005年
10 宋杰鯤;張宇;張?jiān)谛?;基于模糊集和粗糙集理論的企業(yè)財(cái)務(wù)危機(jī)預(yù)警系統(tǒng)[A];第四屆中國(guó)不確定系統(tǒng)年會(huì)論文集[C];2006年
相關(guān)博士學(xué)位論文 前10條
1 祖巧紅;基于實(shí)例的OLAM技術(shù)及其多維可視化研究[D];武漢理工大學(xué);2007年
2 鄧鐵軍;結(jié)構(gòu)工程施工系統(tǒng)可靠性理論方法及其應(yīng)用的研究[D];湖南大學(xué);2007年
3 周豪;區(qū)域高新技術(shù)產(chǎn)業(yè)化系統(tǒng)的分析與評(píng)價(jià)[D];哈爾濱工程大學(xué);2007年
4 周豪;區(qū)域高新技術(shù)產(chǎn)業(yè)化系統(tǒng)的分析與評(píng)價(jià)[D];哈爾濱工程大學(xué);2007年
5 秦焱;吉林省黑土肥力質(zhì)量評(píng)價(jià)及結(jié)構(gòu)退化機(jī)理研究[D];吉林大學(xué);2007年
6 張雷;大規(guī)模定制模式下產(chǎn)品綠色設(shè)計(jì)方法研究[D];合肥工業(yè)大學(xué);2007年
7 高銘;抗菌滌/錦復(fù)合超細(xì)纖維的制備及性能研究[D];青島大學(xué);2007年
8 王剛;電力系統(tǒng)多控制中心之間分解協(xié)調(diào)暫態(tài)穩(wěn)定仿真計(jì)算的研究[D];清華大學(xué);2006年
9 王鋒;艦載多功能火箭炮系統(tǒng)分析與研究[D];南京理工大學(xué);2007年
10 謝杰;應(yīng)用模糊數(shù)學(xué)方法對(duì)絕經(jīng)后骨質(zhì)疏松癥的證型研究[D];廣州中醫(yī)藥大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 周群誼;客戶(hù)關(guān)系管理在貨運(yùn)代理行業(yè)的應(yīng)用與研究[D];上海交通大學(xué);2008年
2 張榮雨;基于安全監(jiān)測(cè)的海塘綜合評(píng)判隸屬度和權(quán)值的研究[D];上海交通大學(xué);2008年
3 黃柱中;基于多數(shù)據(jù)源信息融合的安全審計(jì)研究[D];西南交通大學(xué);2007年
4 李龍;鐵路客運(yùn)站服務(wù)設(shè)施及其水平的適應(yīng)性研究[D];西南交通大學(xué);2007年
5 袁輝;基于客戶(hù)價(jià)值分析的服務(wù)挖掘[D];武漢理工大學(xué);2007年
6 李錦紅;復(fù)雜產(chǎn)品協(xié)同開(kāi)發(fā)過(guò)程中的協(xié)作關(guān)系分析[D];武漢理工大學(xué);2007年
7 彭秋霞;粗糙集理論在區(qū)間數(shù)模糊綜合評(píng)判中的應(yīng)用研究[D];西南交通大學(xué);2007年
8 史磊;基于用戶(hù)興趣和模糊性的P2P信任機(jī)制研究[D];大連理工大學(xué);2008年
9 張松;電力產(chǎn)業(yè)監(jiān)管政策績(jī)效評(píng)估[D];東北財(cái)經(jīng)大學(xué);2007年
10 孫晶;南瓜復(fù)合果蔬汁制作工藝及其懸浮穩(wěn)定性研究[D];南京農(nóng)業(yè)大學(xué);2007年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 戴學(xué)東,呂勇哉;一種基于人工智能搜索的生產(chǎn)調(diào)度策略[J];信息與控制;1987年02期
2 袁宏永;粗差智能搜索控制網(wǎng)局部形虧問(wèn)題處理及優(yōu)化設(shè)計(jì)[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);1991年01期
3 強(qiáng)學(xué)軍;郭雷;;利用神經(jīng)網(wǎng)絡(luò)解決智能搜索問(wèn)題[J];西安電子科技大學(xué)學(xué)報(bào);1992年04期
4 陸偉民;基于面向?qū)ο蟮纳窠?jīng)網(wǎng)絡(luò)搜索模擬[J];計(jì)算機(jī)輔助工程;1995年01期
5 蔡曉東,王曉東,孟慶鑫;用于水下纜樁目標(biāo)搜索的演示實(shí)驗(yàn)系統(tǒng)[J];傳感器技術(shù);1997年04期
6 ;智能搜索——WebSleuth給Web查找加入了語(yǔ)言分析功能[J];每周電腦報(bào);1997年32期
7 李俊國(guó);網(wǎng)絡(luò)加油戰(zhàn)(六)[J];電腦;1998年10期
8 楊兆升,姜桂艷,,溫慧敏;流體神經(jīng)網(wǎng)絡(luò)在非規(guī)范條件下的應(yīng)用研究[J];系統(tǒng)工程理論與實(shí)踐;1999年08期
9 張祖勛;創(chuàng)新需要超前 創(chuàng)新需要投入 創(chuàng)新要敢于否定[J];測(cè)繪信息與工程;1999年04期
10 晏俊德,李雪蓮,胡慶倫;基于個(gè)人定制的智能搜索助手的研究[J];沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào);2000年01期
相關(guān)會(huì)議論文 前8條
1 李加祥;胡凌美;;對(duì)規(guī)避目標(biāo)搜索的智能決策分析模型[A];1999中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1999年
2 ;HOW TO REBUILD ANC PROGRAM ON THE BASIS OF DNC SYSTEM[A];第一屆國(guó)際機(jī)械工程學(xué)術(shù)會(huì)議論文集[C];2000年
3 李杜;王行愚;;基于Mobile Agent技術(shù)的第三方物流平臺(tái)研究[A];2003中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2003年
4 賀瑞芳;鐘紹春;程曉春;;教學(xué)資源的個(gè)性化搜索引擎研究[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
5 萬(wàn)英;蔣梁中;翟敬梅;;虛擬數(shù)據(jù)庫(kù)與WEB數(shù)據(jù)挖掘[A];首屆泛珠三角先進(jìn)制造技術(shù)論壇暨第八屆粵港機(jī)電工程技術(shù)與應(yīng)用研討會(huì)論文專(zhuān)輯[C];2004年
6 趙宇;張洪華;;衛(wèi)星軌道規(guī)劃的一種智能混合優(yōu)化算法[A];全國(guó)第十二屆空間及運(yùn)動(dòng)體控制技術(shù)學(xué)術(shù)會(huì)議論文集[C];2006年
7 楊娜;付強(qiáng);賀延國(guó);;蟻群算法在水土資源中的應(yīng)用研究進(jìn)展[A];農(nóng)業(yè)系統(tǒng)工程理論與實(shí)踐研究——全國(guó)農(nóng)業(yè)系統(tǒng)工程學(xué)術(shù)研討會(huì)論文集[C];2006年
8 王雪萍;楊青;黃祖鋒;;P2P網(wǎng)絡(luò)中基于蟻群算法的智能搜索研究[A];2006全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 韓雪;硅谷動(dòng)力推出新一代搜索引擎[N];解放日?qǐng)?bào);2000年
2 本報(bào)記者 蔣崢;智能搜索引擎:能否發(fā)動(dòng)新一輪上網(wǎng)熱[N];經(jīng)濟(jì)日?qǐng)?bào);2000年
3 ;從天馬行空到腳踏實(shí)地[N];人民日?qǐng)?bào)海外版;2000年
4 慧君;硅谷動(dòng)力正式推出新一代搜索引擎[N];上?萍紙(bào);2000年
5 ;東方般若推出基于互聯(lián)網(wǎng)的企業(yè)信息構(gòu)建平臺(tái)[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2001年
6 陸元婕;聰明的搜索引擎[N];中國(guó)計(jì)算機(jī)報(bào);2001年
7 王旭;中文智能搜索引擎[N];計(jì)算機(jī)世界;2001年
8 張紅;國(guó)際資本看好中國(guó)網(wǎng)絡(luò)實(shí)名制市場(chǎng)[N];國(guó)際商報(bào);2002年
9 劉 偉 ;微軟聯(lián)手3721直面“用戶(hù)體驗(yàn)”[N];經(jīng)濟(jì)參考報(bào);2002年
10 寧川;慧聰新一代搜索引擎挑戰(zhàn)Google[N];中國(guó)計(jì)算機(jī)報(bào);2003年
相關(guān)碩士學(xué)位論文 前10條
1 劉樹(shù)勛;Internet智能搜索Agent研究與實(shí)現(xiàn)[D];廣東工業(yè)大學(xué);2000年
2 商曉虎;智能搜索引擎技術(shù)在偵察工作中的實(shí)現(xiàn)[D];鄭州大學(xué);2001年
3 王家鋒;分布式智能搜索引擎技術(shù)[D];北京工業(yè)大學(xué);2003年
4 余媛芳;面向產(chǎn)品創(chuàng)新設(shè)計(jì)的知識(shí)獲取研究[D];西北工業(yè)大學(xué);2004年
5 凌海云;基于語(yǔ)義網(wǎng)的智能搜索技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2004年
6 韓婷;基于本體論的智能搜索引擎模型的研究[D];廣西大學(xué);2005年
7 王業(yè)昕;具有自然語(yǔ)言理解和信息挖掘能力的搜索引擎開(kāi)發(fā)[D];華東師范大學(xué);2006年
8 朱雪剛;基于語(yǔ)義網(wǎng)絡(luò)的教學(xué)資源搜索引擎研究[D];東北師范大學(xué);2006年
9 黃永欣;基于CIDOC CRM的語(yǔ)義查詢(xún)系統(tǒng)的研究與實(shí)現(xiàn)[D];首都師范大學(xué);2006年
10 孫明;面向技術(shù)貿(mào)易壁壘的智能搜索技術(shù)研究[D];北京工業(yè)大學(xué);2006年
本文編號(hào):1793731
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1793731.html