天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種高效的網(wǎng)頁聚類方法

發(fā)布時間:2019-07-25 11:54
【摘要】:當(dāng)前主流的搜索引擎主要是以與用戶查詢的相關(guān)度來順序返回搜索結(jié)果的,用戶往往需要花費(fèi)較長的時間從結(jié)果列表中進(jìn)行選擇。為了解決這個問題,針對搜索引擎返回的標(biāo)題和摘要信息,構(gòu)造有向圖表示,并在此基礎(chǔ)上實(shí)現(xiàn)了一種高效的網(wǎng)頁聚類原型系統(tǒng)(efficient web clustering system,EWCS)。該系統(tǒng)將搜索引擎返回的結(jié)果按照一定的標(biāo)準(zhǔn)分類呈現(xiàn)給用戶,用戶選擇感興趣的類別進(jìn)行瀏覽,從而較好地滿足了用戶對查詢速度和準(zhǔn)確度的需求。試驗(yàn)結(jié)果表明該算法具有一定的可行性和較高的準(zhǔn)確率。
【圖文】:

一種高效的網(wǎng)頁聚類方法


10 組關(guān)鍵字分別進(jìn)行查詢,對每個搜索結(jié)果截取前 700 條記錄。經(jīng)過統(tǒng)計(jì)試驗(yàn)分析,得到如下的平均聚類時間復(fù)雜度曲線如圖 2 所示。圖 2 清晰地顯示了該算法的時間復(fù)雜度特征,我們的聚類時間隨著記錄條數(shù)的增加呈線性遞增趨勢。3 原型系統(tǒng)和測試基于本文提出的數(shù)據(jù)模型和聚類算法,實(shí)現(xiàn)了原型系統(tǒng)EWCS (efficient web clustering system)。該系統(tǒng)在 WindowsXP 平臺上用 Java 語言實(shí)現(xiàn),JRE 版本為 5.0。目前系統(tǒng)是建立在百度搜索引擎的基礎(chǔ)上的元搜索引擎,它能夠快速有效地對搜索引擎返回的結(jié)果進(jìn)行聚類,并產(chǎn)生令人滿意的聚類結(jié)果。圖 3 展示了系統(tǒng)對查詢關(guān)鍵字“胡戈”的聚類結(jié)果,其中包括“饅頭血案”,“春運(yùn)帝國”,“侵權(quán)”,“惡搞”等聚類結(jié)果。4 結(jié)束語本文嘗試用新的網(wǎng)頁聚類方法,大大的提高了網(wǎng)頁聚類的速度

一種高效的網(wǎng)頁聚類方法


立在百度搜索引擎的基礎(chǔ)上的元搜索引擎,它能夠快速有效地對搜索引擎返回的結(jié)果進(jìn)行聚類,并產(chǎn)生令人滿意的聚類結(jié)果。圖 3 展示了系統(tǒng)對查詢關(guān)鍵字“胡戈”的聚類結(jié)果,其中包括“饅頭血案”,“春運(yùn)帝國”,“侵權(quán)”,“惡搞”等聚類結(jié)果。4 結(jié)束語本文嘗試用新的網(wǎng)頁聚類方法,大大的提高了網(wǎng)頁聚類的速度,并且聚類結(jié)果也比較令人滿意。本文的主要貢獻(xiàn)有:①提出了有向圖模型來表示文檔數(shù)據(jù),從而有效地識別高頻詞語和進(jìn)行聚類;②聚類算法避免了計(jì)算兩兩文檔之間的相似度,從而大大提高了聚類效率。實(shí)現(xiàn)的原型系統(tǒng)說明了本文數(shù)據(jù)模型和聚類算法可以有效地捕捉查詢主題的子主題,從而使用戶更容易地發(fā)現(xiàn)他們感興趣的信息,適用于對大量網(wǎng)頁進(jìn)行快速聚類。圖 2 聚類時間復(fù)雜度
【作者單位】: 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
【基金】:天津市科技發(fā)展計(jì)劃基金項(xiàng)目(04310941R)
【分類號】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 宋志平,李應(yīng)紅,屈裕安;大型有向圖的三叉鏈表式存儲結(jié)構(gòu)[J];計(jì)算機(jī)工程與應(yīng)用;2002年21期

2 李愛玲;;基于有向圖的工作流模型的設(shè)計(jì)與實(shí)現(xiàn)[J];電子商務(wù);2011年04期

3 杜林古;;有向圖上最大權(quán)圈裝箱問題的有效算法[J];青島大學(xué)學(xué)報(bào)(工程技術(shù)版);1990年01期

4 侯榮濤,李自芹;二維變量化設(shè)計(jì)中的有向圖理論[J];唐山高等專科學(xué)校學(xué)報(bào);1999年04期

5 趙萬生,王剛,姜洪臣,于達(dá)仁,遲關(guān)心;二維欠約束系統(tǒng)求解算法的研究[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2002年01期

6 左為平,劉云芳;有向圖中路徑矩陣的實(shí)現(xiàn)及其算法研究[J];洛陽師范學(xué)院學(xué)報(bào);2004年05期

7 陳耀東,王挺;基于有向圖的雙向匹配分詞算法及實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2005年06期

8 周明元,曹中華;一種字符孔洞數(shù)的求法[J];計(jì)算機(jī)與現(xiàn)代化;2005年09期

9 王芳;徐瑋;;數(shù)據(jù)結(jié)構(gòu)在交通網(wǎng)絡(luò)中的應(yīng)用[J];電腦與電信;2007年04期

10 曹雁鋒;張先偉;;一種強(qiáng)連通判定算法[J];計(jì)算機(jī)應(yīng)用與軟件;2007年04期

相關(guān)會議論文 前10條

1 周桂賢;謝慶生;;電子商務(wù)系統(tǒng)中網(wǎng)絡(luò)挖掘的研究和應(yīng)用(英文)[A];2007年全國第十一屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會議論文集[C];2007年

2 師文清;葉曉俊;;基于查詢?nèi)罩就诰虻木W(wǎng)頁聚類研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2005年

3 付宜利;謝龍;馬玉林;田立中;;有向圖理論在產(chǎn)品數(shù)字化裝配中的應(yīng)用研究[A];制造業(yè)與未來中國——2002年中國機(jī)械工程學(xué)會年會論文集[C];2002年

4 趙華;陳英武;;基于自然連通度的武器裝備體系生存能力評估方法[A];決策科學(xué)與評價——中國系統(tǒng)工程學(xué)會決策科學(xué)專業(yè)委員會第八屆學(xué)術(shù)年會論文集[C];2009年

5 徐九韻;楊放春;郭樂深;;活鎖類業(yè)務(wù)沖突的動態(tài)檢測方法[A];第六屆全國計(jì)算機(jī)應(yīng)用聯(lián)合學(xué)術(shù)會議論文集[C];2002年

6 王記紅;方清;王小丹;;基于組件思想的工作流調(diào)度設(shè)計(jì)[A];廣東省通信學(xué)會2006年度學(xué)術(shù)論文集[C];2007年

7 楊華;孫常龍;趙明明;葛運(yùn)東;姚建民;;基于網(wǎng)絡(luò)的英文縮略語全稱挖掘[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

8 郎君;秦兵;劉挺;李生;;中國人名性別自動識別[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年

9 蓋曉東;楊世彥;楊威;黃軍;;串聯(lián)儲能電源組快速均衡的系統(tǒng)結(jié)構(gòu)分析[A];中國儀器儀表學(xué)會第九屆青年學(xué)術(shù)會議論文集[C];2007年

10 陳仕兵;賈再一;;電力系統(tǒng)結(jié)線分析的圖論方法[A];2000中國控制與決策學(xué)術(shù)年會論文集[C];2000年

相關(guān)重要報(bào)紙文章 前10條

1 徐海斌;網(wǎng)絡(luò)信息搜索利器[N];中國電腦教育報(bào);2003年

2 商報(bào)記者 金朝力;未來搜索將無處不在[N];北京商報(bào);2011年

3 張有春;七匹狼將升級銷售網(wǎng)絡(luò)挖掘發(fā)展?jié)摿N];上海證券報(bào);2007年

4 陜西 黃錦松;畫個圈兒,,挖![N];電腦報(bào);2004年

5 權(quán)莉 陳浩;“馬克威”軟件填補(bǔ)我國自主產(chǎn)權(quán)空白[N];中國貿(mào)易報(bào);2006年

6 本報(bào)記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領(lǐng)中國信息化新浪潮[N];中國電子報(bào);2003年

7 本報(bào)記者 張承東;挖潛無極限[N];網(wǎng)絡(luò)世界;2006年

8 許琦敏;打造“中國牌數(shù)據(jù)鏟”[N];文匯報(bào);2006年

9 徐勇;IP語音通信實(shí)現(xiàn)真正融合[N];人民郵電;2003年

10 記者 吳苡婷;用技術(shù)挖出網(wǎng)絡(luò)信息中“金子”[N];上海科技報(bào);2009年

相關(guān)博士學(xué)位論文 前10條

1 許英;關(guān)于圖譜的若干研究[D];新疆大學(xué);2010年

2 孔治國;電動客車用超級電容器組動態(tài)均衡技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

3 張愛清;可擴(kuò)展數(shù)據(jù)驅(qū)動并行算法研究及應(yīng)用[D];中國工程物理研究院;2009年

4 王立中;虧群和塊的結(jié)構(gòu)[D];首都師范大學(xué);2001年

5 顏云志;有向無標(biāo)度圖與二項(xiàng)隨機(jī)圖圖因子[D];上海大學(xué);2007年

6 盧俊杰;幾何圖論中的若干問題[D];上海交通大學(xué);2009年

7 周佳立;雙目立體視覺及三維反求研究[D];浙江大學(xué);2009年

8 巢炎;基于公差約束的CAPP的關(guān)鍵技術(shù)研究[D];浙江大學(xué);2006年

9 吳剛;RDF圖數(shù)據(jù)管理的關(guān)鍵技術(shù)研究[D];清華大學(xué);2008年

10 林琛;WEB環(huán)境下的社會網(wǎng)絡(luò)挖掘研究[D];復(fù)旦大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 董學(xué)智;廣義Kautz有向圖GK(d,n)和折疊立方體FQ_n的反饋數(shù)[D];大連理工大學(xué);2010年

2 黎世偉;供電生產(chǎn)MIS的數(shù)據(jù)流程分析方法[D];華北電力大學(xué)(北京);2004年

3 金光浩;有向圖并行計(jì)算中的多目標(biāo)剖分算法[D];中國工程物理研究院;2005年

4 郭曉輝;基于Exchange Server的辦公自動化系統(tǒng)研究與開發(fā)[D];西安理工大學(xué);2005年

5 江淑敏;圖的擴(kuò)張因子和轉(zhuǎn)發(fā)指標(biāo)[D];暨南大學(xué);2005年

6 廖原原;基于圖因子分解的幾個問題[D];國防科學(xué)技術(shù)大學(xué);2005年

7 胡強(qiáng);基于約束有向圖建模的工作流管理系統(tǒng)構(gòu)建[D];山東大學(xué);2005年

8 孟巍;有向圖的點(diǎn)外弧泛圈性與一類梁振動系統(tǒng)的穩(wěn)定性[D];山西大學(xué);2004年

9 唐靜;二部競賽圖中圈的研究[D];中北大學(xué);2008年

10 彭波;非負(fù)循環(huán)矩陣的有向圖結(jié)構(gòu)[D];國防科學(xué)技術(shù)大學(xué);2007年



本文編號:2519068

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2519068.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶38be9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com