天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種基于超鏈接結(jié)構(gòu)的向量空間模型改進算法

發(fā)布時間:2019-05-06 09:23
【摘要】:在基于向量空間模型的信息檢索系統(tǒng)中,TF-IDF算法被廣泛的應(yīng)用在基于關(guān)鍵字的信息檢索中。然而,對于網(wǎng)頁獨特的超鏈接結(jié)構(gòu),需要有一種技術(shù)在表示網(wǎng)頁內(nèi)容的同時將與它相鄰鏈接的網(wǎng)頁內(nèi)容考慮進去。本文分析了向量空間模型的實質(zhì),并找出了其精度低的原因,在傳統(tǒng)模型基礎(chǔ)上提出了一種基于網(wǎng)頁超鏈接結(jié)構(gòu)的向量空間模型改進算法。實驗分析表明改進后的算法與原算法相比檢索精確度提高了10%,在一定程度上改善了檢索效果。
[Abstract]:In the information retrieval system based on vector space model, TF-IDF algorithm is widely used in keyword-based information retrieval. However, for the unique hyperlink structure of a web page, it is necessary to have a technique to represent the content of the web page and take into account the web page content linked with it at the same time. In this paper, the essence of vector space model is analyzed, and the reason for its low precision is found. Based on the traditional model, an improved algorithm of vector space model based on hyperlink structure is proposed. Experimental analysis shows that the improved algorithm improves the retrieval accuracy by 10% compared with the original algorithm, and improves the retrieval effect to a certain extent.
【作者單位】: 燕山大學(xué)信息科學(xué)與工程學(xué)院 燕山大學(xué)信息科學(xué)與工程學(xué)院
【分類號】:TP301.6

【參考文獻】

相關(guān)期刊論文 前3條

1 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計算機研究與發(fā)展;2002年10期

2 李凱,赫楓齡,左萬利;PageRank-Pro——一種改進的網(wǎng)頁排序算法[J];吉林大學(xué)學(xué)報(理學(xué)版);2003年02期

3 楊小平,丁浩,黃都培;基于向量空間模型的中文信息檢索技術(shù)研究[J];計算機工程與應(yīng)用;2003年15期

【共引文獻】

相關(guān)期刊論文 前10條

1 李文斌;劉椿年;陳嶷瑛;;基于特征信息增益權(quán)重的文本分類算法[J];北京工業(yè)大學(xué)學(xué)報;2006年05期

2 李玉擰;操衛(wèi)平;周蘭珍;;結(jié)構(gòu)化向量空間模型及其在Web信息檢索中的應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報;2008年04期

3 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動選取[J];北京理工大學(xué)學(xué)報;2005年04期

4 屈峗;楊捧;張文靜;;基于信息粒度的主題相似性信息檢索[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2011年01期

5 吳江寧;王曉歡;;面向呼叫中心的知識導(dǎo)航系統(tǒng)研究[J];大連理工大學(xué)學(xué)報;2009年06期

6 白鳳鳳;;基于不平衡數(shù)據(jù)集的文本分類技術(shù)研究[J];電腦編程技巧與維護;2010年06期

7 閻亞杰;;網(wǎng)頁去重方法研究[J];電腦開發(fā)與應(yīng)用;2008年08期

8 陳麗珍;卡米力·毛依丁;;基于WEB信息檢索系統(tǒng)中維文處理方面的研究[J];電腦知識與技術(shù);2005年36期

9 張紅;;基于語義的中文搜索引擎研究[J];電腦知識與技術(shù);2009年08期

10 肖錚;莊建;莊重;;基于鏈接結(jié)構(gòu)的PageRank排序算法研究[J];電腦知識與技術(shù);2009年20期

相關(guān)會議論文 前9條

1 馬春雷;;基于向量空間模型的中文文本檢索研究[A];2007年河北省電子學(xué)會、河北省計算機學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年

2 胡金柱;陳俊平;盧麗君;趙東萌;張琮;王益維;;基于本體視圖的特征項抽取方法研究[A];第二十二屆中國(天津)'2008IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會議論文集[C];2008年

3 胡金柱;陳俊平;盧麗君;趙東萌;張琮;王益維;;基于本體視圖的特征項抽取方法研究[A];第二十三屆中國(天津)2009IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會議論文集[C];2009年

4 劉國剛;;人工智能客戶服務(wù)體系的研究與實現(xiàn)[A];2008年中國通信學(xué)會無線及移動通信委員會學(xué)術(shù)年會論文集[C];2008年

5 彭淵;趙鐵軍;鄭德權(quán);于浩;;基于特征句抽取的網(wǎng)頁去重研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

6 張愛華;靖紅芳;王斌;徐燕;;文本分類中特征權(quán)重因子的作用研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

7 王珍;維尼拉·木沙江;趙麗紅;;維、哈、柯文搜索引擎中自動分類技術(shù)的應(yīng)用研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

8 趙燕平;李超;;網(wǎng)絡(luò)安全信息挖掘中的特征選擇與專利分析研究[A];2004年中國管理科學(xué)學(xué)術(shù)會議論文集[C];2004年

9 王慧芳;張勇;邢春曉;張文珂;楊吉江;;文本摘要算法集成與實現(xiàn)[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年

相關(guān)博士學(xué)位論文 前10條

1 魏建香;學(xué)科交叉知識發(fā)現(xiàn)及其可視化研究[D];南京大學(xué);2010年

2 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年

3 楊抒;基于WEB的林產(chǎn)品信息資源整合方法研究[D];北京林業(yè)大學(xué);2011年

4 黃定軒;企業(yè)核心能力智能挖掘應(yīng)用基礎(chǔ)研究[D];西南交通大學(xué);2005年

5 張友華;面向智能服務(wù)的Web內(nèi)容計算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年

6 王秀娟;文本檢索中若干問題研究[D];北京郵電大學(xué);2006年

7 周斌;面向公眾服務(wù)的電子政務(wù)研究[D];同濟大學(xué);2007年

8 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年

9 席運江;組織知識的網(wǎng)絡(luò)表示模型及分析方法[D];大連理工大學(xué);2007年

10 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 劉偉麗;基于粒子群算法和支持向量機的中文文本分類研究[D];河南工業(yè)大學(xué);2010年

2 蔡頌梅;語義增強的關(guān)系相似度度量算法研究[D];華東師范大學(xué);2011年

3 王雅菲;文本分類中特征降維方法的研究[D];長春工業(yè)大學(xué);2010年

4 王阿婷;基于概念集合的網(wǎng)頁內(nèi)容過濾方法的研究[D];北京交通大學(xué);2010年

5 吳惠雄;基于支持向量機與聚類算法的中文文本分類研究[D];中南林業(yè)科技大學(xué);2009年

6 李慧;基于貝葉斯分類方法的中文問句分類研究[D];石家莊鐵道學(xué)院;2010年

7 賈俊凱;公安業(yè)務(wù)文本信息挖掘的研究與實現(xiàn)[D];東華大學(xué);2011年

8 鞏軍全;文本分類算法的研究與改進[D];西安電子科技大學(xué);2010年

9 黃少冰;基于J2ME的移動網(wǎng)絡(luò)個性化信息推薦研究[D];西安電子科技大學(xué);2011年

10 楊玉珍;基于統(tǒng)計與規(guī)則的特征權(quán)重計算方法研究與應(yīng)用[D];山東師范大學(xué);2011年

【二級參考文獻】

相關(guān)期刊論文 前1條

1 李凡,魯明羽,陸玉昌;關(guān)于文本特征抽取新方法的研究[J];清華大學(xué)學(xué)報(自然科學(xué)版);2001年07期

【相似文獻】

相關(guān)期刊論文 前10條

1 岑榮偉;劉奕群;張敏;茹立云;馬少平;;基于日志挖掘的搜索引擎用戶行為分析[J];中文信息學(xué)報;2010年03期

2 張宇;范基禮;鄭偉;鄒博偉;劉挺;;基于人工標(biāo)注的個性化檢索系統(tǒng)評測的研究[J];中文信息學(xué)報;2009年02期

3 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報;2007年01期

4 蘇沖;陳清才;王曉龍;孟憲軍;;基于最大頻繁項集的搜索引擎查詢結(jié)果聚類算法[J];中文信息學(xué)報;2010年02期

5 劉玲;;搜索引擎系統(tǒng)的研究與實現(xiàn)[J];科學(xué)之友(B版);2007年02期

6 滕偉,王永成;智能代理技術(shù)在搜索引擎中的應(yīng)用[J];高技術(shù)通訊;2001年10期

7 任洪平;;可視化信息檢索研究[J];魅力中國;2008年26期

8 許嘉璐;朱小健;;中文信息處理研究工作的新進展[J];云南師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2010年04期

9 吉亮;;個性化搜索引擎的技術(shù)發(fā)展與應(yīng)用[J];機械管理開發(fā);2010年05期

10 魏福官;鄭孝安;;一種基于知識的書面漢語自動分詞方法[J];現(xiàn)代電力;1993年04期

相關(guān)會議論文 前10條

1 李斌;盧俊之;章成志;陳小荷;;基于聚類引擎的話題褒貶度計算[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

2 張乃岳;張學(xué)燕;;基于個體詞語相似度的定制化動態(tài)信息檢索[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

3 宋蘭;孫茂松;;中文文本全文查重的實驗研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

4 劉匯丹;芮建武;吳健;;藏文網(wǎng)頁的編碼識別與轉(zhuǎn)換[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

5 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

6 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

7 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

8 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

9 李賀華;付鶴崗;;多Agent Web信息檢索應(yīng)用研究[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年

10 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學(xué)會2008年年會論文集[C];2008年

相關(guān)重要報紙文章 前10條

1 EndTo;優(yōu)化Meta討好搜索引擎[N];電腦報;2009年

2 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年

3 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,還是門戶[N];中國計算機報;2005年

4 陳珊;浙江移動推出手機搜索引擎服務(wù)[N];人民郵電;2005年

5 趙法忠;搜索引擎還需悠著點[N];中國經(jīng)營報;2005年

6 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年

7 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年

8 本報記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報;2006年

9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財經(jīng)日報;2006年

10 姜蕊;問天下誰識搜索?[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2006年

相關(guān)博士學(xué)位論文 前10條

1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年

2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

5 朱明杰;互聯(lián)網(wǎng)搜索系統(tǒng)中的高性能查詢問題研究[D];中國科學(xué)技術(shù)大學(xué);2009年

6 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年

7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

8 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年

9 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

10 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

相關(guān)碩士學(xué)位論文 前10條

1 司衛(wèi)國;基于移動Agent的Web信息檢索系統(tǒng)的研究[D];西安電子科技大學(xué);2005年

2 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設(shè)計與實現(xiàn)[D];吉林大學(xué);2006年

3 王倩;基于概念格的個性化搜索引擎查詢擴展研究[D];北京郵電大學(xué);2008年

4 陳瑤;基于移動Agent的Web信息檢索系統(tǒng)的研究[D];武漢理工大學(xué);2007年

5 孔祥鳳;企業(yè)網(wǎng)搜索引擎的設(shè)計與實現(xiàn)[D];遼寧科技大學(xué);2007年

6 韓亮;基于本體的消防信息檢索系統(tǒng)的研究[D];大連海事大學(xué);2008年

7 楊獻峰;搜索引擎?zhèn)性化檢索技術(shù)的研究[D];中國石油大學(xué);2007年

8 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年

9 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年

10 黃大鵬;基于語義Web的搜索引擎研究[D];西安理工大學(xué);2004年

,

本文編號:2470068

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2470068.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6620e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com