結(jié)構(gòu)化向量空間模型及其在Web信息檢索中的應(yīng)用
本文選題:向量空間模型 + 信息檢索; 參考:《北京工業(yè)大學(xué)學(xué)報(bào)》2008年04期
【摘要】:針對(duì)Web信息檢索的特點(diǎn),通過分析傳統(tǒng)向量空間模型在Web檢索中存在的若干問題,對(duì)傳統(tǒng)向量空間模型進(jìn)行改進(jìn),并提出結(jié)構(gòu)化向量空間模型,其基本思想是將Web文檔表達(dá)為具有一定邏輯結(jié)構(gòu)的向量,即結(jié)構(gòu)化向量組.每個(gè)結(jié)構(gòu)化向量組由若干子向量構(gòu)成,每個(gè)子向量對(duì)應(yīng)Web文檔中相對(duì)應(yīng)獨(dú)立的文本段.理論分析和實(shí)驗(yàn)證明,該方法能提高向量空間模型在信息檢索精度和召回率方面的性能.
[Abstract]:According to the characteristics of Web information retrieval, by analyzing some problems existing in the traditional vector space model in Web retrieval, the traditional vector space model is improved, and the structured vector space model is proposed.The basic idea is to express the Web document as a vector with certain logical structure, that is, structured vector group.Each structured vector group consists of several subvectors, each corresponding to an independent text segment in an Web document.Theoretical analysis and experiments show that this method can improve the performance of vector space model in information retrieval accuracy and recall rate.
【作者單位】: 北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院
【基金】:國(guó)家自然科學(xué)基金(60775010) 北京市屬市管高等學(xué)校“中青年骨干教師培養(yǎng)計(jì)劃”資助項(xiàng)目(05007011200607)
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計(jì)算機(jī)研究與發(fā)展;2002年10期
2 鄒濤;王繼成;楊文清;張福炎;;文本信息檢索技術(shù)[J];計(jì)算機(jī)科學(xué);1999年09期
3 呂鐵強(qiáng),于滿泉,孟慶發(fā),周立德;基于網(wǎng)頁分塊的個(gè)性化信息采集的研究與設(shè)計(jì)[J];微電子學(xué)與計(jì)算機(jī);2005年10期
4 陶躍華;基于向量的相似度計(jì)算方案[J];云南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期
2 鄭康鋒;郭世澤;楊義先;王秀娟;;基于樹與網(wǎng)結(jié)合的可控蠕蟲網(wǎng)絡(luò)結(jié)構(gòu)模型[J];兵工學(xué)報(bào);2008年10期
3 李文斌;劉椿年;陳嶷瑛;;基于特征信息增益權(quán)重的文本分類算法[J];北京工業(yè)大學(xué)學(xué)報(bào);2006年05期
4 敖成龍,蘇英,龔元明;基于相似度的復(fù)雜數(shù)據(jù)對(duì)象比較[J];北京理工大學(xué)學(xué)報(bào);2003年05期
5 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動(dòng)選取[J];北京理工大學(xué)學(xué)報(bào);2005年04期
6 焦黎冰;封化民;何文才;李雪龍;;一種改進(jìn)的基于Web的新聞視頻內(nèi)容語義分析方法[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
7 吳銳;丁樹良;甘登文;;一種新的項(xiàng)目反應(yīng)理論等值準(zhǔn)則——余弦準(zhǔn)則[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
8 王紀(jì)輝;趙卓寧;;基于協(xié)同過濾算法的電子商務(wù)網(wǎng)站個(gè)性化推薦系統(tǒng)設(shè)計(jì)[J];成都信息工程學(xué)院學(xué)報(bào);2007年S1期
9 彭喜化;黃睿;;基于向量空間模型的多關(guān)鍵字檢索技術(shù)[J];重慶職業(yè)技術(shù)學(xué)院學(xué)報(bào);2006年03期
10 趙洋;滕桂法;張玉新;何冬梅;;基于Internet的農(nóng)業(yè)信息垂直搜索引擎的設(shè)計(jì)[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2009年06期
相關(guān)會(huì)議論文 前10條
1 李明宙;羅艷;王宗義;;Lucene全文檢索引擎的研究及應(yīng)用[A];廣西計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年
2 王凱;劉代志;李東旭;齊瑋;;地球物理環(huán)境情報(bào)搜集系統(tǒng)研究[A];國(guó)家安全地球物理叢書(四)——地球物理環(huán)境探測(cè)和目標(biāo)信息獲取與處理[C];2008年
3 顧寄南;陳曉燕;;檢索系統(tǒng)專業(yè)化和智能化的研究與實(shí)現(xiàn)[A];走中國(guó)特色農(nóng)業(yè)機(jī)械化道路——中國(guó)農(nóng)業(yè)機(jī)械學(xué)會(huì)2008年學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2008年
4 姜麗華;張宏斌;;基于Multi-Agent的個(gè)性化Web信息采集系統(tǒng)[A];中國(guó)農(nóng)業(yè)信息科技創(chuàng)新與學(xué)科發(fā)展大會(huì)論文匯編[C];2007年
5 丁山山;陳世平;;智能Agent技術(shù)在個(gè)性化WEB信息代理中的應(yīng)用研究[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年
6 徐小琴;章成志;;Web信息檢索中相關(guān)詞提示技術(shù)與評(píng)測(cè)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
7 陳志瑋;肖詩斌;施水才;王昕;;一種基于HTML位置信息的查詢擴(kuò)展技術(shù)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
8 張愛華;靖紅芳;王斌;徐燕;;文本分類中特征權(quán)重因子的作用研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
9 徐志明;叢帥;王宇穎;雷萌;;基于仿生模式識(shí)別文本分類算法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
10 王珍;維尼拉·木沙江;趙麗紅;;維、哈、柯文搜索引擎中自動(dòng)分類技術(shù)的應(yīng)用研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
相關(guān)博士學(xué)位論文 前10條
1 眭新光;文本信息隱藏及分析技術(shù)研究[D];解放軍信息工程大學(xué);2007年
2 劉朝濤;中文問答系統(tǒng)中的句型理論及其應(yīng)用研究[D];重慶大學(xué);2010年
3 邸書靈;Agent聯(lián)盟和流形學(xué)習(xí)在中文問答系統(tǒng)中的應(yīng)用研究[D];天津大學(xué);2009年
4 黃定軒;企業(yè)核心能力智能挖掘應(yīng)用基礎(chǔ)研究[D];西南交通大學(xué);2005年
5 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
6 王秀娟;文本檢索中若干問題研究[D];北京郵電大學(xué);2006年
7 肖聚亮;建筑物遷移動(dòng)力系統(tǒng)智能監(jiān)控研究與應(yīng)用[D];天津大學(xué);2006年
8 劉偉;圖像檢索中若干問題的研究[D];浙江大學(xué);2007年
9 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
10 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 范丹;Web檢索中的查詢擴(kuò)展及結(jié)果聚類技術(shù)研究[D];遼寧師范大學(xué);2010年
2 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
3 張珍軍;基于內(nèi)容的圖像檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 劉輝;基于KNN算法的中文Web文本分類技術(shù)研究[D];遼寧工程技術(shù)大學(xué);2010年
5 劉偉麗;基于粒子群算法和支持向量機(jī)的中文文本分類研究[D];河南工業(yè)大學(xué);2010年
6 吳世漢;面向查詢的XML文本摘要技術(shù)[D];江西財(cái)經(jīng)大學(xué);2010年
7 李健;基于內(nèi)容的新聞視頻檢索關(guān)鍵技術(shù)研究[D];哈爾濱理工大學(xué);2010年
8 王阿婷;基于概念集合的網(wǎng)頁內(nèi)容過濾方法的研究[D];北京交通大學(xué);2010年
9 呂靖;互聯(lián)網(wǎng)搜索詞分類關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
10 史煒;個(gè)性化搜索引擎的研究與設(shè)計(jì)[D];電子科技大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李凡,魯明羽,陸玉昌;關(guān)于文本特征抽取新方法的研究[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年07期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李衛(wèi)東;陸玲;;融合VSM技術(shù)的PageRank算法研究與應(yīng)用[J];計(jì)算機(jī)與現(xiàn)代化;2011年07期
2 陶惠;張妍;郝光權(quán);;基于向量空間的文檔聚類算法分析[J];電腦知識(shí)與技術(shù);2011年20期
3 張永興;孫四明;張峰;;基于本體的信息檢索系統(tǒng)研究[J];微計(jì)算機(jī)信息;2011年07期
4 吳夢(mèng)蘭;;WEB內(nèi)容推薦算法在遠(yuǎn)程教育中的應(yīng)用[J];電腦知識(shí)與技術(shù);2011年26期
5 朱培焱;夏棟梁;;漢英跨語言信息檢索研究[J];計(jì)算機(jī)與現(xiàn)代化;2011年08期
6 劉勘;劉萍;;基于VSM的專家領(lǐng)域分析及可視化研究[J];圖書情報(bào)工作;2011年10期
7 邢美鳳;過仕明;;文本內(nèi)容新穎性探測(cè)研究綜述[J];情報(bào)科學(xué);2011年07期
8 王萌;徐超;李春貴;何婷婷;;一種概念同現(xiàn)模型的多文檔文摘研究[J];計(jì)算機(jī)工程與科學(xué);2011年07期
9 李黎;阮留照;;一種合理的數(shù)字水印相似度評(píng)價(jià)公式[J];杭州電子科技大學(xué)學(xué)報(bào);2011年03期
10 劉s,
本文編號(hào):1771537
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1771537.html