基于網(wǎng)絡(luò)知識庫與通用搜索引擎的查詢詞擴(kuò)展方法
【圖文】:
D含義見表1。表1答案對應(yīng)表是否檢索出正確答案數(shù)量非正確答案數(shù)量檢索出AB未檢索出CD評估指標(biāo)中,P@n代表了前n個(gè)實(shí)驗(yàn)結(jié)果的查準(zhǔn)率;R-prec代表了前R個(gè)正確實(shí)驗(yàn)結(jié)果的查準(zhǔn)率,即統(tǒng)計(jì)到第R個(gè)正確實(shí)驗(yàn)結(jié)果為止的所有結(jié)果的查準(zhǔn)率;MAP方法是P@n方法的優(yōu)化,先得到每個(gè)正確結(jié)果在實(shí)驗(yàn)返回結(jié)果中的P@i值,,其中i為該正確答案在所有結(jié)果列表中的位置,然后將所有P@i取平均得到MAP值;P-Rcurve方法包含了查準(zhǔn)率和查全率,其為查準(zhǔn)率與查全率的對應(yīng)曲線圖,即表示了當(dāng)查全率為0.0到1.0時(shí),對應(yīng)的查準(zhǔn)率值。3.3方法設(shè)計(jì)圖1描述了基于網(wǎng)絡(luò)知識庫與通用搜索引擎的查詢詞擴(kuò)展方法的流程。圖1基于網(wǎng)絡(luò)知識庫與通用搜索引擎的查詢詞擴(kuò)展方法流程該文提出的方法分為兩步實(shí)現(xiàn)(簡稱為SM)。第一階段(Step1),使用網(wǎng)絡(luò)知識庫維基百科對每個(gè)查詢詞q進(jìn)行搜索,得到查詢詞q在知識庫中的解釋,抓取全部文本內(nèi)容。其次對文本內(nèi)容進(jìn)行分詞去重。重復(fù)的詞并不能體現(xiàn)詞對查詢詞的影響,因?yàn)樵谥R庫的解釋中能切實(shí)表征其含義的特征增刊2毛琪等:基于網(wǎng)絡(luò)知識庫與通用搜索引擎的查詢詞擴(kuò)展方法7
詢詞擴(kuò)展方法與TM、LM的評估結(jié)果評估指標(biāo)P@5P@10R-precMAPSM公式(1)52263838.50SM公式(2)28263436.90SM公式(3)32243637.00SM公式(4)64324241.20TM42243035.40LM54303838.20此外,表4列舉了在通用搜索引擎中查詢“Apple”及它的各個(gè)待擴(kuò)展詞的返回?cái)?shù)量,并使用SM公式(1)~(4)計(jì)算“Apple”對各個(gè)擴(kuò)展詞的依賴關(guān)系值。如上信息從搜索引擎Google搜索中獲齲需要說明的是搜索結(jié)果的數(shù)量也是實(shí)時(shí)變化的,所以在實(shí)驗(yàn)時(shí),要盡快獲取所有實(shí)驗(yàn)結(jié)果。表5對比了SM公式(4),TM和LM針對Apple這個(gè)詞的前10個(gè)擴(kuò)展詞。圖2SM查詢詞擴(kuò)展方法P-Rcurve曲線圖表5SM公式(4),TM和LM針對Apple的前10個(gè)擴(kuò)展詞SM公式(4)TMLMIphoneVitaminIphoneActivityIphoneSteveJobsSteveJobsMacFruitAcidAndroidWisdomMacForbiddenRedAbilitySweetMacRedFruitVitaminActaWisdonPeaceFruitHealthAutumnAphidBananaBee3.6實(shí)驗(yàn)結(jié)果討論從表2的實(shí)驗(yàn)結(jié)果可以看出,SMStep1的查全率值明顯大于近義詞詞典法DM。因?yàn)樵~典只會用一兩句精簡的話解釋詞的含義,同時(shí)包含一些簡單的詞組和同近義詞。詞典法可以清晰發(fā)現(xiàn)兩個(gè)含義相同的詞,或者詞的一兩個(gè)特征,但作為查詢詞擴(kuò)展,詞匯量相對較少,因此其查全率比較低。從表中可以看出SteveJobs這個(gè)詞的查全率為0,實(shí)際上是因?yàn)樵~典沒有收錄SteveJobs,因此并沒有返回結(jié)果。而網(wǎng)絡(luò)知識庫方法(例如實(shí)驗(yàn)中采用的維基百科)中的信息都是人工編輯的,會對查詢詞的方方面面進(jìn)行描述,大部分和其相關(guān)的詞基本都會提及,因此其查全率很高,個(gè)別詞可以達(dá)到100%的查全率。8計(jì)算機(jī)應(yīng)用第32卷
【作者單位】: 清華大學(xué)電子工程系;
【基金】:國家863計(jì)劃項(xiàng)目(2012AA011004) 清華大學(xué)自主科研項(xiàng)目(20111081023)
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 唐利;藍(lán)強(qiáng);;對網(wǎng)絡(luò)搜索引擎的比較研究[J];重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2006年04期
2 韓建福;盧葦;;文檔聚類在Web搜索結(jié)果中的應(yīng)用研究[J];中國科技信息;2006年23期
3 付昕;;Google在信息檢索中的應(yīng)用[J];情報(bào)探索;2008年07期
4 曹蓓蓓;信息檢索技術(shù)的設(shè)計(jì)探討[J];河北建筑科技學(xué)院學(xué)報(bào);2005年03期
5 彭波,閆宏飛;搜索引擎檢索系統(tǒng)質(zhì)量評估[J];計(jì)算機(jī)研究與發(fā)展;2005年10期
6 鐘國韻;劉梅鋒;;基于ASP技術(shù)的網(wǎng)絡(luò)搜索引擎的開發(fā)[J];科技廣場;2006年01期
7 周錦程;王丹;;基于Lucene的全文搜索引擎研究與應(yīng)用[J];黔南民族師范學(xué)院學(xué)報(bào);2009年03期
8 秦曉梅;;探討搜索引擎在網(wǎng)絡(luò)信息挖掘中的應(yīng)用[J];科技資訊;2009年29期
9 王慧慧;;提高網(wǎng)絡(luò)信息檢索效率的幾種策略[J];科技資訊;2009年30期
10 岳俊英;;網(wǎng)絡(luò)信息挖掘中的搜索引擎技術(shù)探析[J];軟件導(dǎo)刊;2010年03期
相關(guān)會議論文 前10條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計(jì)算機(jī)學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
2 梁婷婷;張志強(qiáng);謝曉芹;;搜索引擎評估算法綜述[A];黑龍江省計(jì)算機(jī)學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年
3 李智超;余慧佳;馬少平;;使用支持向量機(jī)進(jìn)行作弊頁面識別[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
4 羅偉;李陶深;;一種基于本體的個(gè)性化搜索引擎模型[A];廣西計(jì)算機(jī)學(xué)會2006年年會論文集[C];2006年
5 孫斌;;使用內(nèi)存匯集的新聞搜索索引更新[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 秦鵬;李恒訓(xùn);張華平;劉金剛;;基于關(guān)鍵詞提取的搜索結(jié)果聚類研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
7 欒悉道;謝毓湘;文軍;吳玲達(dá);;基于知識庫的主動式專題搜索引擎[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年
8 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
9 李應(yīng)興;付婷;李勇;;基于LUCENE的藏文信息檢索的研究與應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
10 吳曉;李丹寧;林潔;冀肖榆;李丹;;個(gè)性化搜索引擎中用戶興趣模型的研究[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
相關(guān)重要報(bào)紙文章 前10條
1 趙敏;“魚群理論”破解搜索營銷謎局[N];中國企業(yè)報(bào);2007年
2 本報(bào)記者 馬文方;Yebol:從思維科學(xué)導(dǎo)出搜索引擎[N];中國計(jì)算機(jī)報(bào);2010年
3 劉文君;搜索引擎也在尋求創(chuàng)新[N];大眾科技報(bào);2007年
4 博文邋譯;你的隱私 搜索引擎知道[N];計(jì)算機(jī)世界;2007年
5 楊潔;搜索引擎營銷市場生變[N];中國計(jì)算機(jī)報(bào);2007年
6 ;法國挑戰(zhàn)谷歌推出衛(wèi)星地圖搜索引擎[N];人民日報(bào);2006年
7 MirrorCity.net技術(shù)總監(jiān) 姚浩;讓搜索引擎回歸最初夢想[N];中國文化報(bào);2008年
8 本報(bào)記者 樊哲高;搜索引擎三國紛爭 中文市場兩軍對壘[N];中國電子報(bào);2009年
9 本報(bào)記者 操秀英;國雙科技以技術(shù)加服務(wù)贏得市場[N];科技日報(bào);2009年
10 EndTo;優(yōu)化Meta討好搜索引擎[N];電腦報(bào);2009年
相關(guān)博士學(xué)位論文 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價(jià)研究[D];清華大學(xué);2010年
2 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
3 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
4 費(fèi)巍;搜索引擎檢索功能的性能評價(jià)研究[D];武漢大學(xué);2010年
5 吳定峰;基于本體的語義搜索模型研究[D];中國農(nóng)業(yè)科學(xué)院;2012年
6 翟海軍;面向Web信息檢索的知識挖掘[D];中國科學(xué)技術(shù)大學(xué);2010年
7 徐敏;基于數(shù)據(jù)挖掘的Web信息檢索研究[D];南京航空航天大學(xué);2006年
8 易高翔;粗糙集在Web挖掘中的應(yīng)用研究[D];華中科技大學(xué);2006年
9 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年
10 陸銘;WEB2.0網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)與個(gè)性化檢索研究[D];中國科學(xué)技術(shù)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 史錦榮;基于多Agent智能搜索引擎模型研究[D];太原理工大學(xué);2005年
2 楊宇;搜索詞的意圖分析與應(yīng)用[D];北京郵電大學(xué);2010年
3 王啟戶;面向遠(yuǎn)程教育的搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2008年
4 王曉華;基于內(nèi)容的搜索引擎技術(shù)研究及其應(yīng)用[D];鄭州大學(xué);2005年
5 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2006年
6 劉佳;中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];東華大學(xué);2008年
7 高凌;搜索算法與搜索引擎的研究與應(yīng)用[D];武漢理工大學(xué);2007年
8 孔祥鳳;企業(yè)網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];遼寧科技大學(xué);2007年
9 郭晨娟;基于Web的網(wǎng)絡(luò)搜索技術(shù)研究[D];西北工業(yè)大學(xué);2007年
10 陳金森;XML搜索引擎中索引技術(shù)的研究[D];燕山大學(xué);2006年
本文編號:2545175
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2545175.html