天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

用于搜索的網(wǎng)頁(yè)可視化摘要技術(shù)研究

發(fā)布時(shí)間:2019-11-15 01:40
【摘要】:互聯(lián)網(wǎng)的發(fā)展使得搜索引擎成為了用戶(hù)尋找信息的最主要手段,而準(zhǔn)確和迅速是用戶(hù)對(duì)搜索引擎的最主要需求。然而目前搜索引擎的準(zhǔn)確度還無(wú)法完全滿(mǎn)足用戶(hù)的需求,所以如何能讓用戶(hù)在現(xiàn)有的還不夠準(zhǔn)確的搜索技術(shù)下也能夠迅速找到想要的信息成為了一個(gè)非常迫切的需求。 網(wǎng)頁(yè)中含有很多可視化的多媒體信息,比如圖像、動(dòng)畫(huà)、視頻等等。俗話說(shuō)“一幅圖抵得上千言萬(wàn)語(yǔ)”,搜索引擎在展現(xiàn)搜索結(jié)果的時(shí)候加上這些多媒體信息,能夠讓用戶(hù)在很短的時(shí)間內(nèi)得到更多的信息量,以便于用戶(hù)迅速找到想要的信息。這些有可能幫助用戶(hù)搜索的可視化多媒體信息被稱(chēng)為網(wǎng)頁(yè)的可視化摘要。由于圖像是動(dòng)畫(huà)和視頻的基本組成部分,所以本文對(duì)圖像作為可視化摘要的關(guān)鍵問(wèn)題進(jìn)行了深入的研究。 網(wǎng)頁(yè)自身含有的圖像是可視化摘要的一個(gè)可靠來(lái)源,我們稱(chēng)之為網(wǎng)頁(yè)內(nèi)部圖像。對(duì)于這類(lèi)圖像,我們提出重要性模型對(duì)其表征網(wǎng)頁(yè)的能力進(jìn)行衡量:越重要的圖像,越適合作為可視化摘要。然而,也有很多網(wǎng)頁(yè)不存在重要的內(nèi)部圖像,所以我們提出從互聯(lián)網(wǎng)中獲取與目標(biāo)網(wǎng)頁(yè)相關(guān)的圖像,我們稱(chēng)之為網(wǎng)頁(yè)外部圖像。對(duì)于這類(lèi)圖像,我們提出算法對(duì)其與目標(biāo)網(wǎng)頁(yè)的相關(guān)性進(jìn)行衡量:越相關(guān)的圖像,越適合作為可視化摘要。另外,我們將這兩種基于自然圖像的可視化摘要與縮略圖等合成圖像進(jìn)行了比較,并以分析結(jié)果為出發(fā)點(diǎn),提出了最優(yōu)可視化摘要的選擇算法。本文的主要研究結(jié)果有如下幾點(diǎn): 1.提出了網(wǎng)頁(yè)內(nèi)部圖像的重要性衡量模型。由于在網(wǎng)頁(yè)中存在大量的廣告圖像,裝飾圖像等,所以我們提出基于圖像特征提取和機(jī)器學(xué)習(xí)的算法來(lái)衡量圖像重要性。該算法從四個(gè)層次提取圖像特征,并利用基于提升樹(shù)的LamdaMART算法對(duì)圖像的重要性建立模型。 2.提出了網(wǎng)頁(yè)外部圖像的獲取和相關(guān)性衡量算法。我們提出了基于關(guān)鍵詞提取和圖像搜索的外部相關(guān)圖像的獲取方法,并基于圖像的文字信息與視覺(jué)信息衡量其與目標(biāo)網(wǎng)頁(yè)的相關(guān)性。外部圖像獲取系統(tǒng)能夠?yàn)榻话氲臒o(wú)重要內(nèi)部圖像的網(wǎng)頁(yè)找到相關(guān)的外部圖像,且相關(guān)性衡量算法能夠達(dá)到很高的精度。 3.對(duì)網(wǎng)頁(yè)內(nèi)部圖像,網(wǎng)頁(yè)外部圖像以及縮略圖,Visual Snippet進(jìn)行了深入的比較。我們利用人工標(biāo)注的數(shù)據(jù)比較可視化摘要在不同網(wǎng)頁(yè)中的效果,比如,重要性得分很高的內(nèi)部圖像是有內(nèi)部圖像的網(wǎng)頁(yè)的可靠可視化摘要,而縮略圖適合作為滿(mǎn)足“可視區(qū)域較小”,或“在截屏區(qū)域內(nèi)有重要圖像”,或“截屏區(qū)域內(nèi)有常見(jiàn)網(wǎng)站的logo"等特點(diǎn)的網(wǎng)頁(yè)的可視化摘要。另外,我們還通過(guò)用戶(hù)研究分析可視化摘要在理解網(wǎng)頁(yè)和重新尋找網(wǎng)頁(yè)這兩個(gè)應(yīng)用中的實(shí)用性。 4.提出了從網(wǎng)頁(yè)內(nèi)部圖像和網(wǎng)頁(yè)外部圖像中選擇最優(yōu)可視化摘要的統(tǒng)一算法。由于網(wǎng)頁(yè)內(nèi)部圖像和網(wǎng)頁(yè)外部圖像各有其優(yōu)缺點(diǎn),所以我們提出了基于聚類(lèi)的最優(yōu)可視化摘要選擇算法。好的可視化摘要需要滿(mǎn)足相關(guān)性、重要性和典型性這三個(gè)特性,所以該算法利用之前提出的相關(guān)性和重要性模型衡量可視化摘要的前兩個(gè)特性,而利用聚類(lèi)去體現(xiàn)典型性。我們將相關(guān)性和重要性作為聚類(lèi)的先驗(yàn)知識(shí),采用近鄰傳播聚類(lèi)算法將三者有機(jī)地結(jié)合起來(lái)。在聚類(lèi)完成之后,最好的聚類(lèi)中心被選為最優(yōu)可視化摘要。算法在客觀和主觀評(píng)價(jià)上都顯示了很好的性能?陀^評(píng)價(jià)中,算法的NDCG@1能夠達(dá)到0.6左右。主觀評(píng)價(jià)中,算法選出的圖像被多數(shù)用戶(hù)認(rèn)同可以用以表征目標(biāo)網(wǎng)頁(yè)。
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP391.41

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 吳鵬飛;馬鳳娟;;基于Boost.Regex的網(wǎng)頁(yè)信息抽取[J];電腦編程技巧與維護(hù);2009年15期

2 徐明;;輕松破解網(wǎng)頁(yè)右鍵屏蔽六招[J];電腦校園;2002年12期

3 杜翠茹;;淺析網(wǎng)頁(yè)布局方法在教學(xué)中的優(yōu)化[J];大眾科技;2010年05期

4 孟濤,閆宏飛,王繼民;Web網(wǎng)頁(yè)信息變化的時(shí)間局部性規(guī)律及其驗(yàn)證[J];情報(bào)學(xué)報(bào);2005年04期

5 ;和朋友看同一個(gè)網(wǎng)頁(yè)的幸福生活[J];計(jì)算機(jī)與網(wǎng)絡(luò);2005年18期

6 張曉彥;張曉明;;一種基于表格屬性的網(wǎng)頁(yè)信息隱藏算法[J];北京石油化工學(xué)院學(xué)報(bào);2009年01期

7 郭利偉;王家兵;;Web信息自動(dòng)標(biāo)引方法比較[J];內(nèi)蒙古科技與經(jīng)濟(jì);2009年07期

8 胡少榮;孟嗣儀;劉云;張彥超;丁飛;;網(wǎng)頁(yè)信息自動(dòng)抽取技術(shù)的研究[J];鐵路計(jì)算機(jī)應(yīng)用;2010年09期

9 張莉,曾致遠(yuǎn);Windows下網(wǎng)頁(yè)信息實(shí)時(shí)監(jiān)聽(tīng)程序的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2005年03期

10 于滿(mǎn)泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期

相關(guān)會(huì)議論文 前10條

1 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

2 王曉峰;劉惟一;;從用戶(hù)需求到網(wǎng)頁(yè)集團(tuán)的模糊變換[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

3 吳倩;楊逍;張兆心;;基于視覺(jué)特征的網(wǎng)頁(yè)信息提取[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

4 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

5 張貫虹;烏達(dá)巴拉;鞏政;;基于向量空間模型的網(wǎng)頁(yè)文本句子對(duì)齊方法研究[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年

6 趙玉芳;張一鳴;;基于網(wǎng)頁(yè)信息的印象形成的初步研究[A];第十屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2005年

7 張陽(yáng);李戰(zhàn)懷;近藤?gòu)V幸;;WEB PAGE的自動(dòng)分類(lèi)[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年

8 甘衛(wèi)東;郭宏騫;曾令奇;;泌尿外科病人使用因特網(wǎng)情況及相關(guān)專(zhuān)業(yè)網(wǎng)頁(yè)質(zhì)量調(diào)查[A];第十五屆全國(guó)泌尿外科學(xué)術(shù)會(huì)議論文集[C];2008年

9 何平;李錦;;基于Web挖掘技術(shù)的用戶(hù)模糊偏好分析[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

10 黃華軍;王保衛(wèi);孫星明;;基于CSS類(lèi)選擇符重復(fù)引入的網(wǎng)頁(yè)信息隱藏算法[A];第八屆全國(guó)信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年

相關(guān)重要報(bào)紙文章 前10條

1 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年

2 東方早報(bào)記者 李偉;要名還是要利,這是個(gè)問(wèn)題[N];東方早報(bào);2011年

3 金山軟件副總裁 楊桓;著力“三大系統(tǒng)” 構(gòu)筑網(wǎng)絡(luò)安全屏障[N];中國(guó)電子報(bào);2009年

4 郭京霞;楓葉之都狀告百度惡意排名一審敗訴[N];中國(guó)知識(shí)產(chǎn)權(quán)報(bào);2007年

5 路人甲;請(qǐng)個(gè)專(zhuān)家來(lái)貼圖[N];電腦報(bào);2005年

6 夏凌;搜索引擎排名糾紛百度勝出[N];中華工商時(shí)報(bào);2007年

7 錢(qián)鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年

8 吳夏炎 馬立玫 馬曉東;數(shù)據(jù)采集自動(dòng)化遠(yuǎn)程監(jiān)控可視化信息查尋一點(diǎn)清[N];中國(guó)石油報(bào);2003年

9 郭京霞;百度勝訴搜索引擎排名糾紛案[N];中國(guó)企業(yè)報(bào);2007年

10 任一鳴;垂直搜索:抓住細(xì)分需求[N];計(jì)算機(jī)世界;2007年

相關(guān)博士學(xué)位論文 前10條

1 焦斌星;用于搜索的網(wǎng)頁(yè)可視化摘要技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

2 孟憲軍;互聯(lián)網(wǎng)文本聚類(lèi)與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

3 張長(zhǎng)利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年

4 黃河;農(nóng)業(yè)復(fù)雜自適應(yīng)搜索模型研究及實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

5 王昤璞;基于用戶(hù)體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

6 劉守群;海量網(wǎng)絡(luò)視頻快速檢索關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

7 段瑞雪;基于依存關(guān)系的用戶(hù)意圖的研究[D];北京郵電大學(xué);2011年

8 曹魯慧;Web個(gè)人信息集成問(wèn)題研究[D];山東大學(xué);2012年

9 陳冬玲;基于潛在語(yǔ)義的個(gè)性化搜索關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年

10 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 于洪波;中文網(wǎng)頁(yè)自動(dòng)采集與分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年

2 鐘鴻鵬;基于時(shí)態(tài)信息的網(wǎng)頁(yè)排序系統(tǒng)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2010年

3 張航;主題爬蟲(chóng)的實(shí)現(xiàn)及其關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2010年

4 馮明遠(yuǎn);深度網(wǎng)絡(luò)信息爬取關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];浙江大學(xué);2010年

5 鄧科;智能搜索中的中文網(wǎng)頁(yè)分類(lèi)研究[D];蘭州理工大學(xué);2011年

6 黨春輝;網(wǎng)頁(yè)消重和聚類(lèi)算法在高校搜索引擎中的研究與應(yīng)用[D];東華大學(xué);2010年

7 馬偉瑜;基于改進(jìn)的PageRank的網(wǎng)頁(yè)信息可信度評(píng)估方法研究[D];河北大學(xué);2011年

8 任斌;基于本體的主動(dòng)學(xué)習(xí)主題爬行的研究與實(shí)現(xiàn)[D];吉林大學(xué);2010年

9 任蘭鵬;基于代表樣本的中文網(wǎng)頁(yè)分類(lèi)研究[D];山東大學(xué);2010年

10 李霞;文本過(guò)濾防火墻技術(shù)研究[D];北方工業(yè)大學(xué);2011年

,

本文編號(hào):2561086

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2561086.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)deeb8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com