基于Web的主題相關(guān)數(shù)據(jù)源識別技術(shù)研究
發(fā)布時間:2021-04-08 18:26
互聯(lián)網(wǎng)自誕生以來迅猛發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式增長的趨勢;ヂ(lián)網(wǎng)上的數(shù)據(jù)具有獨特的特點,其中的大部分數(shù)據(jù)都是非結(jié)構(gòu)化的文本,不同主題的數(shù)據(jù)分散在互聯(lián)網(wǎng)的不同節(jié)點上,這給用戶有效利用互聯(lián)網(wǎng)數(shù)據(jù)帶來了極大困難。用戶對于數(shù)據(jù)源的需求往往是面向主題的,搜索引擎的出現(xiàn)使得人們可以向搜索引擎提交查詢來獲得某一主題的數(shù)據(jù)源。然而搜索引擎提交查詢時采用關(guān)鍵詞的形式,單個的關(guān)鍵詞不能準確表征一個主題。同時,使用單個主題關(guān)鍵詞進行搜索會返回大量與查詢主題無關(guān)的數(shù)據(jù)源,需要用戶花費大量時間篩選返回結(jié)果。如何快速對搜索引擎返回的大量數(shù)據(jù)源進行主題識別成為一個熱門研究問題。本文通過對現(xiàn)有數(shù)據(jù)源識別方法進行分析,發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)源識別方法僅僅考慮數(shù)據(jù)源內(nèi)容與查詢的相關(guān)度,而數(shù)據(jù)源與查詢的相關(guān)度與很多因素有關(guān),本文提出將數(shù)據(jù)源文檔數(shù)量、數(shù)據(jù)源權(quán)威性、數(shù)據(jù)源主題相結(jié)合計算數(shù)據(jù)源與查詢相關(guān)度,進行主題相關(guān)數(shù)據(jù)源識別的方法,主要貢獻如下:(1)提出了基于Web的主題相關(guān)數(shù)據(jù)源集成框架。針對單個通用搜索引擎對特定主題查詢的返回結(jié)果覆蓋率低、數(shù)據(jù)量龐大等問題,本文集成多個搜索引擎進行主題數(shù)據(jù)源查詢來提高搜索結(jié)果的查全率,通過向集成接口...
【文章來源】:天津理工大學天津市
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
高考搜索結(jié)果
【參考文獻】:
期刊論文
[1]特征驅(qū)動的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景. 軟件學報. 2018(07)
[2]挖掘?qū)@R實現(xiàn)關(guān)鍵詞自動抽取[J]. 陳憶群,周如旗,朱蔚恒,李夢婷,印鑒. 計算機研究與發(fā)展. 2016(08)
[3]Web數(shù)據(jù)源選擇技術(shù)[J]. 萬常選,鄧松,劉喜平,廖國瓊,劉德喜,江騰蛟. 軟件學報. 2013(04)
[4]基于數(shù)據(jù)質(zhì)量的Deep Web數(shù)據(jù)源排序[J]. 余偉,李石君,文利娟,田建偉. 小型微型計算機系統(tǒng). 2010(04)
本文編號:3126035
【文章來源】:天津理工大學天津市
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
高考搜索結(jié)果
【參考文獻】:
期刊論文
[1]特征驅(qū)動的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景. 軟件學報. 2018(07)
[2]挖掘?qū)@R實現(xiàn)關(guān)鍵詞自動抽取[J]. 陳憶群,周如旗,朱蔚恒,李夢婷,印鑒. 計算機研究與發(fā)展. 2016(08)
[3]Web數(shù)據(jù)源選擇技術(shù)[J]. 萬常選,鄧松,劉喜平,廖國瓊,劉德喜,江騰蛟. 軟件學報. 2013(04)
[4]基于數(shù)據(jù)質(zhì)量的Deep Web數(shù)據(jù)源排序[J]. 余偉,李石君,文利娟,田建偉. 小型微型計算機系統(tǒng). 2010(04)
本文編號:3126035
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3126035.html
最近更新
教材專著