用戶可定制桌面搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-09-08 12:34
本文關(guān)鍵詞:用戶可定制桌面搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 主題爬行 個(gè)性化搜索 自適應(yīng)主題爬行 用戶可定制
【摘要】:隨著互聯(lián)網(wǎng)信息的爆炸式增長(zhǎng),用戶的個(gè)性化需求也越來(lái)越高。在實(shí)際應(yīng)用場(chǎng)景下,,用戶通常希望在特定領(lǐng)域進(jìn)行定制化的搜索。主題爬蟲(chóng)是定制化搜索的基礎(chǔ),傳統(tǒng)的主題爬蟲(chóng)方法需要對(duì)應(yīng)主題訓(xùn)練集的支持,如果缺乏相應(yīng)主題訓(xùn)練集則無(wú)法進(jìn)行工作。因此,傳統(tǒng)的垂直搜索引擎只能提供一個(gè)或少數(shù)主題的搜索服務(wù),無(wú)法完全滿足用戶的個(gè)性化需求 本論文的研究工作針對(duì)上述問(wèn)題展開(kāi),主要貢獻(xiàn)如下: 提出了面向自適應(yīng)主題爬行的網(wǎng)頁(yè)解析技術(shù)。自適應(yīng)主題爬行需要能夠準(zhǔn)確地解析出一個(gè)網(wǎng)頁(yè)的主題文本,已有的方法對(duì)topic類(lèi)型網(wǎng)頁(yè)的效果較好,但是通用性不高,而且沒(méi)有考慮如何提取hub類(lèi)型網(wǎng)頁(yè)的主題文本。論文中的提出的方法是一個(gè)通用的解析算法(EATI),通過(guò)該算法在主題爬行中的表現(xiàn)證明了算法的有效性。 提出了自適應(yīng)主題爬行策略。該策略不依賴主題訓(xùn)練集,通過(guò)用戶提供的一組相同主題的初始鏈接完成主題建模和爬行,在相同初始鏈接的情況下,達(dá)到了和使用主題訓(xùn)練集的最佳優(yōu)先策略水平相當(dāng)?shù)氖斋@率。 設(shè)計(jì)并實(shí)現(xiàn)了用戶可定制桌面搜索系統(tǒng)。該系統(tǒng)向用戶提供一個(gè)可以靈活定制的爬蟲(chóng),用戶根據(jù)需求對(duì)爬蟲(chóng)進(jìn)行簡(jiǎn)單配置后即可完成定制化的爬行。系統(tǒng)在后臺(tái)自動(dòng)完成下載網(wǎng)頁(yè)的索引,并通過(guò)web向用戶提供檢索服務(wù)。
【關(guān)鍵詞】:主題爬行 個(gè)性化搜索 自適應(yīng)主題爬行 用戶可定制
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要3-4
- abstract4-7
- 第1章 引言7-10
- 1.1 選題背景和意義7
- 1.2 論文工作的主要貢獻(xiàn)7-8
- 1.3 論文的結(jié)構(gòu)安排8-10
- 第2章 背景知識(shí)及相關(guān)工作介紹10-17
- 2.1 背景知識(shí)10-14
- 2.1.1 搜索引擎簡(jiǎn)介10
- 2.1.2 主題爬蟲(chóng)技術(shù)介紹10-12
- 2.1.3 倒排索引12-13
- 2.1.4 pagerank13-14
- 2.2 相關(guān)工作14-16
- 2.2.1 主題爬行相關(guān)研究14-15
- 2.2.2 現(xiàn)有開(kāi)源軟件15-16
- 2.3 本章小結(jié)16-17
- 第3章 面向自適應(yīng)主題爬行的網(wǎng)頁(yè)解析技術(shù)17-27
- 3.1 中文網(wǎng)頁(yè)編碼檢測(cè)算法17-20
- 3.1.1 相關(guān)工作分析17
- 3.1.2 基于字節(jié)流的中文編碼檢測(cè)算法17-19
- 3.1.3 實(shí)驗(yàn)19-20
- 3.2 網(wǎng)頁(yè)提取算法20-26
- 3.2.1 相關(guān)工作分析20
- 3.2.2 帶網(wǎng)頁(yè)類(lèi)型檢測(cè)的提取算法20-24
- 3.2.3 實(shí)驗(yàn)24-26
- 3.3 本章小結(jié)26-27
- 第4章 自適應(yīng)主題爬行策略研究27-35
- 4.1 相關(guān)工作分析27-28
- 4.2 自適應(yīng)主題模型28-31
- 4.2.1 主題建模28-29
- 4.2.2 模型修正29-30
- 4.2.3 特征詞和特征權(quán)重30-31
- 4.2.4 url 排序策略31
- 4.3 實(shí)驗(yàn)31-34
- 4.3.1 基準(zhǔn)算法31-32
- 4.3.2 評(píng)價(jià)體系32
- 4.3.3 實(shí)驗(yàn)相關(guān)說(shuō)明32-33
- 4.3.4 實(shí)驗(yàn)結(jié)果33-34
- 4.4 本章小結(jié)34-35
- 第5章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)35-45
- 5.1 業(yè)務(wù)設(shè)計(jì)35-37
- 5.1.1 總體設(shè)計(jì)35
- 5.1.2 工作流程設(shè)計(jì)35-37
- 5.2 系統(tǒng)設(shè)計(jì)37-44
- 5.2.1 系統(tǒng)框架37
- 5.2.2 各模塊詳細(xì)設(shè)計(jì)37-42
- 5.2.3 系統(tǒng)界面42-44
- 5.3 本章小結(jié)44-45
- 第6章 結(jié)論與展望45-47
- 6.1 論文完成的工作和貢獻(xiàn)45-46
- 6.2 下一步工作展望46-47
- 參考文獻(xiàn)47-50
- 致謝50-52
- 個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果52
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 吳棟,滕育平;中文信息檢索引擎中的分詞與檢索技術(shù)[J];計(jì)算機(jī)應(yīng)用;2004年07期
2 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
本文編號(hào):814064
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/814064.html
最近更新
教材專(zhuān)著