基于人工標注的搜索引擎評估方法與實現(xiàn)
發(fā)布時間:2021-07-11 00:30
近十年來,搜索引擎在人們的日常生活中扮演了越來越重要的角色。同時,對搜索引擎的能力也提出了嚴峻的考驗。搜索引擎技術(shù)也一直是計算機產(chǎn)業(yè)的研究熱點,作為一個相對較窄的領(lǐng)域,但卻引來了無數(shù)人的持續(xù)研究,時間之長、影響之廣泛,在計算機發(fā)展史上也是少有的。搜索引擎的好與壞,沒有絕對客觀的標準。排序算法的評估,出發(fā)點和終結(jié)點都是人的感知。所以評估是搜索引擎技術(shù)的基礎(chǔ)性工作,也是核心工作之一。有評測才有鑒別,評判一個搜索引擎的優(yōu)劣的途徑不是開發(fā)人員的自評,更不能簡單的依靠感覺,而應(yīng)該是相互可比的評測。因此評價一個搜索引擎質(zhì)量的優(yōu)劣是目前的當務(wù)之急,也應(yīng)該是各搜索公司應(yīng)該予以重點關(guān)注的問題。準確的對搜索引擎質(zhì)量予以評價,可以幫助搜索引擎技術(shù)飛速發(fā)展,也可以幫助搜索引擎改進算法,最重要的是可以令廣大用戶得到更好的搜索體驗,更容易的找到所求,減少不必要的麻煩。論文采用基于人工標注的方法來實現(xiàn)對搜索引擎的評估工作。通過眾包,解決了評估人員少、評估工作量小的難題;通過建立用戶組來區(qū)分評估能力不同的用戶,解決了評估任務(wù)與評估員的能力不符的難題;通過建立一套認證體系,讓用戶領(lǐng)取認證、獲得認證,提高用戶的評估能力,...
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 目前存在的問題
1.4 論文主要工作
1.5 論文結(jié)構(gòu)
2 搜索引擎評價技術(shù)
2.1 基于真實用戶搜索和點擊數(shù)據(jù)的方法
2.1.1 A/B test
2.1.2 Balanced Interleaving
2.2 基于人工標注的方法
2.2.1 Side-by-Side
2.2.2 基于DCG等指標的評估
2.3 評測指標
2.3.1 Precision-recall與P@N
2.3.2 CG、DCG與NDCG
2.3.3 ERR等
3 搜索引擎評估系統(tǒng)的概要設(shè)計
3.1 需求分析
3.1.1 Query-Url評估類型
3.1.2 前三對比評估類型
3.1.3 功能需求
3.2 模塊設(shè)計
3.2.1 系統(tǒng)總體架構(gòu)
3.2.2 用戶模塊
3.2.3 認證模塊
3.2.4 抓取模塊
3.2.5 評估模塊
3.2.6 報表模塊
3.3 數(shù)據(jù)庫設(shè)計
4 搜索引擎評估系統(tǒng)的詳細設(shè)計與實現(xiàn)
4.1 代碼結(jié)構(gòu)
4.2 整體流程
4.3 用戶模塊
4.3.1 用戶注冊/登錄
4.3.2 用戶管理
4.3.3 用戶組管理
4.3.4 用戶評估信息
4.4 認證模塊
4.4.1 整體流程
4.4.2 創(chuàng)建認證
4.4.3 查詢認證
4.4.4 修改認證
4.4.5 審核認證
4.5 抓取模塊
4.5.1 整體流程
4.5.2 URL拼裝
4.5.3 抓取發(fā)起
4.5.4 頁面接收
4.5.5 頁面解析
4.5.6 頁面上傳
4.6 評估模塊
4.6.1 整體流程
4.6.2 任務(wù)創(chuàng)建
4.6.3 任務(wù)管理
4.6.4 任務(wù)分發(fā)
4.6.5 評估頁面
4.6.6 插入監(jiān)控
4.6.7 自動加人
4.7 報表模塊
4.7.1 任務(wù)量統(tǒng)計
4.7.2 認證轉(zhuǎn)化率
4.7.3 評估數(shù)據(jù)查詢/下載
5 搜索引擎評估系統(tǒng)效果與分析
5.1 系統(tǒng)界面
5.2 系統(tǒng)測試
5.3 結(jié)論分析
結(jié)論
參考文獻
致謝
【參考文獻】:
期刊論文
[1]搜索引擎發(fā)展趨勢研究[J]. 許劍穎. 現(xiàn)代情報. 2011(09)
[2]基于大規(guī)模日志分析的搜索引擎用戶行為分析[J]. 余慧佳,劉奕群,張敏,茹立云,馬少平. 中文信息學(xué)報. 2007(01)
[3]超鏈接網(wǎng)絡(luò)分析的理論與應(yīng)用研究[J]. 龐景安. 情報理論與實踐. 2005(06)
[4]不同搜索引擎在網(wǎng)絡(luò)影響因子分析中的比較研究[J]. 吳茵茵. 情報科學(xué). 2005(03)
[5]基于詞頻統(tǒng)計的中文分詞的研究[J]. 費洪曉,康松林,朱小娟,謝文彪. 計算機工程與應(yīng)用. 2005(07)
[6]搜索引擎技術(shù)及趨勢[J]. 李曉明,劉建國. 中國計算機用戶. 2000(09)
本文編號:3276961
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 目前存在的問題
1.4 論文主要工作
1.5 論文結(jié)構(gòu)
2 搜索引擎評價技術(shù)
2.1 基于真實用戶搜索和點擊數(shù)據(jù)的方法
2.1.1 A/B test
2.1.2 Balanced Interleaving
2.2 基于人工標注的方法
2.2.1 Side-by-Side
2.2.2 基于DCG等指標的評估
2.3 評測指標
2.3.1 Precision-recall與P@N
2.3.2 CG、DCG與NDCG
2.3.3 ERR等
3 搜索引擎評估系統(tǒng)的概要設(shè)計
3.1 需求分析
3.1.1 Query-Url評估類型
3.1.2 前三對比評估類型
3.1.3 功能需求
3.2 模塊設(shè)計
3.2.1 系統(tǒng)總體架構(gòu)
3.2.2 用戶模塊
3.2.3 認證模塊
3.2.4 抓取模塊
3.2.5 評估模塊
3.2.6 報表模塊
3.3 數(shù)據(jù)庫設(shè)計
4 搜索引擎評估系統(tǒng)的詳細設(shè)計與實現(xiàn)
4.1 代碼結(jié)構(gòu)
4.2 整體流程
4.3 用戶模塊
4.3.1 用戶注冊/登錄
4.3.2 用戶管理
4.3.3 用戶組管理
4.3.4 用戶評估信息
4.4 認證模塊
4.4.1 整體流程
4.4.2 創(chuàng)建認證
4.4.3 查詢認證
4.4.4 修改認證
4.4.5 審核認證
4.5 抓取模塊
4.5.1 整體流程
4.5.2 URL拼裝
4.5.3 抓取發(fā)起
4.5.4 頁面接收
4.5.5 頁面解析
4.5.6 頁面上傳
4.6 評估模塊
4.6.1 整體流程
4.6.2 任務(wù)創(chuàng)建
4.6.3 任務(wù)管理
4.6.4 任務(wù)分發(fā)
4.6.5 評估頁面
4.6.6 插入監(jiān)控
4.6.7 自動加人
4.7 報表模塊
4.7.1 任務(wù)量統(tǒng)計
4.7.2 認證轉(zhuǎn)化率
4.7.3 評估數(shù)據(jù)查詢/下載
5 搜索引擎評估系統(tǒng)效果與分析
5.1 系統(tǒng)界面
5.2 系統(tǒng)測試
5.3 結(jié)論分析
結(jié)論
參考文獻
致謝
【參考文獻】:
期刊論文
[1]搜索引擎發(fā)展趨勢研究[J]. 許劍穎. 現(xiàn)代情報. 2011(09)
[2]基于大規(guī)模日志分析的搜索引擎用戶行為分析[J]. 余慧佳,劉奕群,張敏,茹立云,馬少平. 中文信息學(xué)報. 2007(01)
[3]超鏈接網(wǎng)絡(luò)分析的理論與應(yīng)用研究[J]. 龐景安. 情報理論與實踐. 2005(06)
[4]不同搜索引擎在網(wǎng)絡(luò)影響因子分析中的比較研究[J]. 吳茵茵. 情報科學(xué). 2005(03)
[5]基于詞頻統(tǒng)計的中文分詞的研究[J]. 費洪曉,康松林,朱小娟,謝文彪. 計算機工程與應(yīng)用. 2005(07)
[6]搜索引擎技術(shù)及趨勢[J]. 李曉明,劉建國. 中國計算機用戶. 2000(09)
本文編號:3276961
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3276961.html
最近更新
教材專著