面向職位查詢的垂直搜索引擎設(shè)計與實現(xiàn)
本文關(guān)鍵詞:面向職位查詢的垂直搜索引擎設(shè)計與實現(xiàn)
更多相關(guān)文章: 垂直搜索引擎 網(wǎng)絡(luò)爬蟲 中文分詞 倒排索引 檢索模型 相關(guān)度排序
【摘要】:近年來,隨著高等教育的逐漸普及,越來越多的人面臨著求職難的問題。一些互聯(lián)網(wǎng)公司從中發(fā)現(xiàn)商機,紛紛創(chuàng)辦起各具特色的招聘網(wǎng)站,架起了求職者與招聘企業(yè)之間溝通的橋梁。但新的問題又?jǐn)[在了求職者的面前,那就是每個人找工作都要光顧多家招聘網(wǎng)站,不斷地重復(fù)著用戶注冊、職位篩選、簡歷編寫與投遞等繁雜的任務(wù),這極大的挫傷了人們的求職熱情。為了簡化人們求職的流程,本文設(shè)計并實現(xiàn)了面向職位查詢的垂直搜索引擎,它將匯聚各大招聘網(wǎng)站最新的職位信息,利用垂直搜索快速、準(zhǔn)確、實時性好等優(yōu)點,為人們從海量數(shù)據(jù)中篩選出最能滿足其求職意圖的查詢結(jié)果。本文在系統(tǒng)實現(xiàn)的過程中,先利用網(wǎng)絡(luò)爬蟲技術(shù)從各個招聘網(wǎng)站抓取網(wǎng)頁數(shù)據(jù),網(wǎng)頁經(jīng)過解析后抽取職位信息并存入磁盤文檔庫。其次,為抽取的結(jié)構(gòu)化文檔數(shù)據(jù)建立倒排索引以提高系統(tǒng)的檢索速度,考慮到內(nèi)存空間的限制問題,需要分批次建立臨時索引,并最終合并成一個完整的倒排索引文件。再次,結(jié)合布爾模型和向量空間模型的特點,實現(xiàn)一個可以按相關(guān)度進(jìn)行排序的布爾檢索模型。最后,設(shè)計一個基本的Web用戶界面,通過Socket調(diào)用職位搜索引擎的API來為用戶提供針對職位、公司、全文查詢的搜索服務(wù)。本文所實現(xiàn)的系統(tǒng)經(jīng)過用戶評測后,可以在一定程度上滿足求職者的查詢需求,但有部分功能還需要在后續(xù)的研究過程中進(jìn)行改進(jìn),一方面是職位信息的動態(tài)更新需要進(jìn)一步解決,另一方面就是檢索模型的排序功能有待改進(jìn)。
【關(guān)鍵詞】:垂直搜索引擎 網(wǎng)絡(luò)爬蟲 中文分詞 倒排索引 檢索模型 相關(guān)度排序
【學(xué)位授予單位】:遼寧科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 中文摘要5-6
- ABSTRACT6-9
- 1. 緒論9-15
- 1.1 課題背景9-10
- 1.2 垂直搜索引擎10-13
- 1.3 本文研究內(nèi)容及意義13
- 1.4 本文結(jié)構(gòu)安排13-15
- 2. 職位搜索總體設(shè)計15-22
- 2.1 職位搜索架構(gòu)15-16
- 2.2 職位信息采集16-17
- 2.3 中文分詞系統(tǒng)17-18
- 2.4 分段倒排索引18-19
- 2.5 職位檢索模型19-21
- 2.6 用戶自助查詢21
- 2.7 本章小結(jié)21-22
- 3. 職位招聘信息的自動采集22-28
- 3.1 URL隊列維護(hù)22
- 3.2 網(wǎng)頁下載器22-25
- 3.3 數(shù)據(jù)的結(jié)構(gòu)化抽取25-27
- 3.4 文檔庫27
- 3.5 本章小結(jié)27-28
- 4. 中文分詞系統(tǒng)28-32
- 4.1 詞典建立的準(zhǔn)備工作28
- 4.2 詞典建立的一般過程28-30
- 4.3 詞典的存儲和時間開銷30
- 4.4 分詞詞典的匹配操作30-31
- 4.5 本章小結(jié)31-32
- 5. 分段倒排索引32-36
- 5.1 索引的應(yīng)用32
- 5.2 索引的內(nèi)部結(jié)構(gòu)32-33
- 5.3 索引的內(nèi)部關(guān)系33-34
- 5.4 索引的建立過程34-35
- 5.5 本章小結(jié)35-36
- 6. 職位檢索模型36-39
- 6.1 分析查詢字符串36
- 6.2 進(jìn)行初步查詢36-37
- 6.3 相關(guān)度排序37-38
- 6.4 返回查詢結(jié)果38
- 6.5 本章小結(jié)38-39
- 7. 用戶自助查詢39-44
- 7.1 視圖模式選擇39
- 7.2 前后臺通信方式39-40
- 7.3 開啟前后臺通信40-42
- 7.4 調(diào)用職位搜索接口42
- 7.5 分頁查詢42-43
- 7.6 本章小結(jié)43-44
- 8. 實驗結(jié)果及分析44-46
- 8.1 系統(tǒng)實驗環(huán)境44
- 8.2 系統(tǒng)評價指標(biāo)44
- 8.3 實驗結(jié)果分析44-46
- 9. 總結(jié)及展望46-47
- 參考文獻(xiàn)47-50
- 致謝50-51
- 作者簡介51-52
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價值[J];信息技術(shù);2008年04期
2 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術(shù);2009年02期
3 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期
4 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
5 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期
6 焦龍;;垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索[J];商場現(xiàn)代化;2010年08期
7 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期
8 陳高維;鄧天權(quán);曾云磊;王維國;張龍;;基于垂直搜索引擎的旅游線路評價模型的設(shè)計[J];科技創(chuàng)新導(dǎo)報;2010年18期
9 劉小強;;二手轉(zhuǎn)讓及房產(chǎn)租售垂直搜索引擎的設(shè)計與實現(xiàn)[J];三門峽職業(yè)技術(shù)學(xué)院學(xué)報;2010年03期
10 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(自然科學(xué)版);2011年02期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計算機學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國經(jīng)營報;2006年
2 王艷;垂直搜索引擎市場看好[N];中國旅游報;2000年
3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報海外版;2000年
4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟日報;2007年
5 本報記者 王曉雁;垂直搜索引擎著作權(quán)之爭未破題[N];法制日報;2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;用開源軟件建垂直搜索引擎[N];計算機世界;2010年
7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場[N];經(jīng)理日報;2008年
8 源訊 編譯;搜索巨頭的下一步[N];計算機世界;2006年
9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計算機報;2000年
10 ;沱沱網(wǎng)“亮劍”國際消費電子博覽會 專業(yè)服務(wù)帶來B2B差異化變革[N];中國貿(mào)易報;2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實現(xiàn)[D];華北電力大學(xué)(北京);2008年
2 崔詩遠(yuǎn);基于垂直搜索引擎的旅行社網(wǎng)絡(luò)營銷[D];青島大學(xué);2009年
3 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實現(xiàn)[D];東北師范大學(xué);2009年
4 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學(xué);2009年
5 劉明君;垂直搜索引擎?zhèn)鞑W(xué)特征及應(yīng)用研究[D];華中科技大學(xué);2008年
6 黎斌;可擴展分布式垂直搜索引擎設(shè)計與實現(xiàn)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
7 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
8 石占偉;垃圾頁面檢測及其在垂直搜索引擎中的應(yīng)用[D];燕山大學(xué);2010年
9 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學(xué);2010年
10 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學(xué);2010年
,本文編號:916834
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/916834.html