高校就業(yè)信息平臺(tái)的垂直搜索引擎實(shí)現(xiàn)
本文關(guān)鍵詞:寵物用品垂直搜索引擎研究與設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
校就業(yè)信息平臺(tái)的垂直搜索引擎實(shí)現(xiàn) 徐勇 薛建芳 ( 1 .河北大學(xué); 2 .河北機(jī)電職業(yè)技術(shù)學(xué)院 ) 摘要:利用開源軟件 L u c e n e工具包實(shí)現(xiàn)一個(gè)基于垂直搜索的高過類似于表格的結(jié)構(gòu)化形式對(duì)招聘信息進(jìn)行描述的。針校就業(yè)信息平臺(tái),為大學(xué)生就業(yè)提供專業(yè)對(duì)口、內(nèi)容全面、權(quán)威準(zhǔn)確的對(duì)網(wǎng)頁(yè)的 H T ML源碼使用如下算法抽取單位信息:第一就業(yè)信息,大力促進(jìn)高校畢業(yè)生的就業(yè)。 關(guān)鍵詞: L u c e n e垂直搜索就業(yè)
步:去掉 H T ML中的標(biāo)記和網(wǎng)頁(yè)描述符號(hào),得到網(wǎng)頁(yè)中描
1概述
近年來(lái),隨著高校擴(kuò)招規(guī)模的逐年加大,畢業(yè)生數(shù)目 “職位”、“工資”、“日期”、“兼職”等字段。第二步:根據(jù)網(wǎng) 也隨之水漲船高,各大城市招聘市場(chǎng)的火爆場(chǎng)面更是讓眾頁(yè)中的注釋符號(hào)將網(wǎng)頁(yè)中說明程序功能的注釋提取出 多的畢業(yè)生望而生畏。通過網(wǎng)絡(luò)平臺(tái)發(fā)布就業(yè)/招聘信息來(lái),將這些注釋與招工單位的一些描述性文字進(jìn)行比對(duì), 越來(lái)越受到大學(xué)生和企業(yè)雙方的重視。本文采用開源工具得到招工單位的一些信息。第三步:本平臺(tái)中的招工信息包 L u c e n e實(shí)現(xiàn)了一個(gè)基于 B/ S模式的高校就業(yè)信息平數(shù)據(jù)庫(kù)中存儲(chǔ)了一些相關(guān)的職位信息字段,把從網(wǎng)頁(yè)中臺(tái),為大學(xué)生提供專業(yè)對(duì)口、信息準(zhǔn)確、實(shí)時(shí)高效、可以設(shè)獲取到的相關(guān)字段和上述數(shù)據(jù)庫(kù)中的字段進(jìn)行比對(duì)和分定就業(yè)地域/薪酬水平等等的垂直搜索服務(wù)。 析,可以獲得比較良好的匹配度。第四步:根據(jù)前面的比 2高校就業(yè)信息平臺(tái)的總體框架較得到匹配字段后,按照順序取出這些匹配字段:如“聯(lián)本系統(tǒng)包括以下模塊: 想集團(tuán)、銷售人員、 3 0 0 O/月、 2 0 1 0— 1 2— 8”作為相應(yīng)字段 2 . 1信息采集模塊本模塊采用網(wǎng)絡(luò)蜘蛛自動(dòng)采集網(wǎng)將前四步循環(huán),當(dāng)遇到下一頁(yè)信息,獲取與招聘信息有關(guān)的網(wǎng)頁(yè),并對(duì)這些網(wǎng)頁(yè)進(jìn)行的值存入數(shù)據(jù)庫(kù)中。第五步:個(gè)代碼“ !”時(shí)停止。第六步:上述環(huán)節(jié)結(jié)束后將網(wǎng)頁(yè)的存儲(chǔ),之后運(yùn)用信息抽取技術(shù),提取出網(wǎng)頁(yè)的結(jié)構(gòu)化信息, R L添加到
數(shù)據(jù)庫(kù)中,然后由人工的方式進(jìn)行處理。在本如招聘企業(yè)的地址、工作類別、工資待遇、相關(guān)要求等,并 U可以實(shí)現(xiàn)動(dòng)態(tài)調(diào)整。在試運(yùn)行階段發(fā)將這些數(shù)據(jù)存人數(shù)據(jù)庫(kù)當(dāng)中,為用戶提供查詢和檢索信平臺(tái)運(yùn)行的過程中,現(xiàn),如果用戶輸入的關(guān)鍵字和數(shù)據(jù)庫(kù)中的相關(guān)字段匹配息。 0%以上的查詢精確 2 . 2數(shù)據(jù)庫(kù)管理模塊本平臺(tái)主要包括兩個(gè)數(shù)據(jù)庫(kù)。 程度較高,本平臺(tái)可以實(shí)現(xiàn)高達(dá) 9度。 網(wǎng)頁(yè)采集數(shù)據(jù)庫(kù):用于存儲(chǔ)網(wǎng)絡(luò)蜘蛛已經(jīng)采集到的網(wǎng)頁(yè)信息,已經(jīng)發(fā)現(xiàn)但是還沒有遍歷的新 U RL列表,,網(wǎng)頁(yè)權(quán)值的
述招工單位的具體內(nèi)容的詞語(yǔ)或詞組,采用分隔符將這些詞隔開。這樣在網(wǎng)頁(yè) H T ML描述中就只剩下“單位”、
3 . 4建立系統(tǒng)索引本文使用如下方法建立系統(tǒng)索
①讀取招聘信息數(shù)據(jù)庫(kù)中的內(nèi)容,然后創(chuàng)建一個(gè)實(shí)現(xiàn)存儲(chǔ)以及索引和數(shù)據(jù)字典信息存儲(chǔ)等等。信息數(shù)據(jù)庫(kù):用引:了與數(shù)據(jù)庫(kù)鏈接方法和讀取數(shù)據(jù)庫(kù)內(nèi)容方法的類。②創(chuàng)建于存儲(chǔ)所有招工單位的基本信息。包括企業(yè)名稱、地址、電
高校學(xué)生就業(yè)平臺(tái)和 L u c e n e的交互接口。③為存儲(chǔ)高校話、招工崗位、薪酬、和其他具體要求等等。 學(xué)生就業(yè)單位的數(shù)據(jù)庫(kù)建立索引。 2 . 3信息檢索顯示模塊此模塊是用戶和該平臺(tái)的一 3 . 5信息檢索本平臺(tái)獲取到用戶輸入的查詢關(guān)鍵字個(gè)信息交互窗口,給用戶提供最終的查詢結(jié)果,同時(shí)還提通過 L u c e n e接口將關(guān)鍵字提交給查詢分析器,查詢供了供用戶選擇的查詢方式。用戶可以根據(jù)自己的需要選后, 擇查詢方式和顯示方式,最終在此模塊中對(duì)用戶展現(xiàn)結(jié)分析器將關(guān)鍵字分析轉(zhuǎn)換成基本的關(guān)鍵字的邏輯組合用果。 來(lái)執(zhí)行搜索過程,檢索結(jié)束后返回一個(gè)命中集。用戶在進(jìn)
3系統(tǒng)實(shí)現(xiàn)行檢索的時(shí)候可以選擇查詢范圍和條件。 3 . 1網(wǎng)頁(yè)信息抓取在本環(huán)節(jié)中,系統(tǒng)使用元搜索引 4總結(jié)擎根據(jù)用戶輸入的關(guān)鍵字獲取相關(guān)的內(nèi)容,然后派出網(wǎng)絡(luò)本論文使用開源工具包 L u c e n e實(shí)現(xiàn)了高校就業(yè)信蜘蛛抓取相關(guān)的網(wǎng)頁(yè),經(jīng)過一系列的處理以后存入索引庫(kù)息平臺(tái)。通過使用垂直搜索技
術(shù)實(shí)現(xiàn)了對(duì)大學(xué)生就業(yè)信息以供以后的查詢使用。 專業(yè)化、高精度的深入檢索,避免了通用搜索引擎寬泛的為了保證檢索精度,對(duì)抓取網(wǎng)頁(yè)的 HI T S算法進(jìn)行了 缺陷,給大學(xué)生就業(yè)提供了一個(gè)專業(yè)對(duì)口、信息實(shí)時(shí)、準(zhǔn)改進(jìn)。描述如下:第一步:初始化,把網(wǎng)頁(yè)的 Au t h o r i t y權(quán)值確、全面的搜索工具。 和 Hu b權(quán)值初值都設(shè)為 1:第二步:按照規(guī)則,把所有鏈接的A u t h o r i t y和 Hu b權(quán)值計(jì)算出來(lái);第三步:按照下面的 參考文獻(xiàn): [ 1】陳向東.寵物用品垂直搜索引擎研究與設(shè)計(jì)【 M】 .西北農(nóng)林科 技大學(xué), 2 0 1 0 .
公式進(jìn)行計(jì)算,直到收斂。 A l _∑H j * A u t h o r i t y ( j, i ) J EB ( . 1
【 2】苗海.基于聚類算法的垂直搜索引擎技術(shù)研究,北京信息科技大學(xué)學(xué)報(bào), 2 0 1 3 . 【 3】郭姣.基于 We b GI S的五金產(chǎn)業(yè)信息搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 【 M】 .山西財(cái)經(jīng)大學(xué), 2 0 1 1 .
3 . 2使用如下正則達(dá)式來(lái)限制網(wǎng)絡(luò)蜘蛛的爬行范圍: # a c c e p t h o s t s i n . DOM AI NBE ACCE P T . NAM E
4 - h t t p:// ( f a - z 0— 9】 \ . )招聘網(wǎng)站 U R L
【 4】馮效棟.垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用
3 . 3頁(yè)面信息分析常見的就業(yè)招聘信息網(wǎng)頁(yè)都是通【 M】 .中國(guó)海洋大學(xué), 2 0 1 0 . 2 4 2
Word文檔免費(fèi)下載:高校就業(yè)信息平臺(tái)的垂直搜索引擎實(shí)現(xiàn) (下載1-1頁(yè),共1頁(yè))
本文關(guān)鍵詞:寵物用品垂直搜索引擎研究與設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
本文編號(hào):115470
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/115470.html