高校就業(yè)信息平臺的垂直搜索引擎實現(xiàn)
本文關(guān)鍵詞:寵物用品垂直搜索引擎研究與設(shè)計,由筆耕文化傳播整理發(fā)布。
校就業(yè)信息平臺的垂直搜索引擎實現(xiàn) 徐勇 薛建芳 ( 1 .河北大學(xué); 2 .河北機(jī)電職業(yè)技術(shù)學(xué)院 ) 摘要:利用開源軟件 L u c e n e工具包實現(xiàn)一個基于垂直搜索的高過類似于表格的結(jié)構(gòu)化形式對招聘信息進(jìn)行描述的。針校就業(yè)信息平臺,為大學(xué)生就業(yè)提供專業(yè)對口、內(nèi)容全面、權(quán)威準(zhǔn)確的對網(wǎng)頁的 H T ML源碼使用如下算法抽取單位信息:第一就業(yè)信息,大力促進(jìn)高校畢業(yè)生的就業(yè)。 關(guān)鍵詞: L u c e n e垂直搜索就業(yè)
步:去掉 H T ML中的標(biāo)記和網(wǎng)頁描述符號,得到網(wǎng)頁中描
1概述
近年來,隨著高校擴(kuò)招規(guī)模的逐年加大,畢業(yè)生數(shù)目 “職位”、“工資”、“日期”、“兼職”等字段。第二步:根據(jù)網(wǎng) 也隨之水漲船高,各大城市招聘市場的火爆場面更是讓眾頁中的注釋符號將網(wǎng)頁中說明程序功能的注釋提取出 多的畢業(yè)生望而生畏。通過網(wǎng)絡(luò)平臺發(fā)布就業(yè)/招聘信息來,將這些注釋與招工單位的一些描述性文字進(jìn)行比對, 越來越受到大學(xué)生和企業(yè)雙方的重視。本文采用開源工具得到招工單位的一些信息。第三步:本平臺中的招工信息包 L u c e n e實現(xiàn)了一個基于 B/ S模式的高校就業(yè)信息平數(shù)據(jù)庫中存儲了一些相關(guān)的職位信息字段,把從網(wǎng)頁中臺,為大學(xué)生提供專業(yè)對口、信息準(zhǔn)確、實時高效、可以設(shè)獲取到的相關(guān)字段和上述數(shù)據(jù)庫中的字段進(jìn)行比對和分定就業(yè)地域/薪酬水平等等的垂直搜索服務(wù)。 析,可以獲得比較良好的匹配度。第四步:根據(jù)前面的比 2高校就業(yè)信息平臺的總體框架較得到匹配字段后,按照順序取出這些匹配字段:如“聯(lián)本系統(tǒng)包括以下模塊: 想集團(tuán)、銷售人員、 3 0 0 O/月、 2 0 1 0— 1 2— 8”作為相應(yīng)字段 2 . 1信息采集模塊本模塊采用網(wǎng)絡(luò)蜘蛛自動采集網(wǎng)將前四步循環(huán),當(dāng)遇到下一頁信息,獲取與招聘信息有關(guān)的網(wǎng)頁,并對這些網(wǎng)頁進(jìn)行的值存入數(shù)據(jù)庫中。第五步:個代碼“ !”時停止。第六步:上述環(huán)節(jié)結(jié)束后將網(wǎng)頁的存儲,之后運(yùn)用信息抽取技術(shù),提取出網(wǎng)頁的結(jié)構(gòu)化信息, R L添加到
數(shù)據(jù)庫中,然后由人工的方式進(jìn)行處理。在本如招聘企業(yè)的地址、工作類別、工資待遇、相關(guān)要求等,并 U可以實現(xiàn)動態(tài)調(diào)整。在試運(yùn)行階段發(fā)將這些數(shù)據(jù)存人數(shù)據(jù)庫當(dāng)中,為用戶提供查詢和檢索信平臺運(yùn)行的過程中,現(xiàn),如果用戶輸入的關(guān)鍵字和數(shù)據(jù)庫中的相關(guān)字段匹配息。 0%以上的查詢精確 2 . 2數(shù)據(jù)庫管理模塊本平臺主要包括兩個數(shù)據(jù)庫。 程度較高,本平臺可以實現(xiàn)高達(dá) 9度。 網(wǎng)頁采集數(shù)據(jù)庫:用于存儲網(wǎng)絡(luò)蜘蛛已經(jīng)采集到的網(wǎng)頁信息,已經(jīng)發(fā)現(xiàn)但是還沒有遍歷的新 U RL列表,,網(wǎng)頁權(quán)值的
述招工單位的具體內(nèi)容的詞語或詞組,采用分隔符將這些詞隔開。這樣在網(wǎng)頁 H T ML描述中就只剩下“單位”、
3 . 4建立系統(tǒng)索引本文使用如下方法建立系統(tǒng)索
①讀取招聘信息數(shù)據(jù)庫中的內(nèi)容,然后創(chuàng)建一個實現(xiàn)存儲以及索引和數(shù)據(jù)字典信息存儲等等。信息數(shù)據(jù)庫:用引:了與數(shù)據(jù)庫鏈接方法和讀取數(shù)據(jù)庫內(nèi)容方法的類。②創(chuàng)建于存儲所有招工單位的基本信息。包括企業(yè)名稱、地址、電
高校學(xué)生就業(yè)平臺和 L u c e n e的交互接口。③為存儲高校話、招工崗位、薪酬、和其他具體要求等等。 學(xué)生就業(yè)單位的數(shù)據(jù)庫建立索引。 2 . 3信息檢索顯示模塊此模塊是用戶和該平臺的一 3 . 5信息檢索本平臺獲取到用戶輸入的查詢關(guān)鍵字個信息交互窗口,給用戶提供最終的查詢結(jié)果,同時還提通過 L u c e n e接口將關(guān)鍵字提交給查詢分析器,查詢供了供用戶選擇的查詢方式。用戶可以根據(jù)自己的需要選后, 擇查詢方式和顯示方式,最終在此模塊中對用戶展現(xiàn)結(jié)分析器將關(guān)鍵字分析轉(zhuǎn)換成基本的關(guān)鍵字的邏輯組合用果。 來執(zhí)行搜索過程,檢索結(jié)束后返回一個命中集。用戶在進(jìn)
3系統(tǒng)實現(xiàn)行檢索的時候可以選擇查詢范圍和條件。 3 . 1網(wǎng)頁信息抓取在本環(huán)節(jié)中,系統(tǒng)使用元搜索引 4總結(jié)擎根據(jù)用戶輸入的關(guān)鍵字獲取相關(guān)的內(nèi)容,然后派出網(wǎng)絡(luò)本論文使用開源工具包 L u c e n e實現(xiàn)了高校就業(yè)信蜘蛛抓取相關(guān)的網(wǎng)頁,經(jīng)過一系列的處理以后存入索引庫息平臺。通過使用垂直搜索技
術(shù)實現(xiàn)了對大學(xué)生就業(yè)信息以供以后的查詢使用。 專業(yè)化、高精度的深入檢索,避免了通用搜索引擎寬泛的為了保證檢索精度,對抓取網(wǎng)頁的 HI T S算法進(jìn)行了 缺陷,給大學(xué)生就業(yè)提供了一個專業(yè)對口、信息實時、準(zhǔn)改進(jìn)。描述如下:第一步:初始化,把網(wǎng)頁的 Au t h o r i t y權(quán)值確、全面的搜索工具。 和 Hu b權(quán)值初值都設(shè)為 1:第二步:按照規(guī)則,把所有鏈接的A u t h o r i t y和 Hu b權(quán)值計算出來;第三步:按照下面的 參考文獻(xiàn): [ 1】陳向東.寵物用品垂直搜索引擎研究與設(shè)計【 M】 .西北農(nóng)林科 技大學(xué), 2 0 1 0 .
公式進(jìn)行計算,直到收斂。 A l _∑H j * A u t h o r i t y ( j, i ) J EB ( . 1
【 2】苗海.基于聚類算法的垂直搜索引擎技術(shù)研究,北京信息科技大學(xué)學(xué)報, 2 0 1 3 . 【 3】郭姣.基于 We b GI S的五金產(chǎn)業(yè)信息搜索系統(tǒng)的設(shè)計與實現(xiàn) 【 M】 .山西財經(jīng)大學(xué), 2 0 1 1 .
3 . 2使用如下正則達(dá)式來限制網(wǎng)絡(luò)蜘蛛的爬行范圍: # a c c e p t h o s t s i n . DOM AI NBE ACCE P T . NAM E
4 - h t t p:// ( f a - z 0— 9】 \ . )招聘網(wǎng)站 U R L
【 4】馮效棟.垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用
3 . 3頁面信息分析常見的就業(yè)招聘信息網(wǎng)頁都是通【 M】 .中國海洋大學(xué), 2 0 1 0 . 2 4 2
Word文檔免費(fèi)下載:高校就業(yè)信息平臺的垂直搜索引擎實現(xiàn) (下載1-1頁,共1頁)
本文關(guān)鍵詞:寵物用品垂直搜索引擎研究與設(shè)計,由筆耕文化傳播整理發(fā)布。
本文編號:115470
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/115470.html