天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向企業(yè)創(chuàng)新的搜索引擎研究與應(yīng)用

發(fā)布時間:2020-09-15 15:20
   科技文獻等資源在學(xué)術(shù)研究、技術(shù)研發(fā)中起著非常重要的作用,隨著互聯(lián)網(wǎng)搜索引擎的發(fā)展,文獻檢索變得越來越便捷。但是海量的科技文獻資源包含著很多隱含知識和信息,只有對其深入挖掘和處理,才能滿足特定行業(yè)和領(lǐng)域的需求。中小企業(yè)在創(chuàng)新發(fā)展過程中對專業(yè)人才和科技文獻資源的智能搜索需求非常大,但是現(xiàn)有的很多科技搜索引擎對科技資源的知識挖掘有限,搜索效果不夠理想,無法滿足企業(yè)的搜索需求。因此本文從優(yōu)化科技資源全文搜索算法和提高特定領(lǐng)域人才搜索效果出發(fā),對其進行相關(guān)研究,提出了基于文檔評分模型和相關(guān)度的科技資源搜索排序算法,用于提高科技文獻資源全文搜索效果;以及提出了一種領(lǐng)域人才搜索方法,幫助企業(yè)高效尋找特定領(lǐng)域內(nèi)的優(yōu)秀專家人才。本文的主要研究工作如下:(1)科技資源大數(shù)據(jù)的采集和預(yù)處理。使用分布式網(wǎng)絡(luò)爬蟲技術(shù)采集互聯(lián)網(wǎng)上公開的科技文獻資源和專家人才信息,對爬取的原始數(shù)據(jù)進行清洗和預(yù)處理,使之成為可以進行操作和索引的結(jié)構(gòu)化數(shù)據(jù)庫。(2)研究提出一種基于文檔評分模型和相關(guān)度的科技資源搜索排序算法。該算法分別針對學(xué)術(shù)論文、專利、科研項目這些科技資源文檔,根據(jù)其數(shù)據(jù)特征構(gòu)建相應(yīng)的文檔評分模型,并且結(jié)合搜索相關(guān)度計算綜合評分,對搜索結(jié)果進行排序。實驗表明,該算法提高了搜索效果,能較好地滿足企業(yè)的搜索需求。(3)研究提出一種根據(jù)領(lǐng)域搜索人才的方法。該方法根據(jù)領(lǐng)域關(guān)鍵詞和分詞匹配方法對海量科技資源文檔進行智能標注,同時完成文檔對應(yīng)人才的領(lǐng)域歸屬標注;提出一種人才領(lǐng)域?qū)I(yè)能力模型,用于結(jié)合統(tǒng)計等方法估算人才在各個領(lǐng)域內(nèi)的能力價值評分;通過離線計算完成領(lǐng)域人才庫的構(gòu)建,實現(xiàn)領(lǐng)域人才搜索的功能。實驗表明,該方法通過大數(shù)據(jù)計算能智能地完成人才所屬領(lǐng)域的評分排序,達到較好的領(lǐng)域人才搜索效果;谏鲜鲅芯砍晒,開發(fā)了面向企業(yè)創(chuàng)新的搜索引擎并進行了實際應(yīng)用,有效解決企業(yè)創(chuàng)新過程中搜索匹配技術(shù)人才和科技文獻資源的問題。
【學(xué)位單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.3
【部分圖文】:

領(lǐng)域關(guān)系,科技資源,作者,專業(yè)能力


圖 4.1 科技資源與其作者、領(lǐng)域關(guān)系圖才領(lǐng)域?qū)I(yè)能力模型小節(jié)只是提供了人才領(lǐng)域大致歸屬的方法,但是沒有根據(jù)人才所源信息對其領(lǐng)域?qū)I(yè)能力進行評估,因而不能有效滿足根據(jù)領(lǐng)域搜精準化需求。因此本節(jié)將提出一種人才領(lǐng)域?qū)I(yè)能力模型,用于衡領(lǐng)域內(nèi)的能力水平和排名情況。

二維空間,科技資源,人才,文檔


33圖 4.1 科技資源與其作者、領(lǐng)域關(guān)系圖4.2.3 人才領(lǐng)域?qū)I(yè)能力模型上一小節(jié)只是提供了人才領(lǐng)域大致歸屬的方法,但是沒有根據(jù)人才所對應(yīng)的科技資源信息對其領(lǐng)域?qū)I(yè)能力進行評估,因而不能有效滿足根據(jù)領(lǐng)域搜索匹配人才的精準化需求。因此本節(jié)將提出一種人才領(lǐng)域?qū)I(yè)能力模型,用于衡量人才在相應(yīng)領(lǐng)域內(nèi)的能力水平和排名情況。4.2.3.1 成果質(zhì)量評分要衡量人才的能力水平,首先需要衡量該人才所取得的科研成果的質(zhì)量和水平,所以我們需要給所有科技文獻資源進行計算打分。在本文 3.4 章節(jié)中,我們已經(jīng)就文檔的評價體系進行了研究,考慮時間因子、質(zhì)量因子和反饋因子來構(gòu)建文檔評分模型。而在此處,我們將對僅僅使用文檔評分模型中的質(zhì)量因子來衡量某一科技資源的價值,這是因為 3.4 章中的文檔評分模型主要用于對于科技資源搜索結(jié)果的排序優(yōu)化,在搜索引擎中,搜索出來的結(jié)果對于搜索者有著現(xiàn)實的參考價值,因此需要該成果時間上較新(考慮時間因子,防止過時),同時得到了更多的認可(考慮反饋因子)。而此處僅僅需要衡量科技資源自身的價值,所以只需要考慮科技資源的質(zhì)量因子。因為科技文獻資源分為學(xué)術(shù)論文、專利和科研項目三部分,所以我們以 、 和 來表示不同類型文獻資源的分值,表達式分別如下:= ( + 10) ( ) (4.1)= ( ) (4.2)= ( ) ( ) (4.3)上述三個公式在 3.4.1 小節(jié)文檔評分模型中已經(jīng)介紹過,此處再簡單復(fù)述一遍。式(4.1)中 為論文被引用次數(shù),被引用次數(shù)越多,說明該篇論文質(zhì)量越高,則該成果的總分值越高。 為調(diào)節(jié)因子

搜索引擎,主界面,創(chuàng)智


5.3 實例展示上述介紹的面向企業(yè)創(chuàng)新的搜索引擎展示如下。圖 5.2 是搜索引擎的主界面,該搜索引擎作為“佐創(chuàng)智推”平臺上的智能搜索功能使用!白魟(chuàng)智推”平臺是一個科技人才搜索與推薦平臺,該平臺為浙江省重點研發(fā)計劃項目,由作者所在實驗室?guī)熒餐_發(fā),主要服務(wù)于企業(yè)用戶,目的在于促進成果轉(zhuǎn)化,助力企業(yè)創(chuàng)新。從圖中可以看到該搜索引擎的主要功能,如科技資源全文搜索、領(lǐng)域找人、人名找人和單位找人等。

【參考文獻】

相關(guān)期刊論文 前2條

1 孟凡淇;;信息檢索模型研究綜述[J];信息通信;2013年03期

2 戴耿毅;佘靜濤;;基于雙數(shù)組Trie樹算法的字典改進和實現(xiàn)[J];軟件導(dǎo)刊;2012年07期

相關(guān)碩士學(xué)位論文 前3條

1 鄭威杰;科技文獻作者消歧方法研究[D];杭州電子科技大學(xué);2017年

2 任書琴;健康領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];電子科技大學(xué);2016年

3 苗澤林;基于Lucene的個性化搜索引擎系統(tǒng)[D];中國艦船研究院;2013年



本文編號:2819134

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2819134.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶feb0a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com