基于分布式的新聞爬取和推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-07-31 05:36
基于分布式的新聞爬取和推薦系統(tǒng)是山東省科學(xué)院內(nèi)部立項(xiàng)“智慧科學(xué)院”的重要組成部分之一。智慧科學(xué)院旨在利用先進(jìn)的大數(shù)據(jù)處理技術(shù),研發(fā)各類熱點(diǎn)技術(shù)、促進(jìn)各團(tuán)隊(duì)/院所的科研合作,提高人才篩選與綜合評(píng)價(jià)等,作為科研助手、合作參謀、人才獵手,全面助力科學(xué)院的科研、服務(wù)和人才工作,促進(jìn)科學(xué)院精細(xì)化管理和業(yè)務(wù)升級(jí)。隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展和市場(chǎng)競(jìng)爭(zhēng)的加劇,國內(nèi)外市場(chǎng)上的新聞推薦類應(yīng)用也越來越成熟和穩(wěn)定。但是通用的新聞閱讀和推薦應(yīng)用,新聞來源是由新聞應(yīng)用所屬的企業(yè)負(fù)責(zé)的,用戶無法對(duì)新聞來源提出進(jìn)一步的定制需求,只能被動(dòng)接受。本文所做的系統(tǒng)支持用戶對(duì)感興趣的新聞頁面進(jìn)行個(gè)性化定制,系統(tǒng)后臺(tái)對(duì)用戶的定制需求進(jìn)行處理,將用戶感興趣的新聞來源添加到爬蟲的數(shù)據(jù)源中,使用戶更容易、更精確的獲取感興趣的新聞信息。同時(shí)本系統(tǒng)也為用戶提供了信息檢索服務(wù),個(gè)性化推薦服務(wù),讓用戶獲取信息的難度進(jìn)一步降低。本文的主要工作是根據(jù)用戶對(duì)特定網(wǎng)站的需求定義(包括地址、關(guān)鍵字、推送時(shí)間等),利用網(wǎng)絡(luò)爬蟲抓取信息,為山東省科學(xué)院各級(jí)領(lǐng)導(dǎo)、業(yè)務(wù)科室、科研人員以網(wǎng)頁、郵件等方式提供精準(zhǔn)的信息檢索和推送服務(wù)。依托大數(shù)據(jù)平臺(tái)技術(shù),搭建用戶行...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1系統(tǒng)總體用例圖??本系統(tǒng)有兩種類型的用戶,普通用戶和管理員用戶
基于內(nèi)容的推薦算法(Content-based?Recommendations)根據(jù)用戶喜歡喜歡的產(chǎn)品(本文中產(chǎn)品即為新聞),為用戶推薦與他們歷史喜歡的產(chǎn)品類產(chǎn)品;趦(nèi)容的推薦算法一般包括如下三個(gè)步驟:??產(chǎn)品的表示(Item?Representation):即如何表示每一條新聞。本文使用空間模型表示新聞,即每條新聞都用一個(gè)向量表示。具體來說本文使用主題LDA算法抽取新聞的主題分布向量,作為新聞的特征表示。??用戶偏好學(xué)習(xí)(Profile?Learning):根據(jù)用戶的歷史數(shù)據(jù)學(xué)習(xí)用戶對(duì)產(chǎn)品趣,表示用戶特征。本文主要收集用戶的新聞瀏覽記錄對(duì)用戶進(jìn)行建模。??推薦生成(Recommendation?Generation):根據(jù)前兩步得到的新聞特征和特征,設(shè)計(jì)推薦策略,為用戶推薦新聞。??為了進(jìn)行產(chǎn)品表示,獲得新聞特征,需要依賴分布式爬蟲軟件建立新聞?wù)Z。為了對(duì)用戶興趣建模,需要構(gòu)建用戶行為日志收集模塊,收集用戶的行為。個(gè)性化推薦功能的簡(jiǎn)要流程圖如圖2-2所示:??搏
?山東大學(xué)碩士學(xué)位論文???2.3.2新聞檢索功能??新聞檢索功能是本系統(tǒng)的另一個(gè)重要功能。新聞?lì)悜?yīng)用一般都包含新聞檢索??功能,以滿足用戶的搜索需求,提高用戶體驗(yàn)。本系統(tǒng)使用開源搜索引擎軟件Solr??提供檢索功能,檢索功能的用例圖如圖2-3所示:??
【參考文獻(xiàn)】:
期刊論文
[1]基于文本密度模型的Web正文抽取[J]. 朱澤德,李淼,張健,陳雷,曾新華. 模式識(shí)別與人工智能. 2013(07)
本文編號(hào):3312875
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1系統(tǒng)總體用例圖??本系統(tǒng)有兩種類型的用戶,普通用戶和管理員用戶
基于內(nèi)容的推薦算法(Content-based?Recommendations)根據(jù)用戶喜歡喜歡的產(chǎn)品(本文中產(chǎn)品即為新聞),為用戶推薦與他們歷史喜歡的產(chǎn)品類產(chǎn)品;趦(nèi)容的推薦算法一般包括如下三個(gè)步驟:??產(chǎn)品的表示(Item?Representation):即如何表示每一條新聞。本文使用空間模型表示新聞,即每條新聞都用一個(gè)向量表示。具體來說本文使用主題LDA算法抽取新聞的主題分布向量,作為新聞的特征表示。??用戶偏好學(xué)習(xí)(Profile?Learning):根據(jù)用戶的歷史數(shù)據(jù)學(xué)習(xí)用戶對(duì)產(chǎn)品趣,表示用戶特征。本文主要收集用戶的新聞瀏覽記錄對(duì)用戶進(jìn)行建模。??推薦生成(Recommendation?Generation):根據(jù)前兩步得到的新聞特征和特征,設(shè)計(jì)推薦策略,為用戶推薦新聞。??為了進(jìn)行產(chǎn)品表示,獲得新聞特征,需要依賴分布式爬蟲軟件建立新聞?wù)Z。為了對(duì)用戶興趣建模,需要構(gòu)建用戶行為日志收集模塊,收集用戶的行為。個(gè)性化推薦功能的簡(jiǎn)要流程圖如圖2-2所示:??搏
?山東大學(xué)碩士學(xué)位論文???2.3.2新聞檢索功能??新聞檢索功能是本系統(tǒng)的另一個(gè)重要功能。新聞?lì)悜?yīng)用一般都包含新聞檢索??功能,以滿足用戶的搜索需求,提高用戶體驗(yàn)。本系統(tǒng)使用開源搜索引擎軟件Solr??提供檢索功能,檢索功能的用例圖如圖2-3所示:??
【參考文獻(xiàn)】:
期刊論文
[1]基于文本密度模型的Web正文抽取[J]. 朱澤德,李淼,張健,陳雷,曾新華. 模式識(shí)別與人工智能. 2013(07)
本文編號(hào):3312875
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3312875.html
最近更新
教材專著