網(wǎng)絡(luò)空間的人物信息聚合系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2022-02-26 07:46
伴隨著互聯(lián)網(wǎng)核心技術(shù)的快速升級和持續(xù)增長的網(wǎng)絡(luò)用戶規(guī)模,網(wǎng)絡(luò)空間中存在著大量的數(shù)據(jù)信息。這些信息涉及到社會生活的各個方面,但人作為所有社會活動的參與者,不難得出人物信息在互聯(lián)網(wǎng)信息中的所占比例以及重要程度。人們希望從網(wǎng)絡(luò)空間中獲得特定人物信息,但是面對龐大的網(wǎng)絡(luò)信息量,用戶檢索信息的難度大大增加。因此設(shè)計一個系統(tǒng),從網(wǎng)絡(luò)空間中爬取用戶可能關(guān)注的信息,對這些信息進(jìn)行聚合并生成不同人物實體的聚合結(jié)果,正確、迅速、整體地將用戶真正關(guān)心的信息展示給他們。本論文根據(jù)用戶實際需要對人物信息聚合系統(tǒng)的功能和非功能需求進(jìn)行分析,對系統(tǒng)體系結(jié)構(gòu)和子模塊功能進(jìn)行設(shè)計,深入研究網(wǎng)絡(luò)人物信息聚合的實際技術(shù)解決方法,實現(xiàn)了一個網(wǎng)絡(luò)空間的人物信息聚合系統(tǒng),具體完成工作如下:結(jié)合搜索引擎設(shè)計多線程爬蟲對用戶關(guān)注的人物信息網(wǎng)址進(jìn)行采集,通過基于網(wǎng)頁結(jié)構(gòu)和統(tǒng)計特征的正文抽取方法構(gòu)建同名人物的網(wǎng)頁信息庫。利用詞袋模型、TF-IDF算法結(jié)合N元模型提取人物網(wǎng)頁的不同特征信息,通過使用向量空間模型對每個網(wǎng)頁信息文本構(gòu)建文本特征向量。對比分析文本聚類中的相關(guān)聚類方法,評估近鄰傳播算法和凝聚層次聚類算法在網(wǎng)頁人物信息文本中的聚類...
【文章來源】:北京郵電大學(xué)北京市211工程院校教育部直屬院校
【文章頁數(shù)】:90 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?HTML網(wǎng)頁的DOM樹表示形式??CSS選擇器就是基于DOM樹的特征進(jìn)行網(wǎng)頁抽取的,選擇器會通過匹配樹??中的標(biāo)記和屬性來解釋網(wǎng)頁內(nèi)容應(yīng)屬于標(biāo)記的哪個部分,元素取決于它們在文檔??
于聚合結(jié)果,需要以可視化的形式展示,用戶可以通過交互查看自己關(guān)注的內(nèi)容,??如果對于聚合結(jié)果有誤的話,用戶能以簡潔地操作對其修改,對人物信息庫進(jìn)行??正確地管理。下面具體對系統(tǒng)功能需求進(jìn)行闡述(如用例圖3-1所示):??(1)
于聚合結(jié)果,需要以可視化的形式展示,用戶可以通過交互查看自己關(guān)注的內(nèi)容,??如果對于聚合結(jié)果有誤的話,用戶能以簡潔地操作對其修改,對人物信息庫進(jìn)行??正確地管理。下面具體對系統(tǒng)功能需求進(jìn)行闡述(如用例圖3-1所示):??(1)
本文編號:3644253
【文章來源】:北京郵電大學(xué)北京市211工程院校教育部直屬院校
【文章頁數(shù)】:90 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?HTML網(wǎng)頁的DOM樹表示形式??CSS選擇器就是基于DOM樹的特征進(jìn)行網(wǎng)頁抽取的,選擇器會通過匹配樹??中的標(biāo)記和屬性來解釋網(wǎng)頁內(nèi)容應(yīng)屬于標(biāo)記的哪個部分,元素取決于它們在文檔??
于聚合結(jié)果,需要以可視化的形式展示,用戶可以通過交互查看自己關(guān)注的內(nèi)容,??如果對于聚合結(jié)果有誤的話,用戶能以簡潔地操作對其修改,對人物信息庫進(jìn)行??正確地管理。下面具體對系統(tǒng)功能需求進(jìn)行闡述(如用例圖3-1所示):??(1)
于聚合結(jié)果,需要以可視化的形式展示,用戶可以通過交互查看自己關(guān)注的內(nèi)容,??如果對于聚合結(jié)果有誤的話,用戶能以簡潔地操作對其修改,對人物信息庫進(jìn)行??正確地管理。下面具體對系統(tǒng)功能需求進(jìn)行闡述(如用例圖3-1所示):??(1)
本文編號:3644253
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3644253.html
最近更新
教材專著