基于鏈接分析的網(wǎng)頁文本核心地名提取方法
發(fā)布時間:2017-10-15 14:33
本文關(guān)鍵詞:基于鏈接分析的網(wǎng)頁文本核心地名提取方法
更多相關(guān)文章: 地名 地名共現(xiàn) 鏈接分析 復(fù)雜網(wǎng)絡(luò) 地理信息檢索
【摘要】:本文圍繞互聯(lián)網(wǎng)中網(wǎng)頁文本蘊含的豐富地理空間信息,抽取網(wǎng)頁文本中蘊含的地名實體,提出了一種地名共現(xiàn)網(wǎng)絡(luò)模型,該模型綜合考慮網(wǎng)頁中地名的頻次信息,表達(dá)網(wǎng)頁文本中地名的共現(xiàn)及聯(lián)系傳遞特征。在此基礎(chǔ)上,提出一種基于鏈接分析的網(wǎng)頁文本核心地名的提取方法,通過PageRank算法計算每個地名在共現(xiàn)網(wǎng)絡(luò)中的鏈接權(quán)重,對網(wǎng)頁文本構(gòu)建的共現(xiàn)地名網(wǎng)絡(luò)進(jìn)行核心地名的提取,從而在龐大的網(wǎng)絡(luò)資源中發(fā)現(xiàn)具有顯著的焦點特征或?qū)Ш綐屑~特征的重要地名。最后,采用人民日報與新浪新聞體育版2份語料進(jìn)行實驗驗證,證明了該方法的有效性。
【作者單位】: 北京大學(xué)遙感與地理信息系統(tǒng)研究所;
【關(guān)鍵詞】: 地名 地名共現(xiàn) 鏈接分析 復(fù)雜網(wǎng)絡(luò) 地理信息檢索
【基金】:國家自然科學(xué)基金項目(41271385)
【分類號】:P209;P208
【正文快照】: 1引言現(xiàn)出隨空間距離增大而呈現(xiàn)出冪律衰減的特點。地名共同出現(xiàn)同一網(wǎng)頁文本中,它們針對這一文本隨著互聯(lián)網(wǎng)在人們?nèi)粘I钪械钠占芭c應(yīng)用,內(nèi)容或主題存在相互關(guān)聯(lián)性,當(dāng)相同的地名成對地人類逐漸步入了大數(shù)據(jù)信息時代。作為現(xiàn)代社會出現(xiàn)在大量的共同話題網(wǎng)頁文本集合中,可以,
本文編號:1037654
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/1037654.html
最近更新
教材專著