天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

語義網圖中文本相似度方法的應用研究

發(fā)布時間:2017-05-22 08:55

  本文關鍵詞:語義網圖中文本相似度方法的應用研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著大數據時代的到來和教育水平的不斷提高,重復文檔的數量也正與日俱增,文檔和論文相似度查重也越發(fā)迫在眉睫。文檔的相似度計量主要是通過進行轉換,將其轉化成距離、角度或彎曲度等來度量,從而實現較好的計量效果。余弦相似度,一種計量文檔相似度的常用方法,能較好的反應文檔的相似程度。但其本身對數量和比重不敏感,這給相似度度量帶來了不少麻煩。據2008年不完全統計,在Intern et上有大約40%的網絡資源跟其他的網絡資源是重復的。重復資源或者近似重復的資源增加了搜索引擎的索引數量,并且對檢索結果也產生了不小的影響。近似重復檢測問題在信息檢索領域已經是家喻戶曉了。在這里希望改進相似度判別算法以及改進爬蟲來實現避免對重復資源的爬取。網絡資源和網絡圖表在一定程度上比純文本信息要復雜的多,在一個文本文件中,語句順序可以被轉換成含義,而網絡資源不可以被轉換成含義,最終,相似語義網絡資源將擁有復雜的不同語句順序。同樣的,在基于文本的近似重復檢測中,內容的含義查重并不是太大的問題,但是語義網絡文檔,這個問題很突出,假設有兩個不同的語義網絡文檔,如果計算它們的演繹閉包很可能是一樣的。在語義網絡圖片中,除了語句順序之外,同時需要驗證空節(jié)點?展(jié)點是不具有URI的匿名資源,并且沒有文字含義。1998年提出萬維網的互聯網專家蒂姆·伯納斯-李提出了語義網絡的概念,它現在已經發(fā)展成為自然語言理解和認知科學領域研究的一個概念,用它來表達那些復雜概念及其它們之間的關系。語義網的表示形式是一個有向圖,其中點代表概念,邊代表這些概念之間的語義關系,這樣來形成一個由節(jié)點和弧組成的語義網絡描述圖。蒂姆·伯納斯-李提出了另一個關于語義網的概念,那就是我們現在家喻戶曉的萬維網(World Wide Web),語義網絡只是其相關的基礎理論。語義網相比于傳統的互聯網具有較好的語義判別和交互性。兩個語義網絡文檔或者網絡語圖是相似的,描述它們的不同之處在檢索、更新、版本控制等方面有很大的作用。在本文中,描述了一些列的文本相似度度量方法,用來表達它們之間的關系,并且計量它們的不同。本研究通過對語義網圖進行標準化處理、簡化處理、相似度度量以及分類等相關的操作來進行語義網圖相似度的判別。同時,為了區(qū)分兩個語義網圖之間的相似度,定義了一個變量來表示它們之間的版本關系。這個變量通過對其元組進行添加和刪除來保持兩者的平衡,并且此變量是通過判斷RDF圖表序列化,而不僅僅根據文檔的URI來判定兩者之間的相似度。最后,通過實驗驗證了提出了語義網相似度度量具有較好的實驗效果。但是由于時間比較倉促所以難免存在其他的一些問題,像穩(wěn)定性等有待我們后期繼續(xù)完善。
【關鍵詞】:相似度 余弦相似度 語義網絡 語義網圖 RDF
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要8-10
  • Abstract10-12
  • 第一章 緒論12-18
  • 1.1 研究背景12-14
  • 1.2 國內外研究現狀14-15
  • 1.3 本文的主要工作內容15-17
  • 1.4 論文的組織結構17-18
  • 第二章 文本相似度及本體論18-28
  • 2.1 文本相似度算法18-23
  • 2.2 本體論和概念相似度23-25
  • 2.3 本體版本25
  • 2.4 語義網絡文檔的變化計算25-28
  • 第三章 語義網絡圖相似度和變量增量28-39
  • 3.1 問題的提出及處理28-35
  • 3.1.1 標準表示29-32
  • 3.1.2 簡化形式32-34
  • 3.1.3 相似度度量34
  • 3.1.4 分類34-35
  • 3.2 計算兩個版本之間的向量δ35-39
  • 3.2.1 原始變量δ35-36
  • 3.2.2 演繹閉包的向量δ36
  • 3.2.3 本體論的類類別變量δ36-38
  • 3.2.4 檢測類重命名的啟發(fā)式方法38-39
  • 第四章 實驗及結果39-45
  • 4.1 實驗39
  • 4.2 成對探測相似度39-44
  • 4.2.1 檢測文字內容的區(qū)別40-41
  • 4.2.2 檢測基本URI的區(qū)別41-43
  • 4.2.3 檢測版本關系43-44
  • 4.3 變量δ的正確性44-45
  • 第五章 總結與展望45-47
  • 5.1 總結45
  • 5.2 展望45-47
  • 5.2.1 穩(wěn)定性45
  • 5.2.2 變量δ準確性45-46
  • 5.2.3 預測兩個版本之間的變化方向46-47
  • 參考文獻47-51
  • 致謝51-52
  • 攻讀學位期間發(fā)表的學術論文列表52-53
  • 附件53

【相似文獻】

中國期刊全文數據庫 前10條

1 孫運傳,別榮芳;語義網絡求精方法研究[J];北京師范大學學報(自然科學版);2005年01期

2 李潔;丁穎;;語義網、語義網格和語義網絡[J];計算機與現代化;2007年07期

3 熊驍;;語義網的初步探討[J];硅谷;2009年24期

4 安波;;語義網的研究與應用[J];電腦編程技巧與維護;2010年14期

5 張昕 ,孫建新;科學研究與語義網[J];國外科技動態(tài);2003年03期

6 王亞章;語義網,下一代互聯網的神經[J];中國計算機用戶;2003年07期

7 韋華;;語義網絡助推互聯網[J];微電腦世界;2006年08期

8 陳衛(wèi)紅;朱佳鳴;;語義網的研究及其在生物醫(yī)學中的應用[J];醫(yī)學信息;2007年07期

9 張東偉;趙津津;李鵬;;基于語義網的知識管理研究[J];計算機與信息技術;2008年03期

10 趙宏偉;張海龍;臧雪柏;;表象式語義網絡研究[J];北京工業(yè)大學學報;2009年08期

中國重要會議論文全文數據庫 前2條

1 唐璐;張永光;付雪;;語義網絡的結構:我們怎樣學習語義知識(英文)[A];全國語域web與本體能研討會論文集[C];2006年

2 張旭潔;夏幼明;劉冠曉;宋亞林;;基于規(guī)則方法的漢語到語義網絡語言的轉換研究[A];第三屆學生計算語言學研討會論文集[C];2006年

中國重要報紙全文數據庫 前2條

1 北京 高守;互聯網之父鐘情語義網[N];電腦報;2002年

2 華新;你要的是哪個蘋果?語義智能搜索時代來臨[N];經理日報;2007年

中國博士學位論文全文數據庫 前2條

1 代印唐;基于語義網絡的知識協作關鍵技術研究[D];復旦大學;2009年

2 史斌;面向語義網的語義搜索引擎關鍵技術研究[D];北京工業(yè)大學;2010年

中國碩士學位論文全文數據庫 前10條

1 金愛明;語義網絡對初中英語詞匯教學的影響研究[D];沈陽師范大學;2014年

2 李明;語義網圖中文本相似度方法的應用研究[D];山東大學;2015年

3 熊逵;基于SPAROL的語義網數據查詢系統的設計與實現[D];浙江大學;2015年

4 任彬;一種特定領域的語義網模型[D];吉林大學;2004年

5 康樹鵬;面向語義網的自然語言查詢接口研究[D];哈爾濱工業(yè)大學;2014年

6 張敏;基于語義網的學術論文檢索的研究與實現[D];沈陽工業(yè)大學;2011年

7 杜鵑;面向長春市地理信息系統的語義網模型研究[D];吉林大學;2005年

8 馬曉峰;基于語義網絡的病理診斷案例表示及不確定性研究[D];合肥工業(yè)大學;2006年

9 張海龍;表象式語義網絡研究[D];吉林大學;2007年

10 張紅;語義網中的本體推理及其應用研究[D];吉林大學;2004年


  本文關鍵詞:語義網圖中文本相似度方法的應用研究,由筆耕文化傳播整理發(fā)布。



本文編號:385181

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/385181.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶a2627***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com