天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于主題搜索引擎的文本聚類分類研究與實現(xiàn)

發(fā)布時間:2017-07-01 08:19

  本文關鍵詞:基于主題搜索引擎的文本聚類分類研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:伴隨互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)時代地來臨,觸手可及的信息出現(xiàn)內(nèi)容形式的多元化和數(shù)量上急劇增長化的特點。出現(xiàn)了長度較短、內(nèi)容精煉的各種類型的短文本,如標題和微博等。同時在如今信息過載的時代,通用性的搜索引擎已經(jīng)不能很好地滿足用戶對信息檢索的針對性和準確性請求,越來越多面向主題的、垂直化的主題搜索引擎應運而生。無論是綜合性的搜索引擎還是針對性的主題搜索引擎,文本挖掘都在其中扮演著重要的角色。如果在主題搜索中能很好地對這些隨機性強的短文本形式的文本進行聚類分類將起到事半功倍的效果。 針對上述情況,本文的主要工作和成果如下: 第一,針對目前標題文本分類常用方法的一些問題,如需要完整全面的領域詞表庫支撐、或需要額外收集整理一些輔助的訓練語料或者需要進行復雜的句子語義分析等,提出了一種基于LDA模型的無監(jiān)督特征選擇的分類算法。該算法克服了標題文本分類的上述問題,并且具有較好的分類效果和較強的可操作性。 第二,針對文本聚類算法中K均值算法對初值的選擇比較敏感,隨機選擇的不同初始種子能致使最終收斂聚類結果差異較大的問題,提出了一種優(yōu)化初始質(zhì)心的K均值聚類算法。該算法建立在第一方面提出的特征選擇方法后的良好特征矩陣上。在語料庫上的實驗表明,算法用比較少的迭代次數(shù)最終收斂到較為準確穩(wěn)定的聚類結果上。 第三,設計實現(xiàn)了一個招標主題搜索引擎系統(tǒng),把上述提出的文本分類聚類算法應用到系統(tǒng)的分類模塊中。該系統(tǒng)的主要功能是從收集好的招標種子站點網(wǎng)站中獲取發(fā)布的招標或中標網(wǎng)頁信息,然后從這些網(wǎng)頁中抽取所要信息,如招標時間,招標標題,招標聯(lián)系人,招標正文等。最后把抽取到的信息按照一定標準如行業(yè)或地域進行分門別類。
【關鍵詞】:標題分類 特征選擇 K均值聚類 主題搜索
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-9
  • 第一章 緒論9-13
  • 1.1 研究背景和意義9-10
  • 1.2 國內(nèi)外現(xiàn)狀10-11
  • 1.3 本文的主要工作11-12
  • 1.4 本文的組織結構12-13
  • 第二章 文本分類聚類相關技術研究分析13-24
  • 2.1 文本表示模型13-16
  • 2.1.1 布爾模型13-14
  • 2.1.2 向量空間模型14
  • 2.1.3 概率模型14-15
  • 2.1.4 文中采用的模型15-16
  • 2.2 文本特征選擇16-18
  • 2.2.1 文檔頻率(DF)16
  • 2.2.2 信息增益(IG)16-17
  • 2.2.3 互信息(MI)17
  • 2.2.5 單詞權(TS)17-18
  • 2.2.6 幾個特征選擇對比18
  • 2.3 分類算法18-21
  • 2.3.1 決策樹18-19
  • 2.3.2 樸素貝葉斯19
  • 2.3.3 支持向量機19-20
  • 2.3.4 文中采用的分類算法20-21
  • 2.4 聚類算法21-22
  • 2.4.1 K均值算法21
  • 2.4.2 層次聚類21-22
  • 2.4.3 基于密度的DBSCAN算法22
  • 2.4.4 文中采用的聚類算法22
  • 2.5 本章小結22-24
  • 第三章 主題搜索引擎的文本分類24-35
  • 3.1 基于招標主題搜索引擎的標題文本特點24-25
  • 3.2 基于LDA模型的分類算法25-30
  • 3.2.1 LDA模型26-27
  • 3.2.2 抽取算法27-28
  • 3.2.3 改進的特征選擇28-30
  • 3.3 主題搜索引擎的標題文本分類實驗30-34
  • 3.3.1 實驗步驟30-31
  • 3.3.2 評價標準31-32
  • 3.3.3 實驗結果與分析32-34
  • 3.4 本章小結34-35
  • 第四章 主題搜索引擎的文本聚類35-46
  • 4.1 k均值算法的局限性35-37
  • 4.2 改進的k均值聚類算法37-41
  • 4.2.1 優(yōu)質(zhì)初始質(zhì)心的特點38-39
  • 4.2.2 在特征矩陣上選取初始質(zhì)心39-41
  • 4.3 招標主題搜索引擎的文本聚類實驗41-45
  • 4.3.1 評價標準42
  • 4.3.2 實驗結果與分析42-45
  • 4.4 本章小結45-46
  • 第五章 招標領域主題搜索引擎系統(tǒng)的實現(xiàn)46-57
  • 5.1 系統(tǒng)整體介紹46-48
  • 5.2 重點模塊介紹48-53
  • 5.2.1 行業(yè)分類模塊48-49
  • 5.2.2 地域分類模塊49-50
  • 5.2.3 正文屬性信息抽取模塊50-53
  • 5.3 系統(tǒng)運行結果展示53-56
  • 5.4 本章小結56-57
  • 第六章 總結和展望57-59
  • 6.1 全文總結57-58
  • 6.2 不足和展望58-59
  • 參考文獻59-63
  • 致謝63-64
  • 攻讀學位期間發(fā)表的學術論文目錄64

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前8條

1 齊全;董晶;;基于描述能力的視頻標題分類[J];華南理工大學學報(自然科學版);2011年07期

2 林鴻飛;基于示例的文本標題分類機制[J];計算機研究與發(fā)展;2001年09期

3 劉濤,吳功宜,陳正;一種高效的用于文本聚類的無監(jiān)督特征選擇算法[J];計算機研究與發(fā)展;2005年03期

4 王永恒;賈焰;楊樹強;;海量短語信息文本聚類技術研究[J];計算機工程;2007年14期

5 繆建明;張全;趙金仿;;基于文章標題信息的漢語自動文本分類[J];計算機工程;2008年20期

6 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應最優(yōu)LDA模型選擇方法[J];計算機學報;2008年10期

7 黃永光;劉挺;車萬翔;胡曉光;;面向變異短文本的快速聚類算法[J];中文信息學報;2007年02期

8 ;Short text classification based on strong feature thesaurus[J];Journal of Zhejiang University-Science C(Computers & Electronics);2012年09期


  本文關鍵詞:基于主題搜索引擎的文本聚類分類研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:505203

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/505203.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a8daa***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com