基于GA-KNN分類模型在船期數(shù)據(jù)分析中的研究與應用
本文關鍵詞:基于GA-KNN分類模型在船期數(shù)據(jù)分析中的研究與應用 出處:《電子科技大學》2016年碩士論文 論文類型:學位論文
更多相關文章: 船期數(shù)據(jù) 特征詞選擇 同義詞處理 專業(yè)虛擬搜索引擎 GA-KNN分類模型
【摘要】:當下,互聯(lián)網(wǎng)蓬勃發(fā)展,信息化不斷推進,網(wǎng)絡上充斥著各種文本信息。尤其是在航運領域中,各種船期信息每天都快速增長著,但是這些數(shù)據(jù)目前卻保持著一種“無明”狀態(tài):標準渙散,條塊割據(jù),處理緩慢,目標缺失,然而基于船期數(shù)據(jù)領域的自然語言處理技術(包括文本信息表示技術、同義詞問題處理、特征詞選擇方法、文本檢索技術、文本分類技術、Web信息提取技術等)的研究仍不多見。本文針對以上問題,建立了船期領域中的文本向量空間模型,構建了一個船期領域的虛擬專業(yè)搜索引擎,再與GA-KNN分類模型相結合將初始的網(wǎng)頁集進行分類,已得到船期數(shù)據(jù)信息的網(wǎng)頁集,最后再基于DOM的Web提取技術,采集網(wǎng)頁中的船期數(shù)據(jù)信息。主要內容為:1.基于傳統(tǒng)的文本向量空間模型基礎上,主要研究和分析了特定領域(船期信息領域)下的特征詞選擇、同義詞聚合的改進和應用以及向量空間維度的問題,提出了船期領域中的文本向量空間模型。2.為了獲得承載船期數(shù)據(jù)信息的網(wǎng)頁集,作為最初論文研究對象,構造了一個虛擬的專業(yè)搜索引擎。3.以KNN方法為基礎,結合遺傳算法,提出GA-KNN分類模型對船期文本進行文本分類。即提出一種變換的KNN分類方法,對網(wǎng)頁集進行文本分類;同時,為了降低分類計算復雜度,提高分類準確率,結合GA進行特征選擇。4.運用基于DOM的Web信息提取技術,提取結構化的船期數(shù)據(jù),以便下一步的工作開展。
[Abstract]:On the basis of traditional text vector space model , this paper studies and analyses the text vector space model in the field of ship period , constructs a virtual professional search engine in the field of ship period , and then uses the GA - KNN classification model to classify the original webpage set .
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期
2 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期
3 趙鋼;;從復雜文本中導入數(shù)據(jù)的方法[J];中國審計;2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學;2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡安全技術與應用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機;1997年05期
相關會議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術研究的新進展[A];開創(chuàng)新世紀的通信技術——第七屆全國青年通信學術會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
相關重要報紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
相關博士學位論文 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年
2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學;2014年
3 鄭立洲;短文本信息抽取若干技術研究[D];中國科學技術大學;2016年
4 韓磊;漢語句義結構模型分析及其文本表示方法研究[D];北京理工大學;2016年
5 劉林;面向論壇文本的大學生情緒識別研究[D];華中師范大學;2016年
6 張博宇;基于局部特征的場景文本分析方法研究[D];哈爾濱工業(yè)大學;2015年
7 胡明涵;面向領域的文本分類與挖掘關鍵技術研究[D];東北大學 ;2009年
8 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關鍵問題研究[D];哈爾濱工程大學;2010年
9 尚文倩;文本分類及其相關技術研究[D];北京交通大學;2007年
10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年
相關碩士學位論文 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內蒙古大學;2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學;2015年
3 李少卿;不良文本及其變體信息的檢測過濾技術研究[D];復旦大學;2014年
4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學;2015年
5 鐘文波;搜索引擎中關鍵詞分類方法評估及推薦應用[D];華南理工大學;2015年
6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學;2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術研究[D];重慶理工大學;2015年
8 王s,
本文編號:1429721
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1429721.html