在未分類英文文檔集中挖掘相關(guān)詞的方法
本文選題:數(shù)據(jù)挖掘 + 網(wǎng)頁(yè)分類 ; 參考:《計(jì)算機(jī)工程與應(yīng)用》2009年05期
【摘要】:在搜索引擎結(jié)果相關(guān)性判斷、文字語(yǔ)音轉(zhuǎn)換與識(shí)別等領(lǐng)域中,如何準(zhǔn)確地分析單詞之間的搭配關(guān)系是主要研究問(wèn)題之一。利用互聯(lián)網(wǎng)中的海量信息,在對(duì)大量英文網(wǎng)頁(yè)進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,利用單詞的出現(xiàn)頻率和單詞對(duì)的共現(xiàn)頻率歸納總結(jié)出了未分類互聯(lián)網(wǎng)頁(yè)面中單詞相關(guān)程度判定的經(jīng)驗(yàn)性結(jié)論,提出了一種基于文檔集統(tǒng)計(jì)分析的單詞相關(guān)程度排序方法和計(jì)算公式,并根據(jù)該方法實(shí)現(xiàn)了分布式的英文單詞相關(guān)性挖掘系統(tǒng)的原型。
[Abstract]:How to accurately analyze the collocation relationship between words is one of the main research problems in the fields of search engine result correlation judgment, text and speech conversion and recognition. On the basis of the statistical analysis of a large number of English web pages, based on the vast amount of information in the Internet, By using the frequency of word occurrence and co-occurrence of word pairs, the empirical conclusions of determining the correlation degree of words in unclassified Internet pages are summarized. Based on the statistical analysis of document sets, a method of word correlation ranking and its formula are proposed. According to this method, the prototype of a distributed English word correlation mining system is implemented.
【作者單位】: 北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王艷;;數(shù)據(jù)隱私保護(hù)技術(shù)綜述[J];知識(shí)經(jīng)濟(jì);2011年14期
2 杜壘;王飛;;數(shù)據(jù)挖掘在學(xué)生管理中的應(yīng)用[J];科技信息;2011年18期
3 李想;;PLE編碼在關(guān)聯(lián)數(shù)據(jù)挖掘中的應(yīng)用[J];電腦知識(shí)與技術(shù);2011年15期
4 張博;張超偉;;中藥方劑數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理研究[J];電腦知識(shí)與技術(shù);2011年17期
5 杜英;;關(guān)聯(lián)規(guī)則挖掘研究[J];知識(shí)經(jīng)濟(jì);2011年14期
6 李炳燃;張金哲;;數(shù)據(jù)挖掘在設(shè)備故障診斷專家系統(tǒng)知識(shí)獲取中的應(yīng)用[J];科技信息;2011年20期
7 李丹實(shí);;使用SQL Server2005構(gòu)建數(shù)據(jù)挖掘應(yīng)用程序[J];煤炭技術(shù);2011年07期
8 張紅艷;都娟;;關(guān)聯(lián)規(guī)則中Apriori算法的應(yīng)用[J];數(shù)字技術(shù)與應(yīng)用;2011年08期
9 吳旭東;柳炳祥;;聚類分析在高校圖書館管理中的應(yīng)用[J];電腦開發(fā)與應(yīng)用;2011年09期
10 呂鳴劍;;數(shù)據(jù)挖掘在知識(shí)工程中的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2011年23期
相關(guān)會(huì)議論文 前10條
1 郭學(xué)軍;陳曉云;;粗集方法在數(shù)據(jù)挖掘中的應(yīng)用[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
2 徐慧;;基于Web的文獻(xiàn)數(shù)據(jù)挖掘[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
3 孫迎;;醫(yī)院信息的數(shù)據(jù)挖掘與方法研究[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年
4 薛曉東;李海玲;;數(shù)據(jù)挖掘的客戶關(guān)系管理應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——河南省第四屆青年學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2004年
5 薛魯華;張楠;;聚類分析在Web數(shù)據(jù)挖掘中的應(yīng)用[A];北京市第十三次統(tǒng)計(jì)科學(xué)討論會(huì)論文選編[C];2006年
6 朱揚(yáng)勇;黃超;;基于多維模型的交互式數(shù)據(jù)挖掘框架[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
7 周紅梅;薛青;;數(shù)據(jù)挖掘技術(shù)及其在裝備作戰(zhàn)仿真系統(tǒng)中的應(yīng)用[A];第五屆全國(guó)仿真器學(xué)術(shù)會(huì)論文集[C];2004年
8 代廣珍;徐超;;基于Web的數(shù)據(jù)挖掘研究綜述[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
9 曹波偉;薛青;鄭長(zhǎng)偉;于屏崗;陳辰;;基于數(shù)據(jù)挖掘的裝備維修管理智能分析模型研究[A];'2010系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
10 于波;王宏鼎;唐世渭;童云海;;基于數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量分析研究[A];全國(guó)第16屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)重要報(bào)紙文章 前10條
1 吳勇毅;軟件選型:數(shù)據(jù)挖掘是重點(diǎn)[N];中國(guó)冶金報(bào);2009年
2 劉光強(qiáng);靠數(shù)據(jù)挖掘抓住客戶的心[N];中國(guó)計(jì)算機(jī)報(bào);2009年
3 ;數(shù)據(jù)挖掘:如何挖出效益?[N];中國(guó)計(jì)算機(jī)報(bào);2004年
4 ;數(shù)據(jù)挖掘流程[N];人民郵電;2001年
5 趙紀(jì)元;數(shù)據(jù)挖掘在CRM中的應(yīng)用[N];人民郵電;2001年
6 本報(bào)特約撰稿 許麗萍;數(shù)據(jù)挖掘:軟件應(yīng)用的新境界[N];計(jì)算機(jī)世界;2009年
7 北京聯(lián)通寬帶業(yè)務(wù)中心 楊雪艷;數(shù)據(jù)挖掘成挽留客戶利器[N];通信產(chǎn)業(yè)報(bào);2009年
8 本報(bào)記者 吳玉征;中國(guó)數(shù)據(jù)挖掘市場(chǎng)被重視[N];計(jì)算機(jī)世界;2010年
9 張立明;數(shù)據(jù)挖掘之道[N];網(wǎng)絡(luò)世界;2003年
10 □中國(guó)電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
相關(guān)博士學(xué)位論文 前10條
1 劉革平;基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)評(píng)價(jià)研究[D];西南師范大學(xué);2005年
2 王濤;挖掘序列模式和結(jié)構(gòu)化模式的精簡(jiǎn)集[D];華中科技大學(xué);2006年
3 郭斯羽;動(dòng)態(tài)數(shù)據(jù)中的數(shù)據(jù)挖掘研究[D];浙江大學(xué);2002年
4 佘春東;數(shù)據(jù)挖掘算法分析及其并行模式研究[D];電子科技大學(xué);2004年
5 宋杰;生物信息數(shù)據(jù)挖掘中的若干方法及其應(yīng)用研究[D];大連理工大學(xué);2005年
6 林曉勇;頻繁模式挖掘和動(dòng)態(tài)維護(hù)的理論與方法研究[D];北京化工大學(xué);2008年
7 賴邦傳;數(shù)據(jù)驅(qū)動(dòng)的綜合智能決策支持系統(tǒng)及其生成器的研究與開發(fā)[D];中南大學(xué);2005年
8 王曙燕;醫(yī)學(xué)圖像智能分類算法研究[D];西北大學(xué);2006年
9 金陽(yáng);基于概念格模型的序列模式挖掘算法研究[D];吉林大學(xué);2007年
10 許兆新;基于元知識(shí)的數(shù)據(jù)挖掘系統(tǒng)研究[D];哈爾濱工程大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 李坤然;數(shù)據(jù)挖掘在股市趨勢(shì)預(yù)測(cè)的應(yīng)用研究[D];中南林業(yè)科技大學(xué);2008年
2 鄭宏;數(shù)據(jù)挖掘可視化技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
3 杜金剛;數(shù)據(jù)挖掘在電信客戶關(guān)系管理及數(shù)據(jù)業(yè)務(wù)營(yíng)銷中的應(yīng)用[D];北京郵電大學(xué);2010年
4 徐路;基于決策樹的數(shù)據(jù)挖掘算法的研究及其在實(shí)際中的應(yīng)用[D];電子科技大學(xué);2009年
5 梁小鷗;數(shù)據(jù)挖掘在高職教學(xué)管理中的應(yīng)用[D];華南理工大學(xué);2011年
6 王浩;數(shù)據(jù)挖掘在上海市職業(yè)能力考試院招錄考試優(yōu)化管理項(xiàng)目中的運(yùn)用研究[D];華東理工大學(xué);2012年
7 黎衛(wèi)英;數(shù)據(jù)挖掘在中職幼教課程改革中的應(yīng)用[D];福建師范大學(xué);2009年
8 張煜輝;數(shù)據(jù)挖掘和SPC在生產(chǎn)過(guò)程質(zhì)量控制中應(yīng)用研究[D];上海交通大學(xué);2009年
9 劉華敏;數(shù)據(jù)挖掘在高職院校學(xué)生成績(jī)分析中的應(yīng)用[D];安徽大學(xué);2011年
10 李森;基于數(shù)據(jù)挖掘的旅游電子商務(wù)系統(tǒng)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
,本文編號(hào):1865700
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1865700.html