基于最大熵模型的柬英平行網(wǎng)頁獲取
本文關(guān)鍵詞:基于最大熵模型的柬英平行網(wǎng)頁獲取 出處:《計算機(jī)工程》2016年05期 論文類型:期刊論文
更多相關(guān)文章: 最大熵模型 柬埔寨語—英語 平行網(wǎng)頁 平行語料庫 余弦相似性
【摘要】:由于平行網(wǎng)站的異構(gòu)性和復(fù)雜性,如何自動有效獲取雙語平行網(wǎng)頁以及提高平行網(wǎng)頁的質(zhì)量是構(gòu)建語料庫的關(guān)鍵問題。為此,應(yīng)用最大熵模型,將平行網(wǎng)頁的識別問題看作候選網(wǎng)頁對的分類問題,對平行網(wǎng)頁的獲取方法進(jìn)行改進(jìn)。利用基于標(biāo)題余弦相似性的方法或數(shù)據(jù)庫查詢的方法發(fā)現(xiàn)候選平行網(wǎng)頁對。根據(jù)網(wǎng)頁內(nèi)容及候選網(wǎng)頁對間余弦相似度特征和最大熵模型訓(xùn)練的分類器對平行網(wǎng)頁進(jìn)行識別。在特征選取上,提取網(wǎng)頁的篇章結(jié)構(gòu)特征、詞匯化比例特征與頁面元素特征等基本特征,并應(yīng)用TF-IDF算法與余弦相似性提取文檔向量的余弦相似度特征。實驗結(jié)果表明,所提方法可有效提高雙語網(wǎng)站中平行網(wǎng)頁的召回率和準(zhǔn)確率,所獲取平行網(wǎng)頁的準(zhǔn)確率和召回率分別為98%,94%。
[Abstract]:Due to the heterogeneity and complexity of parallel websites, how to automatically obtain parallel pages automatically and improve the quality of parallel pages is a key problem in the construction of corpus. Therefore, the maximum entropy model is applied. The recognition problem of parallel web pages is considered as the classification problem of candidate page pairs. The method of obtaining parallel pages is improved. The candidate parallel page pairs are found by using the method based on title cosine similarity or database query. The features of cosine similarity and the most common features of candidate pages are obtained according to the content of the page and the feature of cosine similarity between candidate web pages. The classifier trained by large entropy model recognizes parallel pages and selects features. The text structure features, lexicalization scale features and page element features of the web page are extracted. The TF-IDF algorithm and cosine similarity are used to extract the cosine similarity of document vectors. The experimental results show that the proposed method can effectively improve the recall rate and accuracy of parallel pages in bilingual websites. The accuracy and recall rate of parallel pages are 98 and 94 respectively.
【作者單位】: 上海師范大學(xué)語言研究所;云南省計算機(jī)技術(shù)應(yīng)用重點實驗室;云南民族大學(xué)東南亞南亞語言文化學(xué)院;昆明理工大學(xué)信息工程與自動化學(xué)院;
【基金】:國家自然科學(xué)基金資助項目“柬埔寨語命名實體識別及漢柬雙語語料庫構(gòu)建方法研究”(61462055) 云南省計算機(jī)技術(shù)應(yīng)用重點實驗室開放基金資助項目“漢柬雙語語料庫構(gòu)建及柬埔寨語詞法分析方法研究”
【分類號】:TP391.1;TP393.092
【正文快照】: 中文引用格式:莫源源,潘麗同,嚴(yán)馨,等.基于最大熵模型的柬英平行網(wǎng)頁獲取[J].計算機(jī)工程,2016,42(5):194-200.英文引用格式:Mo Yuanyuan,Pan Litong,Yan Xin,et al.Khmer-English Parallel Web Page Extraction Based onM aximum Entropy M odel[J].Computer Engineering,2016
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王素格;楊軍玲;張武;;基于最大熵模型與投票法的漢語動詞與動詞搭配識別[J];小型微型計算機(jī)系統(tǒng);2007年07期
2 李濟(jì)洪;王瑞波;王凱華;李國臣;;基于最大熵模型的中文閱讀理解問題回答技術(shù)研究[J];中文信息學(xué)報;2008年06期
3 謝法奎;張全;;基于最大熵模型的語義塊切分[J];計算機(jī)工程與應(yīng)用;2009年26期
4 樊娜;蔡皖東;趙煜;;基于最大熵模型的觀點句主觀關(guān)系提取[J];計算機(jī)工程;2010年02期
5 葛斌;封孝生;譚文堂;肖衛(wèi)東;;基于多層最大熵模型的句子主干分析[J];計算機(jī)科學(xué);2010年12期
6 方明;劉培玉;;基于最大熵模型的評價搭配識別[J];計算機(jī)應(yīng)用研究;2011年10期
7 陸銘;康雨潔;俞能海;;簡約語法規(guī)則和最大熵模型相結(jié)合的混合實體識別[J];小型微型計算機(jī)系統(tǒng);2012年03期
8 董曉凱;莫蘇寧;李博;陸偉;;基于最大熵模型下復(fù)合特征模板的產(chǎn)品屬性挖掘研究[J];蘇州科技學(xué)院學(xué)報(自然科學(xué)版);2012年01期
9 高燕;張維維;張艷紅;謝燕萍;蘇凝;;最大熵模型在最長地點實體識別中的應(yīng)用[J];廣東石油化工學(xué)院學(xué)報;2012年04期
10 余正濤,樊孝忠;基于最大熵模型的漢語問句語義組塊分析[J];計算機(jī)工程;2005年17期
相關(guān)會議論文 前10條
1 趙偉;趙法興;王東海;韓達(dá)奇;;一種基于改進(jìn)的最大熵模型的漢語詞性自動標(biāo)注的新方法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年
2 王素格;張武;李德玉;楊軍玲;彭其偉;;基于最大熵模型的漢語動詞與動詞搭配識別[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 李濟(jì)洪;王凱華;王瑞波;;基于最大熵模型的中文閱讀理解技術(shù)研究[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
4 李軍輝;朱巧明;李培峰;;一個基于最大熵模型的文本分類方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
5 谷波;劉開瑛;;決策樹模型和最大熵模型在文本分類中的比較研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
6 朱江濤;趙麗奎;蔡東風(fēng);;基于最大熵模型的中文姓名識別方法初探[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
7 劉方舟;施勤;陶建華;;基于最大熵模型的多音字消歧[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2007年
8 王凱華;李濟(jì)洪;張國華;王瑞波;;基于最大熵模型的中文閱讀理解問答系統(tǒng)技術(shù)研究[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 游斕;周雅倩;黃萱菁;吳立德;;基于最大熵模型的QA系統(tǒng)置信度評分算法[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
10 陳文亮;朱慕華;朱靖波;姚天順;;基于Bootstrapping的文本分類模型[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
相關(guān)博士學(xué)位論文 前1條
1 孫承杰;基于判別式模型的生物醫(yī)學(xué)文本挖掘相關(guān)問題研究[D];哈爾濱工業(yè)大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 楊振磊;基于最大熵模型的智能提問系統(tǒng)研究[D];天津大學(xué);2008年
2 賈麗潔;基于最大熵模型的分詞技術(shù)研究[D];山東師范大學(xué);2007年
3 付琳;利用非廣延最大熵模型進(jìn)行文本分類[D];天津大學(xué);2009年
4 步;;基于最大熵模型的中文姓名識別研究[D];山東大學(xué);2006年
5 譚文堂;基于統(tǒng)計模型的漢語句子主干分析[D];國防科學(xué)技術(shù)大學(xué);2008年
6 王夢;基于主題情感紡一最大熵模型的觀點挖掘研究[D];華中師范大學(xué);2015年
7 王慧;最大熵模型的語義句法分析在問答系統(tǒng)中的應(yīng)用研究[D];大連交通大學(xué);2010年
8 喬羽;基于最大熵模型的中文人名識別方法研究[D];山西大學(xué);2005年
9 高峰;基于最大熵模型的不良文本識別方法研究[D];山西大學(xué);2009年
10 鄭逢強(qiáng);本體在名實體信息抽取中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2009年
,本文編號:1403051
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1403051.html