基于AMR的社交短文本質(zhì)量評(píng)估研究
發(fā)布時(shí)間:2021-09-15 07:24
隨著互聯(lián)網(wǎng)的迅速發(fā)展及其應(yīng)用的快速普及,微博、微信朋友圈、QQ動(dòng)態(tài)等社交平臺(tái)由其內(nèi)容簡潔通俗、發(fā)布便捷及時(shí)、方便用戶交流等特點(diǎn)吸引了越來越多網(wǎng)民的關(guān)注,成為抒發(fā)情感與表達(dá)觀點(diǎn)的重要平臺(tái)。但發(fā)布門檻的降低也導(dǎo)致了信息泛濫,很多網(wǎng)民隨意創(chuàng)作,無論是詞語選取、句法結(jié)構(gòu)還是內(nèi)容的表達(dá)都參差不齊,給信息的獲取帶來極大困擾,人工篩選與標(biāo)注是不現(xiàn)實(shí)的,因此需要一種自動(dòng)化社交短文本質(zhì)量評(píng)估與篩選方法。社交短文本的流行使得網(wǎng)絡(luò)中充斥著大量文法混亂語義不清的句子,為此,本文提出一種將句法結(jié)構(gòu)和修飾語義相結(jié)合的社交短文本質(zhì)量評(píng)估算法。為了方便該方法的分析,利用抽象語義表示(Abstract Meaning Representation,AMR)的PENMAN樹形式充分研究文本內(nèi)容的句法結(jié)構(gòu)完整性與修飾語義緊密程度。現(xiàn)有的中文AMR解析算法準(zhǔn)確率較低,且未考慮概念節(jié)點(diǎn)的連接對(duì)其解析結(jié)果的影響,若詳細(xì)分析所有節(jié)點(diǎn)關(guān)系,會(huì)存在一個(gè)節(jié)點(diǎn)被多次訪問的情況,使其無法確定最終解析操作。本文根據(jù)漢語句法中謂詞的重要性,提出通過分析謂詞間關(guān)系改進(jìn)基于轉(zhuǎn)換的中文AMR解析器PR-CAMR(Predicate Relation-...
【文章來源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)調(diào)查隨著科技的發(fā)展與網(wǎng)絡(luò)的大規(guī)模普及,各種各樣的互聯(lián)網(wǎng)應(yīng)用軟件也逐漸增多,如
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-2-微博平臺(tái)最初發(fā)布的文本在字?jǐn)?shù)上一般限制為140字以內(nèi)的短文本,其內(nèi)容由文字與非文字兩部分組成,非文字主要包含微博內(nèi)設(shè)的動(dòng)畫表情或用戶想發(fā)布的圖片與視頻。由于微博文本發(fā)布的快捷性與內(nèi)容更新的及時(shí)性,對(duì)發(fā)布的文本并不存在完善的句法規(guī)范性檢查。面對(duì)龐大的用戶規(guī)模,使得微博平臺(tái)每天產(chǎn)生海量的數(shù)據(jù)。同時(shí),微博平臺(tái)的實(shí)時(shí)性使其在快節(jié)奏的生活中更加方便,滿足了用戶在“碎片化時(shí)間”內(nèi)的各種需求,為廣大用戶的空閑時(shí)間增添樂趣。隨著微博平臺(tái)的不斷改進(jìn)與更新,簡化操作滿足用戶需求,吸引越來越多人的加入。微博平臺(tái)為學(xué)術(shù)界提供部分用戶所發(fā)布的微博內(nèi)容,通過這些數(shù)據(jù)進(jìn)行研究。例如新聞話題檢測(cè)[1]、輿情識(shí)別及分析[2]。對(duì)個(gè)人微博進(jìn)行主題挖掘[3]、情感分析和特征抽取[4]等。但在微博內(nèi)容中存在大量結(jié)構(gòu)混亂語義模糊的低質(zhì)量文本,這些信息即增大數(shù)據(jù)處理的難度也會(huì)影響結(jié)果的準(zhǔn)確性,在研究時(shí)應(yīng)先對(duì)微博數(shù)據(jù)進(jìn)行篩眩為了有效的選取微博數(shù)據(jù),首先要對(duì)微博內(nèi)容仔細(xì)分析,以圖1.2與圖1.3的微博內(nèi)容為例,從圖中微博文本內(nèi)容的對(duì)比可以看出,高質(zhì)量文本可以準(zhǔn)確獲取所需信息,降低語義的模糊與歧義性。本文主要是對(duì)微博用戶的微博內(nèi)容進(jìn)行研究,從而準(zhǔn)確的分析社交短文本質(zhì)量。在分析過程中不是簡單考慮文本內(nèi)容長短,而是根據(jù)文本的句法結(jié)構(gòu),表達(dá)內(nèi)容的修飾情況與傳遞信息量的多少,得出準(zhǔn)確的質(zhì)量等級(jí)。圖1.2第一例微博內(nèi)容圖1.3第二例微博內(nèi)容
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-2-微博平臺(tái)最初發(fā)布的文本在字?jǐn)?shù)上一般限制為140字以內(nèi)的短文本,其內(nèi)容由文字與非文字兩部分組成,非文字主要包含微博內(nèi)設(shè)的動(dòng)畫表情或用戶想發(fā)布的圖片與視頻。由于微博文本發(fā)布的快捷性與內(nèi)容更新的及時(shí)性,對(duì)發(fā)布的文本并不存在完善的句法規(guī)范性檢查。面對(duì)龐大的用戶規(guī)模,使得微博平臺(tái)每天產(chǎn)生海量的數(shù)據(jù)。同時(shí),微博平臺(tái)的實(shí)時(shí)性使其在快節(jié)奏的生活中更加方便,滿足了用戶在“碎片化時(shí)間”內(nèi)的各種需求,為廣大用戶的空閑時(shí)間增添樂趣。隨著微博平臺(tái)的不斷改進(jìn)與更新,簡化操作滿足用戶需求,吸引越來越多人的加入。微博平臺(tái)為學(xué)術(shù)界提供部分用戶所發(fā)布的微博內(nèi)容,通過這些數(shù)據(jù)進(jìn)行研究。例如新聞話題檢測(cè)[1]、輿情識(shí)別及分析[2]。對(duì)個(gè)人微博進(jìn)行主題挖掘[3]、情感分析和特征抽取[4]等。但在微博內(nèi)容中存在大量結(jié)構(gòu)混亂語義模糊的低質(zhì)量文本,這些信息即增大數(shù)據(jù)處理的難度也會(huì)影響結(jié)果的準(zhǔn)確性,在研究時(shí)應(yīng)先對(duì)微博數(shù)據(jù)進(jìn)行篩眩為了有效的選取微博數(shù)據(jù),首先要對(duì)微博內(nèi)容仔細(xì)分析,以圖1.2與圖1.3的微博內(nèi)容為例,從圖中微博文本內(nèi)容的對(duì)比可以看出,高質(zhì)量文本可以準(zhǔn)確獲取所需信息,降低語義的模糊與歧義性。本文主要是對(duì)微博用戶的微博內(nèi)容進(jìn)行研究,從而準(zhǔn)確的分析社交短文本質(zhì)量。在分析過程中不是簡單考慮文本內(nèi)容長短,而是根據(jù)文本的句法結(jié)構(gòu),表達(dá)內(nèi)容的修飾情況與傳遞信息量的多少,得出準(zhǔn)確的質(zhì)量等級(jí)。圖1.2第一例微博內(nèi)容圖1.3第二例微博內(nèi)容
【參考文獻(xiàn)】:
期刊論文
[1]基于轉(zhuǎn)移神經(jīng)網(wǎng)絡(luò)的中文AMR解析[J]. 吳泰中,顧敏,周俊生,曲維光,李斌,顧彥慧. 中文信息學(xué)報(bào). 2019(04)
[2]主題特征格分析:一種用戶生成文本質(zhì)量評(píng)估方法[J]. 鐘將,張淑芳,郭衛(wèi)麗,李雪. 電子學(xué)報(bào). 2018(09)
[3]基于句式與句模對(duì)應(yīng)規(guī)則的語義角色標(biāo)注[J]. 何保榮,邱立坤,孫盼盼. 中文信息學(xué)報(bào). 2018(04)
[4]融合概念對(duì)齊信息的中文AMR語料庫的構(gòu)建[J]. 李斌,聞媛,宋麗,卜麗君,曲維光,薛念文. 中文信息學(xué)報(bào). 2017(06)
[5]英漢《小王子》抽象語義圖結(jié)構(gòu)的對(duì)比分析[J]. 李斌,聞媛,卜麗君,曲維光,薛念文. 中文信息學(xué)報(bào). 2017(01)
[6]自然語言句子抽象語義表示AMR研究綜述[J]. 曲維光,周俊生,吳曉東,戴茹冰,顧敏,顧彥慧. 數(shù)據(jù)采集與處理. 2017(01)
[7]一種中文微博新聞話題檢測(cè)的方法[J]. 鄭斐然,苗奪謙,張志飛,高燦. 計(jì)算機(jī)科學(xué). 2012(01)
[8]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松. 中文信息學(xué)報(bào). 2012(01)
[9]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群. 計(jì)算機(jī)研究與發(fā)展. 2011(10)
[10]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(10)
碩士論文
[1]面向微博的文本質(zhì)量評(píng)估與分類技術(shù)研究與實(shí)現(xiàn)[D]. 陳銘.國防科學(xué)技術(shù)大學(xué) 2015
本文編號(hào):3395652
【文章來源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)調(diào)查隨著科技的發(fā)展與網(wǎng)絡(luò)的大規(guī)模普及,各種各樣的互聯(lián)網(wǎng)應(yīng)用軟件也逐漸增多,如
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-2-微博平臺(tái)最初發(fā)布的文本在字?jǐn)?shù)上一般限制為140字以內(nèi)的短文本,其內(nèi)容由文字與非文字兩部分組成,非文字主要包含微博內(nèi)設(shè)的動(dòng)畫表情或用戶想發(fā)布的圖片與視頻。由于微博文本發(fā)布的快捷性與內(nèi)容更新的及時(shí)性,對(duì)發(fā)布的文本并不存在完善的句法規(guī)范性檢查。面對(duì)龐大的用戶規(guī)模,使得微博平臺(tái)每天產(chǎn)生海量的數(shù)據(jù)。同時(shí),微博平臺(tái)的實(shí)時(shí)性使其在快節(jié)奏的生活中更加方便,滿足了用戶在“碎片化時(shí)間”內(nèi)的各種需求,為廣大用戶的空閑時(shí)間增添樂趣。隨著微博平臺(tái)的不斷改進(jìn)與更新,簡化操作滿足用戶需求,吸引越來越多人的加入。微博平臺(tái)為學(xué)術(shù)界提供部分用戶所發(fā)布的微博內(nèi)容,通過這些數(shù)據(jù)進(jìn)行研究。例如新聞話題檢測(cè)[1]、輿情識(shí)別及分析[2]。對(duì)個(gè)人微博進(jìn)行主題挖掘[3]、情感分析和特征抽取[4]等。但在微博內(nèi)容中存在大量結(jié)構(gòu)混亂語義模糊的低質(zhì)量文本,這些信息即增大數(shù)據(jù)處理的難度也會(huì)影響結(jié)果的準(zhǔn)確性,在研究時(shí)應(yīng)先對(duì)微博數(shù)據(jù)進(jìn)行篩眩為了有效的選取微博數(shù)據(jù),首先要對(duì)微博內(nèi)容仔細(xì)分析,以圖1.2與圖1.3的微博內(nèi)容為例,從圖中微博文本內(nèi)容的對(duì)比可以看出,高質(zhì)量文本可以準(zhǔn)確獲取所需信息,降低語義的模糊與歧義性。本文主要是對(duì)微博用戶的微博內(nèi)容進(jìn)行研究,從而準(zhǔn)確的分析社交短文本質(zhì)量。在分析過程中不是簡單考慮文本內(nèi)容長短,而是根據(jù)文本的句法結(jié)構(gòu),表達(dá)內(nèi)容的修飾情況與傳遞信息量的多少,得出準(zhǔn)確的質(zhì)量等級(jí)。圖1.2第一例微博內(nèi)容圖1.3第二例微博內(nèi)容
內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-2-微博平臺(tái)最初發(fā)布的文本在字?jǐn)?shù)上一般限制為140字以內(nèi)的短文本,其內(nèi)容由文字與非文字兩部分組成,非文字主要包含微博內(nèi)設(shè)的動(dòng)畫表情或用戶想發(fā)布的圖片與視頻。由于微博文本發(fā)布的快捷性與內(nèi)容更新的及時(shí)性,對(duì)發(fā)布的文本并不存在完善的句法規(guī)范性檢查。面對(duì)龐大的用戶規(guī)模,使得微博平臺(tái)每天產(chǎn)生海量的數(shù)據(jù)。同時(shí),微博平臺(tái)的實(shí)時(shí)性使其在快節(jié)奏的生活中更加方便,滿足了用戶在“碎片化時(shí)間”內(nèi)的各種需求,為廣大用戶的空閑時(shí)間增添樂趣。隨著微博平臺(tái)的不斷改進(jìn)與更新,簡化操作滿足用戶需求,吸引越來越多人的加入。微博平臺(tái)為學(xué)術(shù)界提供部分用戶所發(fā)布的微博內(nèi)容,通過這些數(shù)據(jù)進(jìn)行研究。例如新聞話題檢測(cè)[1]、輿情識(shí)別及分析[2]。對(duì)個(gè)人微博進(jìn)行主題挖掘[3]、情感分析和特征抽取[4]等。但在微博內(nèi)容中存在大量結(jié)構(gòu)混亂語義模糊的低質(zhì)量文本,這些信息即增大數(shù)據(jù)處理的難度也會(huì)影響結(jié)果的準(zhǔn)確性,在研究時(shí)應(yīng)先對(duì)微博數(shù)據(jù)進(jìn)行篩眩為了有效的選取微博數(shù)據(jù),首先要對(duì)微博內(nèi)容仔細(xì)分析,以圖1.2與圖1.3的微博內(nèi)容為例,從圖中微博文本內(nèi)容的對(duì)比可以看出,高質(zhì)量文本可以準(zhǔn)確獲取所需信息,降低語義的模糊與歧義性。本文主要是對(duì)微博用戶的微博內(nèi)容進(jìn)行研究,從而準(zhǔn)確的分析社交短文本質(zhì)量。在分析過程中不是簡單考慮文本內(nèi)容長短,而是根據(jù)文本的句法結(jié)構(gòu),表達(dá)內(nèi)容的修飾情況與傳遞信息量的多少,得出準(zhǔn)確的質(zhì)量等級(jí)。圖1.2第一例微博內(nèi)容圖1.3第二例微博內(nèi)容
【參考文獻(xiàn)】:
期刊論文
[1]基于轉(zhuǎn)移神經(jīng)網(wǎng)絡(luò)的中文AMR解析[J]. 吳泰中,顧敏,周俊生,曲維光,李斌,顧彥慧. 中文信息學(xué)報(bào). 2019(04)
[2]主題特征格分析:一種用戶生成文本質(zhì)量評(píng)估方法[J]. 鐘將,張淑芳,郭衛(wèi)麗,李雪. 電子學(xué)報(bào). 2018(09)
[3]基于句式與句模對(duì)應(yīng)規(guī)則的語義角色標(biāo)注[J]. 何保榮,邱立坤,孫盼盼. 中文信息學(xué)報(bào). 2018(04)
[4]融合概念對(duì)齊信息的中文AMR語料庫的構(gòu)建[J]. 李斌,聞媛,宋麗,卜麗君,曲維光,薛念文. 中文信息學(xué)報(bào). 2017(06)
[5]英漢《小王子》抽象語義圖結(jié)構(gòu)的對(duì)比分析[J]. 李斌,聞媛,卜麗君,曲維光,薛念文. 中文信息學(xué)報(bào). 2017(01)
[6]自然語言句子抽象語義表示AMR研究綜述[J]. 曲維光,周俊生,吳曉東,戴茹冰,顧敏,顧彥慧. 數(shù)據(jù)采集與處理. 2017(01)
[7]一種中文微博新聞話題檢測(cè)的方法[J]. 鄭斐然,苗奪謙,張志飛,高燦. 計(jì)算機(jī)科學(xué). 2012(01)
[8]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松. 中文信息學(xué)報(bào). 2012(01)
[9]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群. 計(jì)算機(jī)研究與發(fā)展. 2011(10)
[10]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(10)
碩士論文
[1]面向微博的文本質(zhì)量評(píng)估與分類技術(shù)研究與實(shí)現(xiàn)[D]. 陳銘.國防科學(xué)技術(shù)大學(xué) 2015
本文編號(hào):3395652
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3395652.html
最近更新
教材專著