自然語言處理視角下分散化政策情報信息量化研究——以1986-2018年旅游交通政策演進(jìn)為例
發(fā)布時間:2020-12-14 05:46
[目的/意義]情報信息的分散化分布規(guī)律是情報活動的基石,一些交叉性、前沿性政策類情報文本,呈現(xiàn)明顯分散化特征,探尋此類情報信息量化研究方法,具有重要學(xué)術(shù)意義和現(xiàn)實緊迫性。[方法/過程]該文利用自然語言處理方法(Natural Language Processing,NLP),對旅游交通政策這一交叉領(lǐng)域的分散化政策演進(jìn)進(jìn)行量化分析。[結(jié)果/結(jié)論]研究驗證了該方法對分散化政策類情報信息分析的適用性。結(jié)果表明:基于規(guī)則的命名實體識別對政策總量與結(jié)構(gòu)的分析顯示,發(fā)文總量逐年上升,不同時期政策結(jié)構(gòu)有所差異;谝(guī)則和統(tǒng)計模型的命名實體識別對政策制定主體的分析顯示,政策頒發(fā)機構(gòu)數(shù)量呈起伏上升趨勢,多部門參與局面漸顯;谠~性和句法分析的政策內(nèi)容演進(jìn)顯示:"事故"始終是政策內(nèi)容的語義核心詞;語義聚焦主題詞演進(jìn)兼具繼承性和發(fā)展性。
【文章來源】:情報雜志. 2020年08期 北大核心CSSCI
【文章頁數(shù)】:9 頁
【部分圖文】:
語言單元與自然語言處理任務(wù)
綜合運用基于規(guī)則和基于統(tǒng)計模型的命名實體識別方法,對政策文本中反映發(fā)文時間、政策類型、發(fā)文機構(gòu)等的要素,進(jìn)行識別和抽取。具體而言,利用Stanford CoreNLP中的命名實體識別分析任務(wù)[29],對“發(fā)文時間”“發(fā)文類型”“發(fā)文機構(gòu)”等相關(guān)字符進(jìn)行判別(見表1),從而實現(xiàn)對不同階段中央和地方層面旅游交通政策的數(shù)量、結(jié)構(gòu)、發(fā)文主體等基本屬性的分析。表1 政策基本屬性命名實體識別 要素 方法 規(guī)則/模型內(nèi)容 發(fā)文時間 基于規(guī)則的命名實體識別方法 判別與發(fā)文時間相鄰字段的詞匯位置,獲取發(fā)文時間 政策類型 基于規(guī)則的命名實體識別方法 包含法律、規(guī)定、條例、意見、辦法、決定、公告、通知8個類型 發(fā)文機構(gòu) 中央發(fā)文機構(gòu) 基于規(guī)則的方法與基于統(tǒng)計模型的方法相結(jié)合 利用Stanford NER模型對組織機構(gòu)名稱識別難以識別的機構(gòu)名稱,補充判別 地方發(fā)文機構(gòu) 利用Stanford NER模型對發(fā)文省份和組織機構(gòu)名稱識別難以識別的機構(gòu)名稱,補充判別
利用中文分詞方法將“句子”語言單元切分為“詞匯”語言單元,形成自然語言處理分析的基礎(chǔ)模塊。原始語句通過序列標(biāo)注得到分詞結(jié)果,如圖3所示,選取旅游交通相關(guān)政策條文的分詞序列標(biāo)注作為示例。一般而言,一個字符在詞語中的序列位置有4種:詞首(B,Begin)、詞中(M,Middle)、詞尾(E,End)和單字詞(S,Single)。一個詞語應(yīng)是以B開頭、以E結(jié)尾,中間可能有M的標(biāo)記,或是以單字詞S標(biāo)記[30]。第二,詞性標(biāo)注。
【參考文獻(xiàn)】:
期刊論文
[1]新技術(shù)驅(qū)動的自然語言處理進(jìn)展[J]. 王飛,陳立,易綿竹,譚新,張興華. 武漢大學(xué)學(xué)報(工學(xué)版). 2018(08)
[2]基于自然語言處理技術(shù)的定題監(jiān)測功能實現(xiàn)研究[J]. 劉巍,王思麗,祝忠明,吳志強. 圖書與情報. 2018(03)
[3]共詞分析識別研究熱點的內(nèi)容效度研究:基于自然語言處理[J]. 李承晉,高沖,周文杰. 圖書與情報. 2018(01)
[4]自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 林奕歐,雷航,李曉瑜,吳佳. 電子科技大學(xué)學(xué)報. 2017(06)
[5]基于半監(jiān)督CRF的跨領(lǐng)域中文分詞[J]. 鄧麗萍,羅智勇. 中文信息學(xué)報. 2017(04)
[6]美國一流智庫在網(wǎng)絡(luò)安全領(lǐng)域的研究成果分析——基于文本量化的視角[J]. 劉昊,張志強,田鵬偉,徐婧. 圖書與情報. 2017(03)
[7]基于統(tǒng)計自然語言處理的央行貨幣政策研究[J]. 孔希希,程兵. 數(shù)學(xué)的實踐與認(rèn)識. 2017(07)
[8]跨學(xué)科協(xié)同信息行為模式及特征研究[J]. 葉艷,代君. 圖書館學(xué)研究. 2017(04)
[9]信息分散下的信息行為——基于國外圖書情報學(xué)領(lǐng)域跨學(xué)科研究的回顧[J]. 馬翠嫦,曹樹金. 中國圖書館學(xué)報. 2014(01)
[10]自然語言處理中的一些宏觀問題之我見[J]. 馮志偉. 中國外語. 2009(05)
本文編號:2915928
【文章來源】:情報雜志. 2020年08期 北大核心CSSCI
【文章頁數(shù)】:9 頁
【部分圖文】:
語言單元與自然語言處理任務(wù)
綜合運用基于規(guī)則和基于統(tǒng)計模型的命名實體識別方法,對政策文本中反映發(fā)文時間、政策類型、發(fā)文機構(gòu)等的要素,進(jìn)行識別和抽取。具體而言,利用Stanford CoreNLP中的命名實體識別分析任務(wù)[29],對“發(fā)文時間”“發(fā)文類型”“發(fā)文機構(gòu)”等相關(guān)字符進(jìn)行判別(見表1),從而實現(xiàn)對不同階段中央和地方層面旅游交通政策的數(shù)量、結(jié)構(gòu)、發(fā)文主體等基本屬性的分析。表1 政策基本屬性命名實體識別 要素 方法 規(guī)則/模型內(nèi)容 發(fā)文時間 基于規(guī)則的命名實體識別方法 判別與發(fā)文時間相鄰字段的詞匯位置,獲取發(fā)文時間 政策類型 基于規(guī)則的命名實體識別方法 包含法律、規(guī)定、條例、意見、辦法、決定、公告、通知8個類型 發(fā)文機構(gòu) 中央發(fā)文機構(gòu) 基于規(guī)則的方法與基于統(tǒng)計模型的方法相結(jié)合 利用Stanford NER模型對組織機構(gòu)名稱識別難以識別的機構(gòu)名稱,補充判別 地方發(fā)文機構(gòu) 利用Stanford NER模型對發(fā)文省份和組織機構(gòu)名稱識別難以識別的機構(gòu)名稱,補充判別
利用中文分詞方法將“句子”語言單元切分為“詞匯”語言單元,形成自然語言處理分析的基礎(chǔ)模塊。原始語句通過序列標(biāo)注得到分詞結(jié)果,如圖3所示,選取旅游交通相關(guān)政策條文的分詞序列標(biāo)注作為示例。一般而言,一個字符在詞語中的序列位置有4種:詞首(B,Begin)、詞中(M,Middle)、詞尾(E,End)和單字詞(S,Single)。一個詞語應(yīng)是以B開頭、以E結(jié)尾,中間可能有M的標(biāo)記,或是以單字詞S標(biāo)記[30]。第二,詞性標(biāo)注。
【參考文獻(xiàn)】:
期刊論文
[1]新技術(shù)驅(qū)動的自然語言處理進(jìn)展[J]. 王飛,陳立,易綿竹,譚新,張興華. 武漢大學(xué)學(xué)報(工學(xué)版). 2018(08)
[2]基于自然語言處理技術(shù)的定題監(jiān)測功能實現(xiàn)研究[J]. 劉巍,王思麗,祝忠明,吳志強. 圖書與情報. 2018(03)
[3]共詞分析識別研究熱點的內(nèi)容效度研究:基于自然語言處理[J]. 李承晉,高沖,周文杰. 圖書與情報. 2018(01)
[4]自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 林奕歐,雷航,李曉瑜,吳佳. 電子科技大學(xué)學(xué)報. 2017(06)
[5]基于半監(jiān)督CRF的跨領(lǐng)域中文分詞[J]. 鄧麗萍,羅智勇. 中文信息學(xué)報. 2017(04)
[6]美國一流智庫在網(wǎng)絡(luò)安全領(lǐng)域的研究成果分析——基于文本量化的視角[J]. 劉昊,張志強,田鵬偉,徐婧. 圖書與情報. 2017(03)
[7]基于統(tǒng)計自然語言處理的央行貨幣政策研究[J]. 孔希希,程兵. 數(shù)學(xué)的實踐與認(rèn)識. 2017(07)
[8]跨學(xué)科協(xié)同信息行為模式及特征研究[J]. 葉艷,代君. 圖書館學(xué)研究. 2017(04)
[9]信息分散下的信息行為——基于國外圖書情報學(xué)領(lǐng)域跨學(xué)科研究的回顧[J]. 馬翠嫦,曹樹金. 中國圖書館學(xué)報. 2014(01)
[10]自然語言處理中的一些宏觀問題之我見[J]. 馮志偉. 中國外語. 2009(05)
本文編號:2915928
本文鏈接:http://sikaile.net/jingjilunwen/lyjj/2915928.html
最近更新
教材專著