一種基于側(cè)面信息的代碼片段識別技術(shù)研究
本文關(guān)鍵詞:一種基于側(cè)面信息的代碼片段識別技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著社區(qū)問答網(wǎng)站、博客等的廣泛普及,使得程序員可以通過此類途徑自由交流編程技術(shù),越來越多的解決各類問題的代碼片段存在于互聯(lián)網(wǎng)上。然而,不同于普通文本,代碼片段具有的結(jié)構(gòu)化信息可以幫助提高搜索引擎對于特定編程語言源代碼的搜索能力。但是,在不明確代碼片段編程語言的情況下,無法進一步分析代碼片段的結(jié)構(gòu)化信息。通過統(tǒng)計發(fā)現(xiàn),網(wǎng)絡(luò)上半數(shù)以上代碼片段沒有標(biāo)記編程語言類別,這使得代碼片段編程語言識別成為迫切需要解決的問題。代碼片段往往不夠完整,難以提供足夠的信息進行其編程語言識別,而結(jié)合代碼片段附著的標(biāo)簽、描述文本等側(cè)面信息可提高編程語言識別的準(zhǔn)確率。為此,本文提出一個基于側(cè)面信息的代碼片段的編程語言識別框架,并實現(xiàn)了相關(guān)原型系統(tǒng)。本文的主要貢獻如下:1.提出了一個基于側(cè)面信息的代碼片段的編程語言識別框架,該框架首先通過代碼片段周圍文字解釋信息對標(biāo)簽信息進行推斷補全,然后利用補全之后的標(biāo)簽信息訓(xùn)練識別模型,根據(jù)模型預(yù)測得到識別出的語言類別。通過對側(cè)面信息的合理利用,較好地預(yù)測識別代碼片段的編程語言,解決了識別準(zhǔn)確率低下的難題。2.提出了一種基于文本關(guān)鍵詞增強的多標(biāo)記學(xué)習(xí)的標(biāo)簽推薦方法。該方法通過分析數(shù)據(jù)發(fā)現(xiàn)了大多數(shù)的標(biāo)簽在其標(biāo)注的內(nèi)容中出現(xiàn)的事實,將多標(biāo)記學(xué)習(xí)和關(guān)鍵詞抽取兩種技術(shù)結(jié)合起來以提高標(biāo)簽推薦的準(zhǔn)確率,并進一步提出了快速版本,采用了局部敏感哈希策略來降低了算法的時間復(fù)雜度。3.提出了一種基于標(biāo)簽信息的代碼片段的編程語言識別方法。該方法將代碼片段編程語言識別問題定義為文本分類問題,結(jié)合了文本提煉標(biāo)簽技術(shù)和貝葉斯分類技術(shù)來進行代碼片段編程語言的識別,提高了識別的準(zhǔn)確率。4.基于上述方法設(shè)計并實現(xiàn)了一個原型系統(tǒng),初步驗證了上述方法和技術(shù)的有效性和可行性。
【關(guān)鍵詞】:編程語言識別 代碼片段 側(cè)面信息 標(biāo)簽推薦
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-12
- 第一章 引言12-16
- 1.1 研究背景12-14
- 1.2 研究內(nèi)容14-15
- 1.3 本文組織15-16
- 第二章 相關(guān)工作16-24
- 2.1 代碼編程語言識別16-18
- 2.1.1 面向完整代碼的識別16-17
- 2.1.2 面向代碼片段的識別17-18
- 2.2 標(biāo)簽推薦技術(shù)18-20
- 2.2.1 基于協(xié)同過濾的推薦18-19
- 2.2.2 基于內(nèi)容的推薦19-20
- 2.3 其他相關(guān)工作20-22
- 2.3.1 多標(biāo)記學(xué)習(xí)方法20
- 2.3.2 關(guān)鍵詞抽取方法20-21
- 2.3.3 貝葉斯分類方法21-22
- 2.3.4 多類別問題解決策略22
- 2.4 本章小結(jié)22-24
- 第三章 基于側(cè)面信息的代碼片段的編程語言識別框架24-30
- 3.1 識別場景介紹24-26
- 3.2 本文的識別框架26-28
- 3.2.1 標(biāo)簽推薦模塊27
- 3.2.2 編程語言識別模塊27-28
- 3.3 本章小結(jié)28-30
- 第四章 基于關(guān)鍵詞增強的多標(biāo)記學(xué)習(xí)的標(biāo)簽推薦方法30-44
- 4.1 背景30-31
- 4.2 相關(guān)知識介紹31-32
- 4.3 我們的方法32-37
- 4.3.1 問題描述32-33
- 4.3.2 MATAR算法33-36
- 4.3.3 MATAR-fast算法36-37
- 4.4 實驗及數(shù)據(jù)分析37-42
- 4.4.1 實驗相關(guān)配置37-38
- 4.4.2 實驗結(jié)果38-42
- 4.5 本章小結(jié)42-44
- 第五章 基于標(biāo)簽信息的代碼片段的編程語言識別方法44-60
- 5.1 背景44-46
- 5.2 我們的方法46-52
- 5.2.1 問題描述46-47
- 5.2.2 若干樸素的利用側(cè)面信息的識別方法47-50
- 5.2.3 基于標(biāo)簽推薦的識別方法SIPLDM-MATAR50-52
- 5.3 實驗及數(shù)據(jù)分析52-59
- 5.3.1 實驗相關(guān)配置53-55
- 5.3.2 實驗結(jié)果55-59
- 5.4 本章小結(jié)59-60
- 第六章 系統(tǒng)實現(xiàn)60-70
- 6.1 系統(tǒng)架構(gòu)60-61
- 6.2 系統(tǒng)實現(xiàn)61-66
- 6.2.1 數(shù)據(jù)收集模塊61-62
- 6.2.2 離線處理模塊62-64
- 6.2.3 在線搜索模塊64-66
- 6.3 系統(tǒng)效果66-68
- 6.3.1 首頁66-67
- 6.3.2 搜索結(jié)果頁67
- 6.3.3 結(jié)果詳情頁67-68
- 6.4 本章小結(jié)68-70
- 第七章 總結(jié)與展望70-72
- 7.1 本文總結(jié)70-71
- 7.2 未來工作71-72
- 參考文獻72-78
- 簡歷與科研成果78-80
- 致謝80-81
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;什么是最美麗的編程語言——“編程語言研討會”實錄[J];程序員;2010年08期
2 李暢;;編程語言的特點與比較[J];華中師范大學(xué)研究生學(xué)報;2005年03期
3 馬龍軍;;編程語言教學(xué)模式探討[J];計算機教育;2007年02期
4 王翔;;借力編程語言走職業(yè)開發(fā)道路[J];程序員;2007年03期
5 王謙;;高職院校非計算機專業(yè)編程語言教學(xué)初探[J];職大學(xué)報;2008年02期
6 ;透視編程語言[J];程序員;2009年02期
7 蔡學(xué)鏞;;2008編程語言盤點[J];程序員;2009年02期
8 Andrej Bauer;;編程語言的設(shè)計[J];程序員;2009年06期
9 約翰·帕夫盧斯;;我們?yōu)楹涡枰戮幊陶Z言?[J];科技創(chuàng)業(yè);2010年09期
10 張越男;;試析C#編程語言的特點及功能[J];軟件;2013年03期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 王濤;郭長國;鄒鵬;王曉斌;;一種基于注釋的監(jiān)控編程語言設(shè)計與實現(xiàn)[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(下冊)[C];2009年
2 蘭香;林帆;蔣君麗;;新鋼高爐報表及常見故障處理[A];全國冶金自動化信息網(wǎng)2010年年會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 靳菁;新銳信:欲霸編程語言江山[N];計算機世界;2002年
2 清水 編譯;7種正在流行的編程語言[N];計算機世界;2010年
3 電腦虎;打開數(shù)字城堡的鑰匙——編程語言[N];中國電腦教育報;2005年
4 本報記者 劉麗麗 高麗華;Java改變了什么[N];計算機世界;2005年
5 楊偉國;C++的巔峰體驗[N];中華讀書報;2002年
6 科譯;亞太IT專業(yè)開發(fā)人數(shù)三年后全球第一[N];中國計算機報;2003年
7 周懷軍;IT課程三級跳[N];中國電腦教育報;2002年
8 ;2005年等級考試大變臉[N];電腦報;2005年
9 胖胖;Web開發(fā)熱會持續(xù)多久[N];中華讀書報;2006年
10 楊偉寧;月入萬元的自由程序員(上)[N];電腦報;2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 李立成;一種基于側(cè)面信息的代碼片段識別技術(shù)研究[D];南京大學(xué);2016年
2 楊浩;非標(biāo)數(shù)字裝備通用控制器用戶編程語言研究[D];天津理工大學(xué);2011年
3 朱峰;漢字編程語言的跨平臺編譯研究[D];哈爾濱工業(yè)大學(xué);2013年
本文關(guān)鍵詞:一種基于側(cè)面信息的代碼片段識別技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號:347791
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/347791.html