31有關(guān)行為主義人工智能研究綜述
本文關(guān)鍵詞:有關(guān)行為主義人工智能研究綜述,由筆耕文化傳播整理發(fā)布。
DOI:10.13195/j.cd.2004.0;第19卷第3期;Vol.19No.3;控制與決策;Controland;Decision;2004年3月;Mar.2004;文章編號(hào):1001-0920(2004)03-0;有關(guān)行為主義人工智能研究綜述;徐心和,么健石;(東北大學(xué)人工智能與機(jī)器人研究所,遼寧沈陽(yáng)110;摘要:通過(guò)與傳統(tǒng)人工智能的比較,介紹了基
DOI:10.13195/j.cd.2004.03.2.xuxh.001
第19卷第3期
Vol.19No.3
控 制 與 決 策
Controland
Decision
2004年3月
Mar.2004
文章編號(hào):1001-0920(2004)03-0241-06
有關(guān)行為主義人工智能研究綜述
徐心和,么健石
(東北大學(xué)人工智能與機(jī)器人研究所,遼寧沈陽(yáng)110004)
摘 要:通過(guò)與傳統(tǒng)人工智能的比較,介紹了基于行為的智能模擬技術(shù)的發(fā)展及現(xiàn)狀,并詳細(xì)評(píng)述了行為主義人工智能的研究方向以及在研究過(guò)程中涉及到的前沿技術(shù).最后給出了基于行為主義人工智能構(gòu)建智能主體系統(tǒng)的設(shè)計(jì)原則.
關(guān)鍵詞:人工智能;行為主義;智能主體中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
Surveyofbehaviorisminartificialintelligenceresearch
XUXin-he,YAOJian-shi
(InstituteofArtificialIntelligenceandRobot,NortheasternUniversity,Shenyang110004,China.Correspondent:XUXin-he,E-mail:xuxinhe@163.net)Abstract:ComparedwiththetraditionalAImethod,theevolutionandcurrentstatusofbehavior-basedAIsimulationtechniquearesurveyed.TheresearchdirectionsofbehaviorisminAIarereviewedtogetherwiththeres-pectivepioneertechniques.Thebasicprinciplesforconstructingagentsystemaregiven.Keywords:artificialintelligence;behaviorism;agent
1 引 言
兩千多年以來(lái),人們就在不斷地試圖理解觀(guān)察、學(xué)習(xí)、記憶和推理等與人類(lèi)智能有關(guān)的問(wèn)題.直到1956年由McCarthy,Minsky等發(fā)起,聯(lián)同美國(guó)的幾位心理學(xué)家、數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家和信息論學(xué)家正式提出人工智能的術(shù)語(yǔ),開(kāi)始了具有真正意義的人工智能研究,使其成為一門(mén)能夠理解人類(lèi)智能并通過(guò)機(jī)器實(shí)現(xiàn)智能行為的新的學(xué)科.
在長(zhǎng)期的研究過(guò)程中,由于人們對(duì)智能本質(zhì)的不同理解,形成了人工智能多種不同的研究途徑和學(xué)派,其中主要包括符號(hào)主義(Symbolism)、聯(lián)結(jié)主義(Connectionism)和行為主義(Behaviorism).符號(hào)主義認(rèn)為智能產(chǎn)生于大腦抽象思維的過(guò)程中,例如概念化的知識(shí)表示、模型論語(yǔ)義以及各種推理過(guò)
收稿日期:2002-12-11;修回日期:2003-02-10. 基金項(xiàng)目:國(guó)家863計(jì)劃資助項(xiàng)目(2001AA422270).
[2]
[1]
程等.他們以物理符號(hào)系統(tǒng)假設(shè)為基礎(chǔ),通過(guò)對(duì)具有
物理模式的符號(hào)實(shí)體的建立、修改、復(fù)制和刪除等操
作生成其他符號(hào)結(jié)構(gòu),從而實(shí)現(xiàn)智能行為.聯(lián)結(jié)主義
認(rèn)為智能產(chǎn)生于大腦神經(jīng)元之間的相互作用及信息
往來(lái)的過(guò)程中,因此通過(guò)對(duì)大腦神經(jīng)系統(tǒng)結(jié)構(gòu)的模
擬來(lái)建立人工神經(jīng)元網(wǎng)絡(luò),從而實(shí)現(xiàn)相應(yīng)的智能行
為.行為主義人工智能與上述傳統(tǒng)人工智能的最大區(qū)別在于,它摒棄了內(nèi)省的思維過(guò)程,而把智能的研究建立在可觀(guān)測(cè)的具體的行為活動(dòng)基礎(chǔ)上.
行為主義最早來(lái)源于20世紀(jì)初的一個(gè)心理學(xué)流派,認(rèn)為行為是有機(jī)體用以適應(yīng)環(huán)境變化的各種
身體反應(yīng)的組合,它的理論目標(biāo)在于預(yù)見(jiàn)和控制行
為[3].1948年,維納在《控制論》中指出:“控制論是
在自控理論、統(tǒng)計(jì)信息論和生物學(xué)的基礎(chǔ)上發(fā)展起
作者簡(jiǎn)介:徐心和(1940—),男,河北山海關(guān)人,教授,博士生導(dǎo)師,從事自動(dòng)控制與人工智能等研究;么健石(1972—),
男,遼寧沈陽(yáng)人,博士生,從事人工智能理論及其應(yīng)用研究.
來(lái)的,機(jī)器的自適應(yīng)、自組織、自學(xué)習(xí)功能是由系統(tǒng)的輸入輸出反饋行為決定的”.從而將心理學(xué)的某些成果引入到控制理論中.20世紀(jì)80年代,以Brooks為代表的一批研究人員又將行為主義的觀(guān)點(diǎn)引入人工智能的研究中,并逐步形成了有別于傳統(tǒng)人工智能的新的理論學(xué)派[4,5].
行為主義人工智能認(rèn)為智能行為產(chǎn)生于主體與環(huán)境的交互過(guò)程中,復(fù)雜的行為可以通過(guò)分解成若干個(gè)簡(jiǎn)單的行為加以研究.主體根據(jù)環(huán)境刺激產(chǎn)生相應(yīng)的反應(yīng),同時(shí)通過(guò)特定的反應(yīng)來(lái)陳述引起這種適應(yīng)的協(xié)調(diào)機(jī)制實(shí)質(zhì)上就是一種學(xué)習(xí)機(jī)制.
行為主義的思想認(rèn)為智能主體只有在真實(shí)環(huán)境
中,通過(guò)反復(fù)學(xué)習(xí)才能學(xué)會(huì)處理各種復(fù)雜情況,最終
學(xué)會(huì)在未知環(huán)境中運(yùn)行.如何實(shí)現(xiàn)這種思想,使主體在與環(huán)境的交互中學(xué)習(xí)動(dòng)作行為,目前主要有兩種研究方法:進(jìn)化計(jì)算和強(qiáng)化學(xué)習(xí)[11].
智能主體通過(guò)進(jìn)化計(jì)算進(jìn)行學(xué)習(xí)的機(jī)制主要有
以下兩種:
1)采用進(jìn)化計(jì)算建立主體從“感知”到“動(dòng)作”
的映射規(guī)則,直接驅(qū)動(dòng)執(zhí)行機(jī)構(gòu)產(chǎn)生相應(yīng)的動(dòng)作行
反應(yīng)的情景或刺激.因此他能以這種快速反饋替代傳統(tǒng)人工智能中的精確的數(shù)學(xué)模型,從而達(dá)到適應(yīng)復(fù)雜、不確定和非結(jié)構(gòu)化的客觀(guān)環(huán)境的目的.
目前,行為主義人工智能的研究已經(jīng)迅速發(fā)展起來(lái),并取得了許多令人矚目的成果,它所采用的結(jié)構(gòu)上動(dòng)作分解方法、分布并行的處理方法以及由底至上的求解方法已成為人工智能領(lǐng)域中新的研究熱點(diǎn),其智能系統(tǒng)的構(gòu)造原理如圖1所示[6]
.
圖1 行為主義智能系統(tǒng)的構(gòu)造原理
2 行為主義人工智能的研究方向
行為主義人工智能與傳統(tǒng)人工智能最主要的區(qū)別在于智能主體能夠自主地適應(yīng)客觀(guān)環(huán)境,而不依賴(lài)于設(shè)計(jì)者制定的規(guī)則或數(shù)學(xué)模型.這種適應(yīng)的實(shí)質(zhì)就是復(fù)雜系統(tǒng)的各個(gè)要素彼此之間的精確聯(lián)系以及它們整個(gè)集團(tuán)與四周環(huán)境的精確聯(lián)系.為了達(dá)到
精確聯(lián)系必須采用某種協(xié)調(diào)機(jī)制,這些協(xié)調(diào)機(jī)制可以使智能主體與外界環(huán)境相適應(yīng)[7]
,使智能主體內(nèi)部狀態(tài)相互配合
[8]
以及多個(gè)智能主體之間產(chǎn)生協(xié)
作[9].因此,尋求合理的協(xié)調(diào)機(jī)制便成為行為主義人工智能的主要研究方向.2.1 智能主體與環(huán)境間的協(xié)調(diào)
智能主體對(duì)外界環(huán)境刺激作出的反應(yīng)能夠給主體帶來(lái)適應(yīng).這種反應(yīng)可分為“習(xí)得性反應(yīng)”(Lear-ningResponse)和“非習(xí)得性反應(yīng)”(UnlearningRe-sponse)
[10]
.顯然“習(xí)得性反應(yīng)”是智能主體在與環(huán)境
不斷交互過(guò)程中通過(guò)學(xué)習(xí)獲得的,而“非習(xí)得性反應(yīng)”可以認(rèn)為是一種連鎖的“習(xí)得性反應(yīng)”,最終形成具有遺傳性的本能.因此,這種使智能主體與環(huán)境相
為.其中最著名的一例是JohnHolland建立的LCS模型[12].LCS模型采用進(jìn)化算法進(jìn)化,稱(chēng)之為分類(lèi)
器的“IF〈condition〉THEN〈action〉
”規(guī)則,這些規(guī)則將傳感器輸入映射為相應(yīng)的動(dòng)作.圖2描述了LCS的結(jié)構(gòu)組成
.
圖2 學(xué)習(xí)分類(lèi)器系統(tǒng)(LCS)
當(dāng)感知器輸入被接收后,通過(guò)二進(jìn)制編碼放置到消息隊(duì)列中,如果分類(lèi)器“IF”
的信息與消息隊(duì)列中的信息相匹配,則“THEN”中的信息也被放置到
消息隊(duì)列.這些新的信息或觸發(fā)其他分類(lèi)器再次向消息隊(duì)列提供新的信息,或直接產(chǎn)生一個(gè)決策提供
給效應(yīng)器.在LCS模型中,每一個(gè)染色體都表示為
單一的決策規(guī)則,整個(gè)種群則表示為主體的行動(dòng)策
略.通常分類(lèi)器將感知到的環(huán)境狀態(tài)要么映射為內(nèi)部的狀態(tài)改變,要么映射為一種行動(dòng),例如: condition
action
strength
01##→00000.7500#0→
11000.25??????##00
→0001
0.50
其中“strength”由信任分配算法產(chǎn)生,表示為分類(lèi)
器規(guī)則適應(yīng)程度的統(tǒng)計(jì)量.這個(gè)統(tǒng)計(jì)量可以解決產(chǎn)
生的沖突(多個(gè)行為決策被觸發(fā)),同時(shí)還可以作為遺傳算法的適應(yīng)度值.遺傳算子將采用具有較高適
應(yīng)度的分類(lèi)器進(jìn)行交叉、變異,以產(chǎn)生新的規(guī)則.通
常種群的規(guī)模是固定的,因此在策略空間只有優(yōu)秀
的規(guī)則才被保存下來(lái),從而完成主體在環(huán)境中的學(xué)
習(xí)過(guò)程.
2)首先在主體內(nèi)部建立一個(gè)行為模型,然后采用進(jìn)化計(jì)算驅(qū)動(dòng)該模型,進(jìn)而產(chǎn)生適應(yīng)于環(huán)境的動(dòng)作行為.這種研究方法也是目前主導(dǎo)的研究方法.例如采用有限狀態(tài)機(jī)(FSM)建立主體的行為模型,使用進(jìn)化規(guī)劃方法驅(qū)動(dòng)行為模型的進(jìn)化.類(lèi)似的還有采用Boxes結(jié)構(gòu)建立主體行為模型,通過(guò)遺傳算法確定主體所處的狀態(tài)并找到相對(duì)應(yīng)的Box,每個(gè)Box中都存放著針對(duì)該狀態(tài)主體應(yīng)采取的控制策監(jiān)督學(xué)習(xí)不同,學(xué)習(xí)過(guò)程中由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)動(dòng)作好壞的一種評(píng)價(jià),而不是告訴系統(tǒng)如何去
[14]
產(chǎn)生正確的動(dòng)作,因此尤其適用于基于行為智能主
體的學(xué)習(xí)過(guò)程.典型的強(qiáng)化學(xué)習(xí)算法包括時(shí)間差分算法(TD)、動(dòng)態(tài)規(guī)劃算法(DP)、自適應(yīng)啟發(fā)式評(píng)
判(AHC)和Q學(xué)習(xí)算法,它們都已應(yīng)用到智能主體
[15]
的學(xué)習(xí)過(guò)程中.例如圖4所示的自適應(yīng)神經(jīng)網(wǎng)絡(luò)評(píng)
判算法,主體模型由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成:估值NN和動(dòng)作NN.前者對(duì)評(píng)價(jià)函數(shù)進(jìn)行近似,將狀態(tài)映射
為期望的價(jià)值;而后者則對(duì)動(dòng)作函數(shù)近似產(chǎn)生一個(gè)
略.此外利用神經(jīng)網(wǎng)絡(luò)建立主體行為模型,通過(guò)遺傳算法對(duì)網(wǎng)絡(luò)參數(shù)及拓?fù)浣Y(jié)構(gòu)進(jìn)行優(yōu)化也成為一個(gè)重要的研究方向.例如由Moriarty提出的SANE系統(tǒng),在該系統(tǒng)中存在兩個(gè)獨(dú)立的進(jìn)化種群,一個(gè)是神經(jīng)元種群,另一個(gè)是“藍(lán)圖”種群.神經(jīng)元種群中的每個(gè)個(gè)體由一系列到輸入層和輸出層的連接值(標(biāo)簽和權(quán)值)組成,它的進(jìn)化提供了對(duì)構(gòu)成網(wǎng)絡(luò)隱單元的評(píng)估及重組;而“藍(lán)圖”種群的進(jìn)化則為神經(jīng)元搜索一個(gè)構(gòu)成網(wǎng)絡(luò)最優(yōu)的組合方式.圖3給出了這兩個(gè)種群交互的總覽[13]
.
圖3 SANE系統(tǒng)模型
“藍(lán)圖”種群中的每一個(gè)個(gè)體都包含了一套指向神經(jīng)元種群個(gè)體的指針.在每一次網(wǎng)絡(luò)構(gòu)造過(guò)程中,神經(jīng)網(wǎng)絡(luò)由每個(gè)“藍(lán)圖”所指定的隱單元構(gòu)成.每個(gè)“藍(lán)圖”都將根據(jù)該網(wǎng)絡(luò)執(zhí)行任務(wù)的好壞獲得一個(gè)適應(yīng)度值,同時(shí)構(gòu)成網(wǎng)絡(luò)的每個(gè)隱單元也將根據(jù)執(zhí)行任務(wù)的好壞獲得相應(yīng)的適應(yīng)度值.在神經(jīng)元種群和“藍(lán)圖”種群進(jìn)化過(guò)程中,通過(guò)使用一個(gè)基因選擇和重組策略快速地構(gòu)建和繁殖具有較高適應(yīng)度值的神經(jīng)網(wǎng)絡(luò).
強(qiáng)化學(xué)習(xí)是在沒(méi)有環(huán)境的具體模型下,通過(guò)簡(jiǎn)單控制效果的評(píng)估作為反饋進(jìn)行學(xué)習(xí)的過(guò)程.它與
動(dòng)作,將狀態(tài)映射為行動(dòng).當(dāng)系統(tǒng)由一種狀態(tài)轉(zhuǎn)入另一種狀態(tài)時(shí),估值NN輸出的評(píng)價(jià)信號(hào)(內(nèi)部啟發(fā)式的增強(qiáng)信號(hào))可用來(lái)判斷先前動(dòng)作的優(yōu)劣,使主體選
擇具有累積獎(jiǎng)賞最大的行動(dòng)策略
.
圖4 自適應(yīng)啟發(fā)式神經(jīng)評(píng)判學(xué)習(xí)過(guò)程
權(quán)值更新規(guī)則通過(guò)定義如下平方誤差ETD,采用誤差最小化方法,同時(shí)訓(xùn)練動(dòng)作NN和估值NN.
ETD=2
error2,
(1)erroe=r(ai+1)+CV(xi+1)-V(xi).
(2)
其中:r(ai+1)為執(zhí)行動(dòng)作ai+1后環(huán)境產(chǎn)生的外部增強(qiáng)信號(hào),C為前一次獎(jiǎng)賞的折扣率,V(xi)為狀態(tài)xi
時(shí)內(nèi)部的啟發(fā)式增強(qiáng)信號(hào).
在環(huán)境適應(yīng)性研究過(guò)程中,更富有挑戰(zhàn)性的工
作是將人本身作為環(huán)境的問(wèn)題.早期的人機(jī)界面大
多為無(wú)反饋的開(kāi)環(huán)系統(tǒng),表現(xiàn)為人適應(yīng)機(jī)器.20世
紀(jì)90年代末,MIT的Picard提出了情感計(jì)算(AffectiveComputing)[16]的概念,即如何使機(jī)器具
有情感智能的能力.這種能力體現(xiàn)在對(duì)人的嗜好、厭
倦、挫折和愉悅等某種情感狀態(tài)的識(shí)別和恰當(dāng)?shù)捻憫?yīng),并最終影響人的情緒變化.Picard認(rèn)為情感首先
是一種可測(cè)量的物理量,機(jī)器可通過(guò)用戶(hù)界面獲得
人的情感數(shù)據(jù),并分析這些數(shù)據(jù),以對(duì)人的當(dāng)前情感
歸類(lèi);然后,通過(guò)適應(yīng)算法找出用戶(hù)喜好的規(guī)律;最后,記錄下這些規(guī)律,并在以后使用.這樣就可以通
過(guò)借助與人的交互找出人的情感規(guī)律,使人越來(lái)越
滿(mǎn)意,從而實(shí)現(xiàn)機(jī)器適應(yīng)人.圖5即是通過(guò)隱
2.3 智能主體間的協(xié)調(diào)
多主體系統(tǒng)中的協(xié)調(diào)問(wèn)題是指多個(gè)主體為了以
一致、和諧的方式工作而進(jìn)行交互的過(guò)程.進(jìn)行協(xié)調(diào)
是希望避免主體之間的死鎖和活鎖.死鎖指多個(gè)主體無(wú)法進(jìn)行各自的下一步動(dòng)作;活鎖是指多個(gè)主體
不斷工作卻無(wú)任何進(jìn)展的狀態(tài).多主體之間的協(xié)調(diào)
已經(jīng)有多種方法.
傳統(tǒng)人工智能在多機(jī)器人系統(tǒng)實(shí)施協(xié)調(diào)時(shí),通
圖5 情感計(jì)算中的隱Markov模型
常建立一個(gè)集中式的復(fù)雜的計(jì)算機(jī)控制系統(tǒng),針對(duì)
目標(biāo)任務(wù)集中組織規(guī)劃并產(chǎn)生各個(gè)機(jī)器人控制器的Markov模型描述情感變化規(guī)律的一例.2.2 智能主體內(nèi)部狀態(tài)間的協(xié)調(diào)
基于行為主義智能主體的構(gòu)建方法是將動(dòng)作分解成幾個(gè)具有相互獨(dú)立狀態(tài)的專(zhuān)用模塊(避障、漫游、探險(xiǎn)等),每一專(zhuān)用模塊由傳感裝置直接映射到執(zhí)行裝置,沒(méi)有中樞控制系統(tǒng)的作用.雖然各狀態(tài)之間沒(méi)有干擾,但極易產(chǎn)生沖突,造成主體無(wú)所適從.為了解決上述問(wèn)題,早期Brooks采用了包容結(jié)構(gòu)的方法,即相鄰模塊結(jié)合時(shí)采用抑制和禁止結(jié)點(diǎn)(如圖6所示)[6].抑制結(jié)點(diǎn)加在輸入端,控制輸入信號(hào),必要時(shí)可以進(jìn)行修改;禁止結(jié)點(diǎn)放在輸出端,在一定時(shí)間里禁止特定信號(hào)的輸出
.
圖6 包含結(jié)構(gòu)中的抑制和禁止
由于這種簡(jiǎn)單的行為組合不具備學(xué)習(xí)功能,使主體很難完成復(fù)雜的行為動(dòng)作.為此,在內(nèi)部狀態(tài)協(xié)調(diào)方面引入了進(jìn)化計(jì)算和強(qiáng)化學(xué)習(xí)等機(jī)制,其核心是適應(yīng)度函數(shù)的選取.例如利用組合遺傳算子參數(shù)設(shè)置方法實(shí)現(xiàn)避碰和獲取目標(biāo)的行為組合
[17]
n
m
l
Fitness=
∑i
∑j
k
i=1
d
-
j=1
c
+
∑k=1
p
.(3)
其中:d為移動(dòng)距離,n為運(yùn)行時(shí)間步長(zhǎng),c為碰撞懲罰,m為碰撞次數(shù),p為獲取目標(biāo)的獎(jiǎng)勵(lì),l為獲取目標(biāo)的個(gè)數(shù).它的適應(yīng)度函數(shù)包括了組合動(dòng)作的參數(shù).如果某種動(dòng)作參數(shù)選擇不當(dāng),使得一種行為占主導(dǎo)地位,則主體的總體平均適應(yīng)值會(huì)降低.類(lèi)似地采用強(qiáng)化學(xué)習(xí)方法,在選擇每一動(dòng)作后給出一個(gè)獎(jiǎng)罰評(píng)
判值,以此激勵(lì)主體選擇獎(jiǎng)賞值高的動(dòng)作,達(dá)到內(nèi)部狀態(tài)協(xié)調(diào)的目的.
輸入指令,控制各機(jī)器人的運(yùn)動(dòng)達(dá)到協(xié)作的目的.行
為主義人工智能則從主體特性出發(fā),認(rèn)為主體具有
自治能力和自發(fā)行為,即主體不但可以主動(dòng)與其他
主體進(jìn)行交互,而且可以對(duì)其他主體的交互請(qǐng)求給予響應(yīng)或拒絕.這種首先定義分散自主的主體,然后
研究怎樣完成一個(gè)或幾個(gè)實(shí)體的任務(wù)求解由底向上
的設(shè)計(jì)方法,目前被研究者廣泛應(yīng)用.例如一種基于
agent團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)模型[18]
,在仿真機(jī)器人足球
領(lǐng)域取得了成功應(yīng)用.模型中引入了主導(dǎo)agent(控
球隊(duì)員)的概念,整個(gè)團(tuán)隊(duì)中只有主導(dǎo)agent才承擔(dān)學(xué)習(xí)任務(wù),而每個(gè)agent都有可能充當(dāng)這一角色,團(tuán)
隊(duì)的學(xué)習(xí)結(jié)果是所有agent學(xué)習(xí)結(jié)果的綜合.主導(dǎo)
agent可以部分地決定下一個(gè)主導(dǎo)agent的人選,這是一種很典型的基于行為主義的多主體協(xié)作學(xué)習(xí)模式.
此外,還有通過(guò)基于互惠利他行為策略的強(qiáng)化學(xué)習(xí),加強(qiáng)彼此協(xié)作,獲得穩(wěn)定性能;通過(guò)協(xié)同進(jìn)化
構(gòu)造機(jī)器人社會(huì);引入達(dá)爾文“適者生存”的生物機(jī)
制,通過(guò)遺傳算法實(shí)現(xiàn)多主體的協(xié)作.這些具有高度協(xié)調(diào)的多主體系統(tǒng)(MAS)更能體現(xiàn)人類(lèi)社會(huì)的智能,更加適合于開(kāi)放、動(dòng)態(tài)的世界環(huán)境.它的研究已
成為人工智能,甚至計(jì)算機(jī)科學(xué)的研究熱點(diǎn).
3 行為主義人工智能研究中的前沿技術(shù)
1986年,在行為主義理論的指導(dǎo)下,第一個(gè)基于“感知-行為”模式的輪式機(jī)器人誕生,它在不需中
樞控制的情況下分別實(shí)現(xiàn)了避讓、前進(jìn)、平衡等功
能.經(jīng)過(guò)10余年的發(fā)展,一些前沿技術(shù)理論不斷地滲透到行為主義人工智能的研究中,使以該方法設(shè)
計(jì)的機(jī)器人具有更加復(fù)雜的、智能的組合行為,以及協(xié)同工作的能力.這些技術(shù)主要包括主體技術(shù)理論、
軟計(jì)算和面向主體的編程思想.3.1 主體技術(shù)
主體技術(shù)把人工智能中相互分離的領(lǐng)域統(tǒng)一起
來(lái),通過(guò)從感知外部環(huán)境到實(shí)施行動(dòng)并最后對(duì)外部
環(huán)境施加影響的過(guò)程,形成一個(gè)相互聯(lián)系的整體,使
主體成為一個(gè)具有智能行為概念的“人”.因此,主體應(yīng)具有自治性、社會(huì)能力、反應(yīng)能力和自發(fā)行為[19].自治性:主體運(yùn)行時(shí)不直接由人或其他東西控制,它對(duì)自己的行為和內(nèi)部狀態(tài)有一定的控制權(quán).
社會(huì)能力:或稱(chēng)可通信性,即主體能夠與其他主體進(jìn)行信息交換.
反應(yīng)能力:即對(duì)環(huán)境的感知和影響,它們都可以感知所處的環(huán)境,并通過(guò)行為改變環(huán)境.
從而產(chǎn)生能適應(yīng)環(huán)境并完成目標(biāo)任務(wù)的動(dòng)作行為.
3.3 面向主體編程
[22]
面向主體編程(AOP)是一種新的關(guān)于計(jì)算的
框架.相對(duì)于面向?qū)ο?OOP)中的對(duì)象而言,主體是一個(gè)粒度更大、智能性更高、具有一定自主性的
實(shí)體,同時(shí)又具有面向?qū)ο蠓椒ㄖ械姆庋b性、繼承性
和多態(tài)性.因此,有的學(xué)者認(rèn)為面向主體編程是面向?qū)ο缶幊谭椒ǖ囊环N特例.
盡管如此,AOP與OOP還是存在很大的區(qū)別,
自發(fā)行為:主體的行為應(yīng)該是主動(dòng),或者說(shuō)是自發(fā)的.
此外,主體還應(yīng)具有學(xué)習(xí)能力,即根據(jù)過(guò)去的經(jīng)驗(yàn)積累知識(shí),并修改行為以適應(yīng)新的環(huán)境.
在主體概念的框架中研究行為主義人工智能,可以建立以下4種主體類(lèi)型[20]
:
1)簡(jiǎn)單的反應(yīng)型主體:其內(nèi)部的“條件-動(dòng)作”規(guī)則形成主體從感知到動(dòng)作的映射;
2)具有內(nèi)部狀態(tài)的反應(yīng)型主體:內(nèi)部狀態(tài)作為歷史因素與當(dāng)前的感知共同產(chǎn)生一個(gè)被更新的當(dāng)前狀態(tài),據(jù)此指導(dǎo)主體如何動(dòng)作;
3)基于目標(biāo)的主體:主體通過(guò)學(xué)習(xí)(進(jìn)化計(jì)算和強(qiáng)化學(xué)習(xí))調(diào)整內(nèi)部狀態(tài),以獲得能夠到達(dá)目標(biāo)的動(dòng)作;
4)基于效用的主體:內(nèi)部具有清晰的效用評(píng)價(jià)函數(shù)的主體,它能夠?qū)Σ煌膭?dòng)作過(guò)程所獲得的利益進(jìn)行比較,作出理性的決定.3.2 軟計(jì)算
軟計(jì)算是由Zadeh于1992年首先提出的,它由若干種計(jì)算方法構(gòu)成,包括模糊邏輯、神經(jīng)計(jì)算、遺傳算法、概率推理和部分學(xué)習(xí)理論等[21].這些技術(shù)緊密集成便形成了軟計(jì)算的核心,通過(guò)協(xié)同工作,可以保證軟計(jì)算有效利用人類(lèi)知識(shí),處理不精確及不確定情況,對(duì)未知或變化的環(huán)境進(jìn)行學(xué)習(xí)和調(diào)節(jié),以提高性能.Zadeh指出:軟計(jì)算的指導(dǎo)原則是開(kāi)拓不精確性、不確定性和部分真實(shí)的容忍,以達(dá)到可處理性、魯棒性、低成本求解以及與現(xiàn)實(shí)更好地緊密聯(lián)系;軟計(jì)算的作用模型是人的思維.可見(jiàn)他的指導(dǎo)原則與行為主義人工智能的中心思想在一定程度上是一致的.
在基于行為的主體框架中,主要采用了遺傳算法、強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等計(jì)算方法的結(jié)合.例如目前比較先進(jìn)的方法是以神經(jīng)網(wǎng)絡(luò)構(gòu)建主體的行為模型,通過(guò)組合遺傳算法和強(qiáng)化學(xué)習(xí)獲得環(huán)境知識(shí)和適應(yīng)函數(shù)或評(píng)價(jià)函數(shù),并據(jù)此調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),
主要體現(xiàn)在[23]
:
1)OOP的對(duì)象內(nèi)部屬性在A(yíng)OP中規(guī)定為心
智狀態(tài),例如知識(shí)、信念、能力、承諾等,每種心智狀
態(tài)都有其一定含義;
2)OOP中所傳遞的消息根據(jù)對(duì)象的不同有所
不同,而在A(yíng)OP中主體使用同一種通信語(yǔ)言,例如
通知、請(qǐng)求、承諾、拒絕等,它具有與主體無(wú)關(guān)的語(yǔ)義,因此這種通訊更規(guī)范、更明確;
3)OOP的對(duì)象沒(méi)有任何自治性,本質(zhì)上是被動(dòng)的,而主體是主動(dòng)的,它可以自治地、獨(dú)立地試圖完成目標(biāo),而無(wú)需外界的指令.
國(guó)外從20世紀(jì)90年代中后期便開(kāi)始將面向主
體編程方法應(yīng)用于多主體系統(tǒng)(MAS)的開(kāi)發(fā)設(shè)
計(jì)[24]
.近年來(lái),國(guó)內(nèi)對(duì)面向主體編程方法的研究與應(yīng)用也取得了許多顯著的成果.可以預(yù)見(jiàn),面向主體編程方法必將成為軟件工程中新的一代主流技術(shù)而
迅速得到發(fā)展與應(yīng)用.
4 結(jié) 論
目前,已有許多基于行為主義思想設(shè)計(jì)的智能系統(tǒng)能夠滿(mǎn)足人類(lèi)多方面的要求,這些系統(tǒng)的成功
主要?dú)w功于Barry提出的3個(gè)基本設(shè)計(jì)原則:簡(jiǎn)單
性原則、無(wú)狀態(tài)原則和高冗余性原則[25]
.
簡(jiǎn)單性原則是指運(yùn)用快速反饋代替精確的計(jì)算,允許通過(guò)簡(jiǎn)單的估算或比較來(lái)產(chǎn)生復(fù)雜的動(dòng)作,
同時(shí)分解的行為之間的相互作用要盡可能小或平行.這種設(shè)計(jì)方法能使系統(tǒng)簡(jiǎn)化、開(kāi)放和更適應(yīng)環(huán)
境,而不僅適用于某一特定模型,因而具有設(shè)計(jì)與現(xiàn)
實(shí)相匹配的優(yōu)點(diǎn).無(wú)狀態(tài)原則規(guī)定設(shè)計(jì)時(shí)必須使系統(tǒng)的內(nèi)部狀態(tài)與外在環(huán)境保持同步,這就要求所保
留的狀態(tài)不能在系統(tǒng)中長(zhǎng)時(shí)間起作用.這種設(shè)計(jì)原
則提高了系統(tǒng)的可改變性,使系統(tǒng)更易完善,對(duì)環(huán)境
的變化和其他失誤的適應(yīng)能力更強(qiáng).高冗余性原則是使系統(tǒng)能與不確定因素共存,而不是消除不確定因素.由不確定因素所造成的矛盾、沖突和不一致,
為智能系統(tǒng)的學(xué)習(xí)和進(jìn)化提供了多樣選擇,使其更
下載地址:31有關(guān)行為主義人工智能研究綜述_徐心和.Doc
【】最新搜索
有關(guān)行為主義人工智能研究綜述_徐心和
腰街中學(xué)地震演習(xí)方案61
包裝品事業(yè)部設(shè)備維護(hù)人員績(jī)效工資
導(dǎo)墻施工作業(yè)指導(dǎo)書(shū)38
農(nóng)民用水者協(xié)會(huì)章程24
9620 系統(tǒng)壓力
第一章 心理測(cè)量緒論(同等學(xué)力輔導(dǎo)班資料)
2012屆高三“二模”65分以上作文1_圖文
2010-2011學(xué)年高一期末化學(xué)試題
證券法-832
本文關(guān)鍵詞:有關(guān)行為主義人工智能研究綜述,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):231653
本文鏈接:http://sikaile.net/kejilunwen/rengongzhinen/231653.html