來源:華為2012實(shí)驗(yàn)室
作者:李航 張寶峰 霍大偉 李英濤
1.引言
星期六上午,叮呤一聲門鈴響了,小明急忙跑過去,打開家門,見到門口站著一個(gè)機(jī)器人。機(jī)器人身高一米五左右,跟小明差不多,樣子有點(diǎn)像星球大戰(zhàn)中的C-3PO。機(jī)器人向小明鞠了一個(gè)恭,“你好,我叫羅伯特,是你們家預(yù)訂的管家機(jī)器人”。小明高興得跳了起來。“太好啦,我們已經(jīng)等你很久了。我叫小明”。羅伯特點(diǎn)點(diǎn)頭,“小明,你好”。接著,小明領(lǐng)著羅伯特在家里轉(zhuǎn)了一圈,客廳、書房臥室、廚房、衛(wèi)生間都走了一遍,最后來到小明的房間。按照指引,羅伯特在小明房間里走了一圈,然后站在了落地窗前。書桌旁擺有一個(gè)魚缸,里面養(yǎng)著一些熱帶魚。小明指示說:“別忘了每天給它們換水”。落地床前放著一個(gè)天文望遠(yuǎn)鏡,小明用手指著說:“你走動(dòng)的時(shí)候注意別碰到它,是爸爸在美國(guó)給我買的呢。天氣好的晚上,別忘了提醒我去觀察星座”。羅伯特點(diǎn)點(diǎn)頭,“明白了,你的房間真不錯(cuò)”,又用平緩的語(yǔ)氣說:“不過,空調(diào)溫度太低。時(shí)間長(zhǎng)會(huì)對(duì)身體不好,建議你把溫度提高”。然后慢慢轉(zhuǎn)過身,像是怕碰到天文望遠(yuǎn)鏡,說:“窗戶也沒有關(guān)好,這樣會(huì)有安全隱患”,順手把窗戶關(guān)上,小明回答:“明白了”。“我再去其他地方看看”,羅伯特一邊說著一邊慢步地出了房間。小明坐下,開始做功課。不一會(huì)兒,羅伯特走了回來。小明問羅伯特:“我現(xiàn)在有一個(gè)數(shù)學(xué)問題,不知道該怎么解。你能幫我看一下嗎?”羅伯特放慢了腳步,走到桌前,用親切的聲音回答:“小明,我是管家機(jī)器人。我的職責(zé)只是把你的家管理好,不負(fù)責(zé)幫助你的學(xué)習(xí)。如果是輔導(dǎo)功課,需要請(qǐng)家教機(jī)器人,公司也有相關(guān)的擴(kuò)展模塊可以購(gòu)買”。小明微笑著答道:“你真專業(yè),我問爸爸是不是可以買”。
以上是我們?cè)O(shè)想的未來管家機(jī)器人的使用場(chǎng)景,它的最大特點(diǎn)是基于“受教式人工智能” (Educated Artificial Intelligence,簡(jiǎn)稱EAI)技術(shù),有以下幾個(gè)特點(diǎn)。
應(yīng)用限定的智能系統(tǒng):根據(jù)此原理構(gòu)建的智能系統(tǒng)服務(wù)于不同的應(yīng)用,圓滿完成各自應(yīng)用的任務(wù)是每個(gè)系統(tǒng)的終極目標(biāo),系統(tǒng)的智能性全部體現(xiàn)在完成任務(wù)的能力上,而不是一般意義上的人工智能(Artificial Intelligence),比如,管家機(jī)器人和家教機(jī)器人分管不同工作,擁有各自應(yīng)用所需的智能。因此也可以稱之為受教式應(yīng)用智能(Educated Application Intelligence)。
接受用戶教育:智能系統(tǒng)可以接受用戶教育,快速學(xué)習(xí),適應(yīng)環(huán)境。用戶承擔(dān)一定的教育責(zé)任,但系統(tǒng)也有自主性,正如老師和學(xué)生的關(guān)系,在某些方面學(xué)生也可能超越老師。教育(educate)不同于教誨(teach),不需要給出每一條規(guī)則,用戶只有在必要時(shí)提供少量的指示,比如用戶只需領(lǐng)著管家機(jī)器人行走一遍,就能讓它識(shí)別整個(gè)家庭的格局,并知道未來工作環(huán)境中的注意事項(xiàng)。
擁有一定的完成任務(wù)所需的自學(xué)習(xí)、推理能力:在動(dòng)態(tài)變化的環(huán)境中,基于用戶教育,學(xué)習(xí)所需知識(shí),矯正錯(cuò)誤,從而具備場(chǎng)景所需的學(xué)習(xí)、推理能力,比如,給用戶進(jìn)行推薦與提醒。
人類的“智能”工具:受教式人工智能系統(tǒng)的目的是成為人類的工具,在特定的應(yīng)用中提升用戶體驗(yàn),而不是部分再現(xiàn)人的能力。受教式人工智能也不同于傳統(tǒng)的機(jī)械系統(tǒng)重復(fù)同樣的工作,而是能在動(dòng)態(tài)的環(huán)境中做出判斷,比如,管家機(jī)器人通過溫度傳感器、位置傳感器來感知室溫、窗戶的狀態(tài),并結(jié)合用戶習(xí)慣和生活要求,決定是否調(diào)節(jié)室溫,關(guān)閉窗戶。而且由于有應(yīng)用限定,可以大幅降低復(fù)雜任務(wù)中“智能誤操作”的分險(xiǎn)。
目前,業(yè)界盛論機(jī)器具備意識(shí),機(jī)器通過圖靈測(cè)試、和機(jī)器理解貓臉概念等話題,這些并不一定有建設(shè)性,不能幫助有效解決實(shí)際問題。受教式人工智能(EAI)更強(qiáng)調(diào)應(yīng)用智能,目的是讓智能技術(shù)為產(chǎn)業(yè)服務(wù)。
人腦是一個(gè)只有1.5公斤左右重的人體器官,但它或許是宇宙中最復(fù)雜的系統(tǒng)。宇宙和人腦,對(duì)人類來說都充滿著無窮的奧秘,是科學(xué)需要不斷探究的對(duì)象。現(xiàn)在對(duì)人腦的工作原理與機(jī)制有了一定的了解,但是腦科學(xué)的研究進(jìn)展距離我們能在計(jì)算機(jī)系統(tǒng)上再現(xiàn)人類智能的目標(biāo)還相差甚遠(yuǎn),很有可能,我們永遠(yuǎn)無法實(shí)現(xiàn)與人類同等的智能。
我們應(yīng)該如何實(shí)現(xiàn)人工智能?理解人的大腦的工作原理和機(jī)制,在電子計(jì)算機(jī)上將其實(shí)現(xiàn)?這個(gè)策略即使可能,也有極其漫長(zhǎng)的路要走。此路線依附腦科學(xué)的突破,需要切實(shí)地理解人腦智能產(chǎn)生的機(jī)理,單獨(dú)靠電子、信息技術(shù)的發(fā)展不足以支撐。
2-1.人腦結(jié)構(gòu)vs 計(jì)算機(jī)體系架構(gòu),體系結(jié)構(gòu)差異巨大
人腦有很高的復(fù)雜度。人腦有10的11次方個(gè)神經(jīng)元,10的15次方個(gè)突觸。也就是說。平均每個(gè)神經(jīng)元有1萬(wàn)個(gè)突觸相連。據(jù)估計(jì),整個(gè)互聯(lián)網(wǎng)有10的12次方個(gè)網(wǎng)頁(yè),每個(gè)網(wǎng)頁(yè)的平均鏈接少于1百個(gè)。也就是說把人腦和互聯(lián)網(wǎng)都當(dāng)作網(wǎng)絡(luò)來看,兩者有大致相同的結(jié)點(diǎn)數(shù),但人腦的連接數(shù)更多,復(fù)雜度更高。
人腦比計(jì)算機(jī)有更加復(fù)雜的結(jié)構(gòu)。我們知道,人腦由四個(gè)主要部分構(gòu)成:腦干(brain stem)、間腦(diencephalon)、大腦(cerebrum)及小腦(cerebellum)。腦干由延髓(medulla oblongata)、腦橋(pons)及中腦(midbrain 或 mesencephalon)組成,下面連著脊髓,上面是間腦。間腦主要由視丘(thalamus)及下視丘(hypothalamus)組成,大腦位于其上。大腦分左右兩個(gè)半球,中間以胼胝體(corpus callosum)連接。左半球控制右半身,右半球控制左半身。兩個(gè)大腦半球的表面覆蓋著大腦皮質(zhì)(cerebral cortex),大腦半球又分成不同的腦葉:前額葉(frontal lobe)、頂葉(parietal lobe)、顳葉(temporal lobe)及枕葉(occipital lobe)。小腦位于大腦之下,腦干之后。而電子計(jì)算機(jī)采用馮諾依曼架構(gòu),由運(yùn)算器、控制器、存儲(chǔ)器、輸入設(shè)備和輸出設(shè)備五大部分組成。計(jì)算過程中,把程序和數(shù)據(jù)存入主存儲(chǔ)器(內(nèi)存)中,從主存儲(chǔ)器中取出指令逐次執(zhí)行,整個(gè)結(jié)構(gòu)要簡(jiǎn)單得多。
2-2. 意識(shí)仍是所知甚少的世界
人區(qū)別于機(jī)器等非生物的一個(gè)重要特點(diǎn)是擁有意識(shí)(consciousness),而現(xiàn)實(shí)機(jī)器中不存在意識(shí),也許永遠(yuǎn)不會(huì)。“人的意識(shí)”到底是什么?有很多研究,但沒有一致性的結(jié)論,我們對(duì)意識(shí)了解還非常有限,仍然是科學(xué)的最大謎團(tuán)之一。
下面總結(jié)一些被比較普遍認(rèn)同的觀點(diǎn)。意識(shí)是指人在清醒(非睡眠、昏迷、及死亡)時(shí)的感知與認(rèn)知,本質(zhì)是生命現(xiàn)象。“我思故我在”,首先它是現(xiàn)實(shí)存在的,是每個(gè)人以自我為中心的“精神活動(dòng)”, 對(duì)每個(gè)人來說都是持續(xù)、一致、和穩(wěn)定的,所以是主觀的,經(jīng)常被稱為自我意識(shí)。但又是客觀的,意識(shí)對(duì)應(yīng)著大腦神經(jīng)系統(tǒng)高層次的處理,由低層次的神經(jīng)元上的生物反應(yīng)支撐。意識(shí)是一個(gè)統(tǒng)一體,將個(gè)人的所有感知與認(rèn)知聯(lián)系在一起;與潛在意識(shí)密切相連交互,獲得身體各個(gè)器官的信號(hào),同時(shí)又對(duì)它們發(fā)出指令;認(rèn)識(shí)自己在空間、時(shí)間、社會(huì)群體中與其他個(gè)體的關(guān)系。意識(shí)又擁有主動(dòng)性,比如,意識(shí)可以做出決定,通過大腦以及神經(jīng)系統(tǒng),將指令傳到全身,控制整個(gè)身體的運(yùn)動(dòng)。意識(shí)的過程可能發(fā)生在大腦的不同部位,是不同作用產(chǎn)生的結(jié)果,整個(gè)機(jī)制還不清楚,最近的研究發(fā)現(xiàn)大腦中的屏狀核可能起到意識(shí)的“開關(guān)”作用。意識(shí)由生物進(jìn)化得來,從簡(jiǎn)單的有機(jī)生化過程發(fā)展到極其復(fù)雜的大腦生化過程,生命與非生物的本質(zhì)區(qū)別在于,生命體能夠通過自身的感知、認(rèn)知系統(tǒng)認(rèn)識(shí)到自身的存在,并且做出對(duì)外界的反應(yīng)與行動(dòng)。沒有證據(jù)表明,我們能把這么極其復(fù)雜的生物現(xiàn)象在非生物的計(jì)算機(jī)上實(shí)現(xiàn),開發(fā)出“意識(shí)機(jī)器”。
2-3. 語(yǔ)言處理也面臨永無止境的挑戰(zhàn)
語(yǔ)言代表著人類智能的最高水準(zhǔn),也是人區(qū)別于動(dòng)物的主要特征。有了語(yǔ)言,人可以傳遞信息,表達(dá)思想,講授知識(shí),傳播文化。詞匯和語(yǔ)法是語(yǔ)言的兩個(gè)重大要素。一般成年人可以掌握五千到一萬(wàn)個(gè)詞匯。在大腦長(zhǎng)期記憶中記憶一個(gè)單詞的時(shí)候,人不僅記住它的發(fā)音、書寫形式,而且記住與其相關(guān)的單詞、概念、用法、經(jīng)歷等,對(duì)應(yīng)著對(duì)詞義的理解。語(yǔ)法由規(guī)則組成,可以幫助人由單詞出發(fā)構(gòu)建語(yǔ)句,表達(dá)復(fù)雜的語(yǔ)義。語(yǔ)法規(guī)則指導(dǎo)人結(jié)構(gòu)性地構(gòu)建句子,理論上可以表達(dá)任意復(fù)雜的內(nèi)容。但是這些規(guī)則一般都是不嚴(yán)格的,總有例外存在。語(yǔ)言的理解,不僅需要詞匯和語(yǔ)法的知識(shí),而且需要整個(gè)世界的知識(shí),以及推理能力,比如,說“好熱啊”,在特定場(chǎng)景中表述的意思可能是希望打開空調(diào)。喬姆斯基認(rèn)為人的語(yǔ)言能力是先天就有的,觀察兒童學(xué)習(xí)語(yǔ)言的過程就會(huì)發(fā)現(xiàn),兒童不需要許多指導(dǎo),只要處在適當(dāng)?shù)恼Z(yǔ)言環(huán)境中,就可以學(xué)習(xí)到非常復(fù)雜的語(yǔ)言使用,這種現(xiàn)象的唯一解釋就是人的語(yǔ)言能力是由DNA決定的。
自然語(yǔ)言處理是人工智能的一個(gè)分支,目的是讓計(jì)算機(jī)能夠像人一樣地聽、說、讀、寫,使用語(yǔ)言。自然語(yǔ)言理解從兩種意義上是極其困難的。首先,語(yǔ)言理解理論上需要用到人的所有知識(shí)、以及所有的推理能力。所以,語(yǔ)言理解被認(rèn)為是“人工智能完全”問題,也就是說,語(yǔ)言理解的實(shí)現(xiàn)就意味著人工智能的實(shí)現(xiàn)。另一個(gè)困難是,計(jì)算機(jī)上實(shí)現(xiàn)任何東西都需要用數(shù)學(xué)模型來刻畫,但是我們還不知道如何用數(shù)學(xué)模型去刻畫人的語(yǔ)言使用,也不知道這是否可能。語(yǔ)言從理論上可以無窮組合式產(chǎn)生,所以用窮舉的方法,不可能實(shí)現(xiàn)自然語(yǔ)言處理。語(yǔ)言遵循一定的規(guī)則,但又有很多例外,所以用規(guī)則也不能解決問題。統(tǒng)計(jì)學(xué)習(xí),特別是深度學(xué)習(xí),為我們提供了很好的工具,理論上,如果有無窮多的訓(xùn)練數(shù)據(jù),也許可以模仿人的語(yǔ)言處理,不斷逼近人的語(yǔ)言能力,但現(xiàn)實(shí)中我們往往無法得到那么多的數(shù)據(jù);還有,語(yǔ)言現(xiàn)象一般遵循冪律(power law)分布,永遠(yuǎn)都會(huì)存在低頻的,也就是長(zhǎng)尾的事件,無法得到充足的數(shù)據(jù),所以完全依賴統(tǒng)計(jì)學(xué)習(xí)也是不可行的。如何讓計(jì)算機(jī)理解語(yǔ)言,是我們需要不斷探究的課題。
人工智能目前基本分兩種流派,即所謂的強(qiáng)人工智能和弱人工智能。強(qiáng)人工智能觀點(diǎn)認(rèn)為可以制造出與人同等智能的機(jī)器,而且,這種機(jī)器擁有感覺、知覺、以及自我意識(shí),甚至具備自我發(fā)展和進(jìn)化的能力。弱人工智能觀點(diǎn)認(rèn)為不可能制造出這樣的智能系統(tǒng)。現(xiàn)實(shí)中制造的機(jī)器可能在某些方面看上去與人有同等的智能,但并不真正擁有智能,也沒有自我意識(shí)。產(chǎn)業(yè)界本質(zhì)并不關(guān)心智能強(qiáng)弱問題,而是關(guān)注智能應(yīng)用,即通過相關(guān)技術(shù)使能的智能應(yīng)用體驗(yàn)和效果,我們希望EAI可以成為實(shí)現(xiàn)這一目標(biāo)的正確途徑。
Educated AI既可以理解為Educated Artificial Intelligence 也可以理解為Educated Application Intelligence,擁有應(yīng)用限定、用戶教育、自學(xué)習(xí)推理能力,能判斷的智能系統(tǒng)等特點(diǎn)。EAI的目的不是再現(xiàn)人的智能,而是幫助人更高效、更好地完成各個(gè)具體任務(wù)或任務(wù)集,在其中部分達(dá)到人的智能或超過人的智能。
基于EAI理念的智能系統(tǒng)應(yīng)該滿足以下幾個(gè)原則:1.從屬于人類,2. 限定于任務(wù)(場(chǎng)景),3. 接受教育,4. 自我成長(zhǎng),5. 個(gè)性化的系統(tǒng)。基于EAI理念的智能系統(tǒng)當(dāng)然不會(huì)擁有意識(shí),也不需要擁有同人一樣的普適的智能與智慧,這樣的系統(tǒng)理解的語(yǔ)言也是基于任務(wù)、場(chǎng)景的,其理解也只是通過能夠完成具體任務(wù)體現(xiàn)的。
有許多的應(yīng)用系統(tǒng)可以通過EAI的理念構(gòu)建,變得更加實(shí)用,更好地幫助用戶解決問題,給用戶帶來巨大價(jià)值。智能管家機(jī)器人可以幫助用戶管理好家庭,從事家居管理、日程管理、室內(nèi)清潔、物品搬運(yùn)、安全保障等工作,它還能在室內(nèi)行走,識(shí)別室內(nèi)的物體,與主人進(jìn)行簡(jiǎn)單的對(duì)話和溝通。機(jī)器人基本功能在出廠時(shí)都已基本具備,但其使用由于接受各個(gè)用戶不同的教育,從而形成不同的個(gè)性化系統(tǒng)。比如,主人引領(lǐng)機(jī)器人在室內(nèi)行走,可以幫助機(jī)器人很快地了解家居的情況,主人介紹家庭成員,機(jī)器人可以很快知道家庭的構(gòu)成,每個(gè)人的習(xí)慣、興趣愛好等,而不需要從零學(xué)起。旅行翻譯系統(tǒng)是另外一個(gè)例子,這個(gè)系統(tǒng)是在智能手機(jī)上的一個(gè)應(yīng)用,用戶在國(guó)外旅行時(shí),可以通過它的翻譯與外國(guó)人進(jìn)行自由的對(duì)話與交流。翻譯系統(tǒng)在出廠時(shí)已具備基本的語(yǔ)音識(shí)別、機(jī)器翻譯、語(yǔ)音合成的功能,但是它還缺少個(gè)性化定制。通用的語(yǔ)音識(shí)別、機(jī)器翻譯可能都不完美,會(huì)出現(xiàn)錯(cuò)誤,當(dāng)用戶發(fā)現(xiàn)識(shí)別或翻譯錯(cuò)誤時(shí),可以反饋給系統(tǒng),系統(tǒng)將直接記住正確結(jié)果,下次不會(huì)犯同樣的錯(cuò)誤,這樣翻譯系統(tǒng)性能會(huì)不斷提升,真正成為用戶貼心的翻譯。
EAI技術(shù)的基本特點(diǎn)是“機(jī)器學(xué)習(xí)加人工教育”,通過人工教育的方式最大的程度降低甚至克服機(jī)器學(xué)習(xí)的困難,從應(yīng)用的角度出發(fā),加速系統(tǒng)的智能化提升進(jìn)程。
機(jī)器學(xué)習(xí)一般指統(tǒng)計(jì)學(xué)習(xí),是關(guān)于基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析的技術(shù),機(jī)器學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、概率推理等。這里說的人工教育是指由用戶通過實(shí)際指導(dǎo)給出知識(shí)、實(shí)例,當(dāng)作機(jī)器學(xué)習(xí)輸入,用于構(gòu)建系統(tǒng),幫助系統(tǒng)進(jìn)行預(yù)測(cè)、判斷。人工教育可以大幅的加速學(xué)習(xí)應(yīng)用場(chǎng)景特定的模型和參數(shù),使機(jī)器學(xué)習(xí)快速收斂,系統(tǒng)快速適應(yīng)到具體應(yīng)用場(chǎng)景。這樣,人機(jī)各自的長(zhǎng)處可以被有效地結(jié)合起來。
機(jī)器學(xué)習(xí)的最大優(yōu)點(diǎn)是它通過數(shù)據(jù)驅(qū)動(dòng)的方式解決具體問題,擁有一套完整的理論體系,具有很強(qiáng)的魯棒性和可擴(kuò)展性。機(jī)器學(xué)習(xí)的最大缺點(diǎn)是它依賴于數(shù)據(jù),數(shù)據(jù)中隱含的規(guī)律一定程度上能挖掘出來,但從實(shí)現(xiàn)智能的角度往往不夠充分,特別是當(dāng)數(shù)據(jù)缺乏的時(shí)候,機(jī)器學(xué)習(xí)就會(huì)變的無能為力。
人工教育能讓我們很快地獲得智能系統(tǒng)需要的知識(shí)(包括概念、規(guī)則)與實(shí)例。它的最大優(yōu)點(diǎn)是“教育”的知識(shí)與實(shí)例具有很強(qiáng)的可讀性,很簡(jiǎn)單地就具備特定場(chǎng)景的“語(yǔ)義”,因?yàn)槿丝梢院芎玫乩斫鈶?yīng)用要求,直接對(duì)系統(tǒng)的行為做出一定的指導(dǎo)。其缺點(diǎn)是人定義的知識(shí)不一定系統(tǒng)、無矛盾、無歧義,開發(fā)與維護(hù)知識(shí)的成本也會(huì)很高,更重要的是,人定義的知識(shí)往往沒有足夠的魯棒性和可擴(kuò)展性;人給出的實(shí)例會(huì)更加可靠,但是其覆蓋面往往很窄,為了有效地學(xué)習(xí)可能需要提供大量的實(shí)例數(shù)據(jù)。
目前機(jī)器學(xué)習(xí)中的很多技術(shù)都應(yīng)該可以直接應(yīng)用,但EAI也有其獨(dú)特技術(shù)難點(diǎn)和挑戰(zhàn),比如:
如何保證人工教育和機(jī)器學(xué)習(xí)的交互和知識(shí)、信息傳遞的有效性?人工教育往往是通過一些演示或者指令,本質(zhì)上傳遞的是確定的知識(shí)或者信息,人工教育需要能夠與傳統(tǒng)機(jī)器學(xué)習(xí)有效對(duì)接,用這些知識(shí)或信息增加系統(tǒng)的整體能力。
如何保證應(yīng)用中性能的單調(diào)提升?人工教育加機(jī)器學(xué)習(xí)的目標(biāo)是給用戶提供具體應(yīng)用中的良好體驗(yàn),要讓用戶感受到,教育和學(xué)習(xí)的過程中,系統(tǒng)的性能在不斷上升,而沒有下降。系統(tǒng)在自主地接受教育和進(jìn)行學(xué)習(xí)過程中,這一點(diǎn)并不容易做到。
如何通過人工教育簡(jiǎn)化學(xué)習(xí)過程?概念和當(dāng)前熱門的Learning to Learn相關(guān), 但這里強(qiáng)調(diào)的并不是讓機(jī)器學(xué)會(huì)學(xué)習(xí)的方法,而是如何能讓機(jī)器通過簡(jiǎn)單的實(shí)例就能學(xué)習(xí)到的所學(xué)的內(nèi)容,如果能夠達(dá)到One Shot Learning的效果最好。