人機(jī)交互新時(shí)代無(wú)人駕駛最后門(mén)檻竟是它？

智慧廣電 dvbcn編輯 2018-01-03 10:05 閱讀 4,398 來(lái)源：DVBCN 　

隨著無(wú)人駕駛快速的發(fā)展，用戶(hù)對(duì)駕駛體驗(yàn)的需求越來(lái)越高，良好的人機(jī)交互有助于提升駕駛體驗(yàn)，并且加速無(wú)人駕駛市場(chǎng)化的進(jìn)程。清華大學(xué)汽車(chē)工程系副教授李升波博士認(rèn)為，「人機(jī)交互是無(wú)人駕駛汽車(chē)市場(chǎng)化的最后門(mén)檻」。

文章從以人為中心的「人」的角度出發(fā)，探討了無(wú)人駕駛領(lǐng)域涉及的兩類(lèi)主要人群駕駛者（車(chē)內(nèi)人和車(chē)外人）與汽車(chē)的人機(jī)交互方式（車(chē)內(nèi)人與汽車(chē)的交互主要以語(yǔ)音和手勢(shì)交互為主；車(chē)外人與車(chē)的交互方式目前仍處于概念性的研發(fā)階段），梳理了語(yǔ)音交互與手勢(shì)交互在無(wú)人駕駛領(lǐng)域的進(jìn)展以及車(chē)與車(chē)外人的交互方式，分析了各交互現(xiàn)有的問(wèn)題并提出了相應(yīng)的建議。

1. 引言

隨著新一代信息技術(shù)的發(fā)展，汽車(chē)智能化、網(wǎng)聯(lián)化的趨勢(shì)豐富了無(wú)人駕駛的范疇與深度，極大地推動(dòng)了無(wú)人駕駛商業(yè)化的進(jìn)程。無(wú)人駕駛在今天看來(lái)不算是一個(gè)全新的概念，部分車(chē)企巨頭已經(jīng)紛紛完成了無(wú)人駕駛的路測(cè)，并且各大汽車(chē)企業(yè)將無(wú)人駕駛初步商用化的時(shí)間點(diǎn)預(yù)估在 2025 年，不出 10 年，無(wú)人駕駛會(huì)成為現(xiàn)實(shí) 。從無(wú)人駕駛理念的提出到發(fā)展至今的智能網(wǎng)聯(lián)化趨勢(shì)，無(wú)人駕駛本質(zhì)上都是解決人的出行需求。

隨著各大汽車(chē)、互聯(lián)網(wǎng)及科技巨頭企業(yè)在 ADAS（高級(jí)輔助駕駛系統(tǒng)）、通信等方面的深入研究，無(wú)人駕駛作為一種出行方式，其在車(chē)輛安全駕駛的技術(shù)上有很大進(jìn)展。但目前各車(chē)企關(guān)于汽車(chē)與人的交互研究還不夠深入，情緒檢測(cè)、自適應(yīng)人機(jī)交互、眼球追蹤、語(yǔ)境語(yǔ)音等提升汽車(chē)智能化、差異化的 HMI 技術(shù)還不夠成熟，需要進(jìn)一步優(yōu)化。人機(jī)交互是無(wú)人駕駛市場(chǎng)化的關(guān)鍵，良好的人機(jī)系統(tǒng)有助于推動(dòng)無(wú)人駕駛商用的進(jìn)程，正如清華大學(xué)汽車(chē)工程系副教授、智能交通學(xué)者李升波所說(shuō)「人機(jī)交互是無(wú)人駕駛汽車(chē)市場(chǎng)化的最后門(mén)檻」。

人機(jī)交互是以「人」為核心，無(wú)人駕駛涉及到的直接「人」有兩種，車(chē)內(nèi)人與車(chē)外人，車(chē)內(nèi)人主要以駕駛員為核心，車(chē)外人主要以行人為核心。本文將從「人」的角度出發(fā)，探討不同身份的人與車(chē)的交互方式：

對(duì)于車(chē)內(nèi)人，目前各企業(yè)研究的熱點(diǎn)集中在語(yǔ)音識(shí)別、手勢(shì)控制這兩種交互技術(shù)上；

對(duì)于車(chē)外人，目前與之相關(guān)的研究較少，人為駕駛模式的時(shí)候，行人通常會(huì)與司機(jī)有目光的交流以增加安全感；而無(wú)人駕駛階段，這一互動(dòng)就尤為困難，那么對(duì)行人開(kāi)發(fā)新的信息反饋方式顯得尤為必要，所以對(duì)車(chē)外人來(lái)說(shuō)，車(chē)與人的交互方式是以信息反饋為目標(biāo)進(jìn)行研究。

2. 車(chē)內(nèi)人與車(chē)的交互方式

2.1 語(yǔ)音交互

語(yǔ)音交互最基本的目的是輔助行車(chē)安全，在安全性保障的基礎(chǔ)上被用于提升車(chē)內(nèi)的體驗(yàn)樂(lè)趣。根據(jù)車(chē)載市場(chǎng)語(yǔ)音調(diào)查報(bào)告顯示，40% 的車(chē)企已將語(yǔ)音交互技術(shù)搭載在自己的產(chǎn)品上、50% 的車(chē)企正在開(kāi)發(fā)語(yǔ)音交互系統(tǒng)，可見(jiàn)語(yǔ)音交互將逐漸成為車(chē)聯(lián)網(wǎng)交互方式的主流，預(yù)計(jì)其將會(huì)成為無(wú)人駕駛領(lǐng)域排名第一的人機(jī)交互方式。

語(yǔ)音交互的模式為語(yǔ)音系統(tǒng)置入智能手機(jī)或語(yǔ)音系統(tǒng)配置在車(chē)載終端上兩種方式，車(chē)企中采用用智能手機(jī)為語(yǔ)音操作端的解決方案以寶馬、福特、通用、現(xiàn)代等企業(yè)為代表，語(yǔ)音系統(tǒng)搭載車(chē)載終端的企業(yè)以?shī)W迪、通用、現(xiàn)代、特斯拉、吉利、長(zhǎng)安等為代表，主要的功能以撥打電話(huà)、導(dǎo)航、娛樂(lè)系統(tǒng)命令下達(dá)等為主。

人機(jī)交互新時(shí)代無(wú)人駕駛最后門(mén)檻竟是它？-DVBCN

圖 1 Nuance 聲龍駕駛（Dragon Drive）系統(tǒng)

汽車(chē)領(lǐng)域現(xiàn)有的代表性的語(yǔ)音交互系統(tǒng)有 Nuance 通信公司的 Dragon Drive 語(yǔ)音助手、奇瑞和科大訊飛聯(lián)合開(kāi)發(fā)的 Cloudrive2.0 系統(tǒng)：

Dragon Drive 語(yǔ)音助手可以實(shí)現(xiàn)撥打電話(huà)、閱讀信息、智能導(dǎo)航、車(chē)輛保養(yǎng)維修預(yù)約等功能，具有自然語(yǔ)音識(shí)別及語(yǔ)言語(yǔ)境學(xué)習(xí)的能力，并且能夠與駕駛員進(jìn)行簡(jiǎn)單的對(duì)話(huà)；

Cloudrive2.0 系統(tǒng)的亮點(diǎn)在于自然語(yǔ)言的識(shí)別，可以識(shí)別 16 種方言，以及強(qiáng)大的降噪能力使得語(yǔ)音交互更加智能、精準(zhǔn)。

語(yǔ)音交互在實(shí)際的運(yùn)用過(guò)程中其實(shí)并不是很成熟，根據(jù)美國(guó) J.D. Power 機(jī)構(gòu)發(fā)布 2016 汽車(chē)新車(chē)質(zhì)量調(diào)查顯示，在眾多交互的問(wèn)題中，語(yǔ)音交互故障率高達(dá) 23%。語(yǔ)音交互主要的問(wèn)題有：

交互的自然性低：現(xiàn)階段語(yǔ)音命令主要以固定的搭配為主，可以接收的命令有限，而且受到地方口音與專(zhuān)有名詞以及特殊語(yǔ)義的限制，大大降低了語(yǔ)音系統(tǒng)的識(shí)別性；

靈活性不夠：系統(tǒng)對(duì)駕駛者發(fā)出的命令不能做出靈活性的修正，在駕駛?cè)藛T口誤的情況下，即使提高了識(shí)別的準(zhǔn)確率，也無(wú)法獲得正確的交互；

抗噪性：部分情況下車(chē)內(nèi)不是單獨(dú)只有駕駛員，還有其它乘客，語(yǔ)音交互系統(tǒng)如何正確區(qū)分駕駛員的命令、乘客之間的交流也是要解決的問(wèn)題。

在無(wú)人駕駛車(chē)輛中，駕駛員對(duì)安全行駛的注意力會(huì)減弱，更多精力會(huì)投入到其它事情當(dāng)中，對(duì)車(chē)內(nèi)交互深度與智能度要求會(huì)更高，全自然的語(yǔ)音交流將成為用戶(hù)真正渴望的交互方式，未來(lái)的語(yǔ)音交互不單單是命令式交互，更多的是場(chǎng)景化的應(yīng)用。

2.2 手勢(shì)交互

正確理解人類(lèi)的手勢(shì)語(yǔ)言，同樣是汽車(chē)領(lǐng)域人機(jī)交互的研究熱點(diǎn) [2]。相比較語(yǔ)音控制和觸摸屏，手勢(shì)交互的技術(shù)門(mén)檻更高，交互形式復(fù)雜，現(xiàn)階段的成熟度較低，手勢(shì)控制實(shí)現(xiàn)起來(lái)更加困難。手勢(shì)交互現(xiàn)階段只能完成一些簡(jiǎn)單的交互，比如打電話(huà)、調(diào)節(jié)音量等操作。如表 1 為各巨頭企業(yè)在汽車(chē)手勢(shì)交互領(lǐng)域的研究。

表 1 各公司手勢(shì)識(shí)別技術(shù)

從表可看出，各企業(yè)在交互方式與交互內(nèi)容上各有差異，其中大陸基于減少駕駛員分心的理念將手勢(shì)識(shí)別集中在方向盤(pán)上，不同于其它企業(yè)將識(shí)別集中在中央扶手附近。此外，從技術(shù)角度來(lái)看， ToF 技術(shù)（Time of Flight）、結(jié)構(gòu)光技術(shù)、毫米波雷達(dá)技術(shù)為汽車(chē)領(lǐng)域手勢(shì)識(shí)別的主要技術(shù)：

ToF 技術(shù)是利用光線(xiàn)傳播的時(shí)間來(lái)識(shí)別手的位置及手的姿勢(shì) [3]；

結(jié)構(gòu)光技術(shù)采用點(diǎn)、線(xiàn)、面的光獲得圖像，并利用三角原理得到手的位置及姿勢(shì) [4]；

毫米波雷達(dá)技術(shù)利用雷達(dá)波收發(fā)的時(shí)間差確定手的位置及手勢(shì) [5]。

從技術(shù)難度及計(jì)算效率來(lái)說(shuō)， ToF 技術(shù)較為簡(jiǎn)單，不需要任何計(jì)算機(jī)視覺(jué)方面的計(jì)算，這也是目前大部分公司青睞 ToF 技術(shù)的原因。

對(duì)汽車(chē)行業(yè)內(nèi)的手勢(shì)交互應(yīng)用進(jìn)行研究，總結(jié)出目前手勢(shì)交互存在的問(wèn)題有：功能單一，缺乏統(tǒng)一的規(guī)劃，人與車(chē)的自然交互匱乏，多數(shù)企業(yè)的手勢(shì)交互系統(tǒng)識(shí)別準(zhǔn)確率不高，識(shí)別速度緩慢，這些問(wèn)題使得人機(jī)體驗(yàn)質(zhì)量下降?，F(xiàn)有的手勢(shì)交互難點(diǎn)有：

手勢(shì)識(shí)別技術(shù)的成熟度不夠，難以高質(zhì)量地完成手勢(shì)控制；

手勢(shì)可表達(dá)的內(nèi)容有限：相比較語(yǔ)音交互來(lái)說(shuō)，手勢(shì)交互難以表達(dá)清楚具體的任務(wù)內(nèi)容，但在表達(dá)任務(wù)的執(zhí)行對(duì)象上來(lái)說(shuō)比語(yǔ)音交互更有優(yōu)勢(shì)；

不同手勢(shì)之間的相似性以及手勢(shì)范圍的模糊性造成系統(tǒng)的誤判。

未來(lái)手勢(shì)交互除了要解決上述的難點(diǎn)，手勢(shì)的設(shè)計(jì)也符合人的習(xí)慣，因?yàn)槭謩?shì)的交互需要投入一定的學(xué)習(xí)成本，未來(lái)人們更希望獲得學(xué)習(xí)成本低、交互自然的體驗(yàn)。手勢(shì)的設(shè)計(jì)也應(yīng)盡可能簡(jiǎn)單，接近日常生活中人們自然交流的姿勢(shì)，同時(shí)也應(yīng)考慮不同人群的文化、習(xí)慣對(duì)手勢(shì)交互進(jìn)行相應(yīng)的定制。

3. 車(chē)外人與車(chē)的交互方式

行人過(guò)馬路的安全感往往來(lái)自與駕駛員的眼神交流或揮手動(dòng)作，人為駕駛時(shí)，很容易實(shí)現(xiàn)與車(chē)外行人的交流，而當(dāng)路面上無(wú)人駕駛的比例上升時(shí)，駕駛員與行人的交流就顯得尤為困難。無(wú)人駕駛階段，駕駛員對(duì)路面的注意力不那么高，那么為保障行人安全感，駕駛員與行人的交互轉(zhuǎn)化為車(chē)與行人的交互是一種必然趨勢(shì)。關(guān)于車(chē)與行人的交互方式各研究機(jī)構(gòu)也有不同的解決方案：

Semcon 研發(fā)出 The Smiling Car 概念汽車(chē)，汽車(chē)前端布置有一塊顯示屏，顯示屏以顯示微笑的圖案告知行人可以通過(guò)馬路；

Drive.ai 初創(chuàng)公司關(guān)注于無(wú)人駕駛車(chē)與路上行人、司機(jī)的交流，其解決方案是在車(chē)子頂部安裝公告牌發(fā)送信息給行人，或者適當(dāng)?shù)匕l(fā)出聲音提醒行人；

Google 公司致力于打造更安全的汽車(chē)，申請(qǐng)了一項(xiàng)「可與行人溝通」的無(wú)人駕駛技術(shù)專(zhuān)利，專(zhuān)利描述了利用電子顯示屏向行人顯示交通標(biāo)志信號(hào)，同時(shí)發(fā)出例如「安全行駛」的聲音提醒，甚至通過(guò)安裝電子眼或機(jī)械手臂向行人示意。

無(wú)人駕駛汽車(chē)與行人的交互現(xiàn)處于概念性的研發(fā)階段，并沒(méi)有實(shí)際地應(yīng)用，對(duì)此方面進(jìn)行研究的公司也比較少。現(xiàn)階段主要的交互以視覺(jué)交互和聽(tīng)覺(jué)交互為主：

視覺(jué)交互除了要考慮各情況下展示的信息內(nèi)容外，還應(yīng)考慮車(chē)速對(duì)行人視覺(jué)的影響；

同樣地，聽(tīng)覺(jué)交互除了考慮發(fā)出的信息內(nèi)容外，聲音的大小以及不同道路環(huán)境的干擾也是要研究的方向。

未來(lái)無(wú)人駕駛或許會(huì)出現(xiàn)更先進(jìn)的與行人交互方式，但無(wú)論是采取什么樣的交互方式，汽車(chē)所發(fā)出的信息要保證能為行人所識(shí)別及理解。車(chē)與行人自然地交互是未來(lái)無(wú)人駕駛必須要解決的問(wèn)題，無(wú)人駕駛不應(yīng)只考慮駕駛員的需求，對(duì)道路上所有人員包括行人、交警的需求考慮在內(nèi)是十分有必要的。

4. 結(jié)語(yǔ)

由于汽車(chē)本身生產(chǎn)的周期性長(zhǎng)，目前部分無(wú)人駕駛與人交互的實(shí)現(xiàn)仍處于概念階段。從交互的角度來(lái)說(shuō)，人與車(chē)最自然的交互方式是沒(méi)有交互，縱觀(guān)目前市場(chǎng)的發(fā)展，現(xiàn)階段的人機(jī)交互距離自然的交互還有很大的差別。目前人機(jī)交互的主要方式是人下達(dá)命令，由機(jī)器去執(zhí)行，在這個(gè)過(guò)程中，人的命令是不能有失誤，否則就無(wú)法實(shí)現(xiàn)正確的操作，這對(duì)于人的安全和體驗(yàn)有一定的隱患。

未來(lái)自然的人機(jī)交互應(yīng)是以情景識(shí)別為主，即機(jī)器通過(guò)環(huán)境來(lái)預(yù)知人的需求，比如車(chē)輛燃料不夠可以自動(dòng)規(guī)劃路線(xiàn)補(bǔ)充燃料、下雨時(shí)自動(dòng)關(guān)閉窗戶(hù)等更加智能地滿(mǎn)足人的需求，以減少人的操作。

汽車(chē)的人機(jī)交互是無(wú)人駕駛最后的門(mén)檻，未來(lái)汽車(chē)的人機(jī)交互系統(tǒng)需要更安全、更穩(wěn)定的技術(shù)，以實(shí)現(xiàn)更智能、更人性化的需求。這不是任何單方可以完成的事情，需要集合汽車(chē)、人工智能、心理學(xué)等不同領(lǐng)域的知識(shí)來(lái)完成這這一復(fù)雜的系統(tǒng)。

無(wú)人駕駛