10 年前電影《鋼鐵俠》上映,影片中那個(gè)能幫助主人翁 TonyStark 處理各種事物、計(jì)算各種信息的智能管家 Jarvis,憑借著流暢無(wú)障的人機(jī)對(duì)話(huà)、近乎無(wú)所不能的技能、具備人格和獨(dú)立思維等理想的設(shè)定,成為了不少人對(duì) AI 助手的完美假想對(duì)象。
是的,在科幻作品從來(lái)都不缺乏想象力,回憶起早期標(biāo)榜科幻的動(dòng)漫作品《人型電腦天使心》,同樣也為我們描繪了一個(gè)更加理想化的 AI 世界:AI 變成人型具象的產(chǎn)品形態(tài),來(lái)服務(wù)人類(lèi)。
當(dāng)然,以上只是科幻作品對(duì)于 AI 所進(jìn)行的暢想,距離現(xiàn)實(shí)生活仍有非常大的差距,不過(guò)一部分在過(guò)去曾被認(rèn)為是科幻情節(jié)的功能,例如語(yǔ)音助手,其實(shí)已經(jīng)在智能手機(jī)、智能音箱等產(chǎn)品上露面了。
盡管它們不能做到像 Jarvis 那樣將自主意識(shí)轉(zhuǎn)移到云端,從而變得無(wú)處不在;也不能做到像人型電腦那般擬人仿真,但作為一個(gè)搭載智能語(yǔ)音助手的產(chǎn)品,它們基本也能完成用戶(hù)在日常生活中指派的多數(shù)命令。
(圖自:TechHive)
相比起智能手機(jī),在銷(xiāo)量上還不足以被稱(chēng)得上是「爆款」的智能音箱,近年來(lái)反而變成了被越來(lái)越多企業(yè)寄予厚望的 AI 「新容器」,在現(xiàn)今的智能音箱領(lǐng)域里,不僅有硅谷科技巨頭的風(fēng)向指引,還有一部分國(guó)內(nèi)創(chuàng)業(yè)團(tuán)隊(duì)全力押注。
盡管智能音箱的存在感正在逐漸變得越來(lái)越明顯,但有不少用戶(hù)反饋,現(xiàn)階段的智能音箱仍然無(wú)法勾起他們的購(gòu)買(mǎi)欲望。
不過(guò),這問(wèn)題到底出在哪里?
這可能是「落差感」的鍋
前面之所以提到科幻作品中 AI 的情節(jié)與現(xiàn)實(shí)中 AI 情況的對(duì)比,其實(shí)我想順延下來(lái)表達(dá)一個(gè)點(diǎn)—落差感。實(shí)際上,大多數(shù)用戶(hù)在買(mǎi)智能音箱之前和買(mǎi)智能音箱之后,往往都會(huì)形成這樣一個(gè)非常明顯的反差:
買(mǎi)之前:這些功能看上去好方便、好好用!
買(mǎi)之后:用起來(lái)好像也就那樣…
如果將智能音箱帶來(lái)的這個(gè)落差感從使用體驗(yàn)的角度再進(jìn)一步分析并拆分,我們基本上可以總結(jié)出造就這種反差感受的幾個(gè)細(xì)分點(diǎn)。
功能并非剛需
現(xiàn)在的智能音箱在功能上基本都大同小異,它們大多都是以播放音頻內(nèi)容作為核心,并在語(yǔ)音交互的基礎(chǔ)上,拓展了聊天、控制智能家居、查詢(xún)天氣、講笑話(huà)、查交通、定鬧鐘等方面的功能。
XX,幫我設(shè)一個(gè) 7 點(diǎn)的鬧鐘。
XX,播放一首周杰倫的歌。
XX,今天需要帶雨傘嗎?
…
實(shí)際上,對(duì)于用戶(hù)來(lái)說(shuō),這些功能并非剛需,況且一部分智能手機(jī)已經(jīng)兼具了語(yǔ)音助手,透過(guò)這些智能手機(jī),你也能獲得相似的功能和體驗(yàn)。
(圖自:Tata CLiQ)
不懂人意,答非所問(wèn)
與宣傳視頻中描繪的美好景象不同,在實(shí)際體驗(yàn)中,語(yǔ)音識(shí)別率和句意理解仍然是阻礙用戶(hù)獲得良好使用體驗(yàn)方面的障礙之一。
首先是語(yǔ)音識(shí)別率,我想很多用戶(hù)在多次喚醒智能音箱未遂,或音箱多次無(wú)法準(zhǔn)確識(shí)別出指令后,應(yīng)該會(huì)對(duì)智能音箱的興趣減掉了一大半。
其次是句意理解的問(wèn)題,在某些時(shí)候,大多數(shù)智能音箱其實(shí)是不能聽(tīng)懂你的意思的。一旦提問(wèn)句式變得復(fù)雜、句子結(jié)構(gòu)與智能音箱預(yù)設(shè)不符,那么它很容易將你的指令變成搜歌或搜索網(wǎng)頁(yè)的關(guān)鍵詞。
不具備「流暢」的對(duì)話(huà)能力
也正因?yàn)樗欢艘狻⒋鸱撬鶈?wèn),并且它響應(yīng)速度慢、每次接受指令前,都需要喚醒詞喚醒。因而這些問(wèn)題所帶來(lái)的中斷感和不便,就讓你很難與智能音箱展開(kāi)一次流暢的對(duì)話(huà)。
而且,目前還有蠻多的智能音箱并不支持聊天內(nèi)容上下文關(guān)聯(lián),簡(jiǎn)單來(lái)說(shuō),就是智能音箱已經(jīng)記不住你上幾句話(huà)說(shuō)了什么。
AI 仍需要用戶(hù)幫忙培育
實(shí)際上,現(xiàn)在的智能音箱產(chǎn)品還不能做到真正的「智能」。它需要繼續(xù)積累用戶(hù)的數(shù)據(jù),并通過(guò)分析用戶(hù)的使用情況,逐步完善其智能性,這樣它才能在你需要的時(shí)候,變得相對(duì)更懂你。
從這一過(guò)程到真正成熟,可能需要相對(duì)漫長(zhǎng)的時(shí)間,而這對(duì)于購(gòu)買(mǎi)了產(chǎn)品的用戶(hù)來(lái)說(shuō),可能不是一件能接受的事情。因?yàn)檫@樣便會(huì)在他們的主觀(guān)印象中,留下一個(gè)智能音箱技術(shù)不成熟、不實(shí)用的烙印。
用戶(hù)希望從智能音箱中獲得什么呢?
外媒 Forbes 曾在《解釋人工智能重要性的關(guān)鍵定義》一文中提到,人工智能的定義已經(jīng)逐漸從傳統(tǒng)字面上的理解轉(zhuǎn)變?yōu)?3 種試圖實(shí)現(xiàn)的形態(tài):
構(gòu)建與人類(lèi)思維方式相近的系統(tǒng)(強(qiáng) AI)
只會(huì)執(zhí)行而不懂人類(lèi)思維方式的系統(tǒng)(弱 AI)
基于人類(lèi)思維方式作為模板,但最終不斷進(jìn)化和發(fā)展的系統(tǒng)
如果從上述的概念看,現(xiàn)階段的智能音箱應(yīng)該是屬于第二種弱 AI 的范疇內(nèi),它們不具備獨(dú)立的思維,無(wú)法揣測(cè)用戶(hù)的想法,并且只會(huì)執(zhí)行預(yù)設(shè)的指令。
對(duì)于這種程度的 AI 智能音箱,其實(shí)指望它能像 Jarvis、人型電腦那樣知你懂你,是不現(xiàn)實(shí)的。不過(guò),回歸到實(shí)際需求上來(lái)看,用戶(hù)希望從智能音箱中獲得什么呢?如果將上面列出的這些問(wèn)題歸納總結(jié)起來(lái),大致能得出兩個(gè)方面的需求,一個(gè)是要足夠智能,另一個(gè)是技能和服務(wù)要多。
要足夠智能
這里又可以拆分為兩部分:一個(gè)是智能音箱要「知你懂你」,另一個(gè)是盡可能地想你所想。
「知你懂你」這里所說(shuō)的含義,是指音箱能夠知道你說(shuō)的指令,并懂你想表達(dá)的意思。簡(jiǎn)單來(lái)說(shuō),就是語(yǔ)音識(shí)別準(zhǔn)確率和句意理解能力。
之前在我體驗(yàn)渡鴉 Raven H 智能音箱的時(shí)候,它的語(yǔ)音識(shí)別準(zhǔn)確率就讓我滿(mǎn)意:即便是用 80% 的音量播放音樂(lè)、離 Raven H 相距 3 米左右的距離時(shí),它都能響應(yīng)到,并準(zhǔn)確識(shí)別出語(yǔ)音指令。
而說(shuō)到句意理解能力這一塊,目前大多數(shù)智能音箱仍然限制在預(yù)設(shè)句式的條條框框之中。
但實(shí)際上「知你懂你」這個(gè)問(wèn)題,已經(jīng)隨著專(zhuān)用語(yǔ)音芯片的逐步成熟以及語(yǔ)音交互生態(tài)的支持,能夠從根本改善這個(gè)方面的體驗(yàn)。
至于想你所想,其實(shí)就是通過(guò)了解用戶(hù)的使用習(xí)慣來(lái),來(lái)提前預(yù)知用戶(hù)的需求。現(xiàn)在大多數(shù)智能音箱還不具備這樣的能力,那么有沒(méi)有解決的方法?渡鴉使用了一種「非智能」的方式來(lái)解決這個(gè)問(wèn)題。
在 Raven H 上,渡鴉提供了一個(gè) Flow 的功能,通過(guò)用戶(hù)手動(dòng)預(yù)先設(shè)置后, Raven H 會(huì)在每天鬧鐘提醒后,自動(dòng)播報(bào)當(dāng)天的天氣、路況、限行以及你的日程安排。
盡管這離真正的想你所想還有蠻大的差距,但起碼在 AI 技術(shù)還不夠成熟的時(shí)候,這也算是一種折中的方案。
技能和服務(wù)要盡可能多
在使用各種不同的智能音箱后,它們留給我印象最深的并不是那些像播放音樂(lè)、查天氣、講笑話(huà)等基礎(chǔ)功能,而是它們的技能與服務(wù)所帶來(lái)的延伸功能。
例如,我就記住了天貓精靈 X1 可以點(diǎn)外賣(mài)、充話(huà)費(fèi);小米 AI 音箱和渡鴉 Raven H 能夠查找手機(jī)…
盡管這當(dāng)中某些技能和服務(wù),未必是每個(gè)用戶(hù)最需要、最實(shí)用的功能,但在基礎(chǔ)功能體驗(yàn)拉不開(kāi)較大差距的智能音箱領(lǐng)域,這些小技能和服務(wù),反而是一款智能音箱相較于其他競(jìng)品獨(dú)有的小優(yōu)勢(shì)。
實(shí)際上,作為參照對(duì)象的亞馬遜 Echo 智能音箱,它在剛開(kāi)始面世的時(shí)候音質(zhì)一般智能不足,但是隨著亞馬遜不斷讓其學(xué)習(xí)更多的技能,于是它終成標(biāo)桿。
其中 Echo 利用技能和服務(wù)所做到了的一個(gè)優(yōu)勢(shì),便是將功能延伸到更多的智能家居設(shè)備上,并與它們建立起聯(lián)動(dòng)性。
而在聯(lián)動(dòng)智能家居這方面,愛(ài)范兒此前體驗(yàn)蘋(píng)果的樣板房時(shí),就已經(jīng)感受到這方面的便利性。當(dāng)時(shí),蘋(píng)果還未推出智能音箱 HomePod,覆蓋了不少 HomeKit 設(shè)備的樣板房仍以 Apple TV 或 iPad 作為智能家居的中樞。
但使用 Apple TV 控制又有些繁瑣,iPad 又因隨身攜帶的幾率高而容易失去對(duì)智能家居中樞的遠(yuǎn)程控制。這個(gè)時(shí)候,音箱就是這個(gè)場(chǎng)景下最佳的解決方案。
畢竟,用戶(hù)面對(duì)的都是一些邏輯簡(jiǎn)單的操作,如控制設(shè)備開(kāi)關(guān)和調(diào)整溫度。這些通過(guò)語(yǔ)音就能夠操控,中間也不需要屏幕的參與。在這個(gè)狀態(tài)下,用戶(hù)只需要一個(gè)可聯(lián)網(wǎng)、帶智能助手的音箱就能夠解決問(wèn)題。
因此,盡可能多地?cái)U(kuò)展智能音箱的技能和服務(wù),也是智能音箱一個(gè)關(guān)鍵的點(diǎn)。
總的來(lái)說(shuō),作為一種基于弱 AI 形態(tài)的產(chǎn)品,智能音箱的本質(zhì)其實(shí)還只是生活中的一種「輔助」工具,但這也不是說(shuō),它就沒(méi)有成為生活必需品的潛質(zhì)。隨著 AI 技術(shù)的不斷發(fā)展,硬件芯片的功能逐漸完善、語(yǔ)音識(shí)別等核心技術(shù)取得突破以及智能家居的普及,可以預(yù)見(jiàn)的是,像智能音箱這樣的產(chǎn)品將會(huì)慢慢變得成熟、可靠,并且更好地為我們的生活服務(wù)。
指不準(zhǔn),未來(lái)的智能音箱形態(tài)就真的會(huì)變成一個(gè)無(wú)處不在的 Jarvis,或是一位人型電腦呢?