HiShop / Hi新零售 / 新零售解讀 / 新零售技術(shù)語音交互AI現(xiàn)狀怎么樣？

新零售技術(shù)語音交互AI現(xiàn)狀怎么樣？

時間: 2024-11-01 10:38:33閱讀量：

導(dǎo)讀：Hi新零售消息，語音交互是去年AI最火的領(lǐng)域，先鋒的智能音箱一個單品就讓所有互聯(lián)網(wǎng)大佬們都參戰(zhàn)其中。但從當(dāng)初驚人眼球的蘋果SIRI語音助手到智能音箱，語音這項被寄予厚望成為

　　Hi新零售消息，語音交互是去年AI最火的領(lǐng)域，先鋒的智能音箱一個單品就讓所有互聯(lián)網(wǎng)大佬們都參戰(zhàn)其中。

　　但從當(dāng)初驚人眼球的蘋果SIRI語音助手到智能音箱，語音這項被寄予厚望成為人機交互入口的技術(shù)，似乎未能形成真正顛覆市場的應(yīng)用落地，始終在單品上火一陣試一陣。相反，視覺技術(shù)里人臉識別已經(jīng)形成規(guī)?；幕A(chǔ)應(yīng)用，滲透到金融、安防甚至零售領(lǐng)域。

　　為何最早火起來被寄予厚望的語音交互反而在市場化應(yīng)用這一環(huán)節(jié)上似乎慢了?

　　一方面，相比圖像識別語音的交互鏈條更長，是一個點往縱深深入走。語音交互不只包括識別，還要識別后理解文本意思再反饋出來，包括自然語言理解、語音合成以及對內(nèi)容資源的整合挖掘，路線遠(yuǎn)比圖像更長。

　　另一方面，機器視覺受干擾因素較少，例如人臉識別的臉部特征幾十年不會大變，光線的強弱通過紅外都已經(jīng)解決。而語音是個變量，噪音、環(huán)境、距離、人的發(fā)音特征等因素下的語音交互都完全不一樣，同一句話在逛街、辦公室等不同場景，所表達(dá)的意思完全不一樣。

　　因此，語音比視覺的挑戰(zhàn)更大，它只存在于整體智能，而不是局部智能。語音是個交互手段，通過交互調(diào)取后端的服務(wù)，例如聽什么歌，去什么地方。而這又涉及與后端內(nèi)容的配合，如果第三方內(nèi)容庫內(nèi)容不夠全，也會導(dǎo)致整體語音交互顯得不夠智能。

　　第三，語音商業(yè)化落地不具有非常強的復(fù)制性，圖像識別技術(shù)的應(yīng)用復(fù)制性非常高，對設(shè)備的依賴程度不高，就一個數(shù)據(jù)包在任何情況下都可以用。

　　語音所處的場景不一樣，例如用在機器人、冰箱、車載不同的產(chǎn)品里，對三款產(chǎn)品說同一句“我餓了”，對機器人說有可能就是單純聊天;對車載說肯定不會是點外賣也不會是聊天，只有可能是導(dǎo)航。

新零售模式	國外新零售
門店新零售	馬云新零售解讀
新零售商業(yè)模式	新零售模式概念圖解

　　因此，沒有辦法把所有語義做成一個通用庫復(fù)制到所有產(chǎn)品，每一個產(chǎn)品針對不同場景都有不同需求，都需要個性化定制。

　　基于語音的特征，語音交互的商業(yè)化更像個系統(tǒng)工程，從語音識別到語義理解到后端內(nèi)容資源庫，互相制約，牽一發(fā)而動全身。由于語音交互的復(fù)雜帶來的商業(yè)化困境，語音交互技術(shù)公司也開始走技術(shù)平臺輸出路線。

　　一方面開放自己的基礎(chǔ)技術(shù)能力，讓市場化的應(yīng)用企業(yè)直接在基礎(chǔ)上商業(yè)化應(yīng)用，例如家居、車載、金融、醫(yī)療、教育等各領(lǐng)域的智能語音服務(wù)都可以采用其平臺的技術(shù)來探索細(xì)分領(lǐng)域的商業(yè)化，擴大定制規(guī)?；?另一方面，將語音交互技術(shù)開放出來擴大生態(tài)合作，以突破語音交互的局限。