整個(gè)服務(wù)機(jī)器人產(chǎn)業(yè)建立在三大核心技術(shù)模塊:人機(jī)交互及識(shí)別模塊、環(huán)境感知模塊、運(yùn)動(dòng)控制模塊。依托于三大模塊,機(jī)器人有基礎(chǔ)的硬件:電池模組、電源模組、主機(jī)、存儲(chǔ)器、專用芯片等,還有操作系統(tǒng)。
智能機(jī)器人三大核心技術(shù)模塊:感知+交互+運(yùn)控
整個(gè)服務(wù)機(jī)器人產(chǎn)業(yè)建立在三大核心技術(shù)模塊:人機(jī)交互及識(shí)別模塊、環(huán)境感知模塊、運(yùn)動(dòng)控制模塊。依托于三大模塊,機(jī)器人有基礎(chǔ)的硬件:電池模組、電源模組、主機(jī)、存儲(chǔ)器、專用芯片等,還有操作系統(tǒng):ROS、Linux、安卓等;由硬件和操作系統(tǒng)構(gòu)成機(jī)器人整機(jī),整合基礎(chǔ)硬件、系統(tǒng)、算法、控制元件,形成滿足定行走能力和交互能力的機(jī)器人整機(jī);在此基礎(chǔ)上形成各種基礎(chǔ)應(yīng)用開(kāi)發(fā),基于機(jī)器人操作系統(tǒng)開(kāi)發(fā)的控制類APP、管理員APP和各類應(yīng)用程序App等;產(chǎn)生的數(shù)據(jù)將有群組服務(wù)、云服務(wù)、大數(shù)據(jù)服務(wù)等。
服務(wù)機(jī)器人的交互能力、感知能力、運(yùn)動(dòng)能力對(duì)應(yīng)三大模塊。交互模塊包括語(yǔ)音識(shí)別、語(yǔ)義識(shí)別、語(yǔ)音合成、圖像識(shí)別等,相當(dāng)于人的大腦;感知模塊借助于各種傳感器、陀螺儀、激光雷達(dá)、相機(jī)、攝像頭等,相當(dāng)于人的眼、耳、鼻、皮膚等;運(yùn)控模塊包括舵機(jī)、電機(jī)、芯片等。
服務(wù)機(jī)器人的各個(gè)細(xì)分模塊中,語(yǔ)音模塊重要性和成熟度均高,語(yǔ)義模塊是目前突破重點(diǎn),運(yùn)控模塊相對(duì)重要性弱。服務(wù)機(jī)器人三大模塊可以繼續(xù)細(xì)分為語(yǔ)音模塊、語(yǔ)義模塊、圖像模塊、感知模塊、運(yùn)控模塊、芯片模塊。重要性排序依次為:語(yǔ)音模塊、語(yǔ)義模塊、芯片模塊、圖像模塊、感知模塊、運(yùn)控模塊。成熟度重要性排序依次為:語(yǔ)音模塊、圖像模塊、運(yùn)控模塊、感知模塊、語(yǔ)義模塊、芯片模塊。
從技術(shù)儲(chǔ)備上來(lái)看,人工智能是核心。目前的技術(shù)儲(chǔ)備方面,只有語(yǔ)音和OCR領(lǐng)域具備定的成熟度。語(yǔ)音和OCR領(lǐng)域已發(fā)展接近20年,在某些特定場(chǎng)景和行業(yè)已經(jīng)有了些數(shù)據(jù)基礎(chǔ)。其他的技術(shù)包括圖像識(shí)別、語(yǔ)義分析都還在很早期的階段。語(yǔ)音領(lǐng)域,也是目前已知的平臺(tái)類企業(yè)大的板塊。
服務(wù)機(jī)器人多場(chǎng)景特征,多模態(tài)交互融合是關(guān)鍵
從代以鼠標(biāo)和鍵盤的交互方式為特點(diǎn)的PC互聯(lián)網(wǎng),到第二代以觸屏、GPS等交互方式為特點(diǎn)的移動(dòng)互聯(lián)網(wǎng),再到今天以多模態(tài)人機(jī)交互方式為特點(diǎn)的第三代互聯(lián)網(wǎng),服務(wù)機(jī)器人產(chǎn)業(yè),底層的邏輯就是人機(jī)交互方式的發(fā)展和演變。
隨著語(yǔ)音交互、視覺(jué)圖像交互、動(dòng)作交互、腦電波交互等多模態(tài)人機(jī)交互技術(shù)的逐步發(fā)展和成熟,這些第三代人機(jī)交互方式將會(huì)深層次地改變我們?nèi)粘I畹膽?yīng)用場(chǎng)景;同時(shí),場(chǎng)第三代互聯(lián)網(wǎng)的主流終端模式和服務(wù)內(nèi)容入口的競(jìng)爭(zhēng)也在同步進(jìn)行。
什么是多模態(tài)交互?多模態(tài)融合了視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)等交互方式,其表達(dá)效率和表達(dá)的信息完整度要由于傳統(tǒng)單的交互模式。人機(jī)交互是服務(wù)機(jī)器人場(chǎng)景化不可或缺的環(huán)節(jié)。傳統(tǒng)的交互模式中,大多是單單向的交互方式。人機(jī)對(duì)話中,尤其是多輪人機(jī)對(duì)話,涉及到語(yǔ)音理解、語(yǔ)義分析、情感分析、動(dòng)作捕捉等多個(gè)維度。