摘要:語音交互屬人機交互的范疇,是一種比較前沿的交互方式。
當初,蘋果SIRI的智能語音控制功能驚艷一時,語音交互帶給人類巨大便捷。如今,近場(近距離)語音交互的輝煌成為過去,遠場(遠距離)到來。
語音交互屬人機交互的范疇,是一種比較前沿的交互方式。今年7月,小米AI音箱發布,其最大亮點就是此類功能,用戶只需說一聲“小愛同學”就可喚醒它。所有智能設備與人的語音交互,都離不開一套可聽清人聲、從而做出反應的“喚醒技術方案”。
而聲智科技就是小米AI音箱麥克風陣列和“喚醒技術方案”的提供者。帶著對該技術的疑問,投資家網記者在近日采訪到了聲智科技創始人陳孝良,聽他聊聊聲智與語音交互技術背后的故事。
聲智的喚醒技術方案
陳孝良早前在中科院聲學所任職,從事工業級、國防級聲學相關研究。2016年,語音交互市場持續火熱。在經過多番調研、反復思量后,陳孝良與他在中科院的朋友成立了聲智科技。
成立以來,聲智科技專注于遠場人工智能交互,提供從軟硬件到云服務的遠場語音交互技術方案,以及從芯片模組、PCBA到工業設計的Turnkey產品方案。
語音交互的基礎建立在智能設備可以準確收集、識別人聲,從而達到喚醒。在喚醒技術方案上,聲智科技推出了領先行業的單麥/雙麥,4+1, 6+1等麥克風陣列方案。
所謂麥克風陣列,就是收集語音數據的前端硬件,只有精準收集人聲,才能談人機交互。
傳統的單麥克風系統只適用于低噪聲、無混響、距離聲源很近的情況,比如人和手機語音助手的交互。而在遠距離語音交互場景中,距離聲源遠、環境中的大量噪聲、多徑反射和混響都會導致拾取信號的質量下降,嚴重影響語音識別率。基于此,多麥克風處理語音的麥克風陣列應運而生。
麥克風陣列是按一定幾何結構(常用線形、環形)擺放的麥克風組成,對采集的不同空間方向的聲音信號進行空時處理,實現噪聲抑制、混響去除、人聲干擾抑制、聲源測向、聲源跟蹤、陣列增益等功能,進而提高語音信號處理質量,以提高真實環境下的語音識別率。
而在市場上大賣的亞馬遜Echo智能音箱,就是使用4麥以上的麥克風陣列。聲智的4+1, 6+1等麥克風陣列方案可以說領先行業。
采訪中,陳孝良顯得很健談。唯獨談及語音交互市場現狀時,他減慢了語速冷靜分析著自己投身的行業。
語音交互市場的現狀
盡管語音交互市場持續火熱,但整個行業還存在諸多現實的問題。
首先,遠場語音交互的聲音辨識度還很低。
復雜的現實環境和實驗室的環境天壤之別,不同場景中有不同的噪音,智能設備如何在復雜環境中準確識別人聲,一直是行業的最大痛點。
“聲智的遠場語音識別率,目前已達到90%,但是距離人和機器隨心所欲的對話還有一個漫長的階段”陳孝良坦言。
產品落地的迫切
遠場語音交互技術不應用在實際產品上,它就只是一個實驗室研究。
市場上的語音產品中,將這項技術應用在智能音箱上的居多。亞馬遜的 Echo、 京東的叮咚、小米AI音箱、阿里的天貓精靈,可以看出,只有落地產品才能搶占市場份額。
巨頭布局整個生態
回顧過往,整個語音交互市場從來不缺巨頭的參與。
國外的微軟、谷歌、蘋果、亞馬遜早早布局了各自的語音產品,國內百度、京東、阿里也相繼進入語音交互市場。
聲智的競爭優勢
不久前,聲智科技宣布完成近億元的A輪融資,由百度、藍港互動、洪泰基金、峰瑞資本聯合財務投資。
資本垂青的背后,是聲智在前景廣闊的語音交互市場中獨特的優勢:
一、一體化語音交互方案
“做為整個生態鏈里的技術解決方案提供商,聲智在技術上一定要具備優勢。只有得到市場驗證的技術,才可以獲得合作伙伴的認可。”陳孝良對記者說到。
完整的語音產品方案除了麥克風陣列為主的硬件前端,還有云端、合作內容兩部分。
硬件前端是麥克風陣列、降噪算法、芯片、硬件平臺等;云端是語音識別和語義理解、語音數據;合作內容是音樂、天氣、短信、通話等應用工具。
聲智科技的一體化語音交互方案包括了領先的麥克風陣列方案,以及云端服務。
基于這些核心技術,百度、騰訊、小米、360、聯想等著名品牌相繼與聲智建立合作。
二、在各個領域實現產品落地
目前,聲智科技在智能家居、智能汽車、智能安防、智能金融、智能教育都有落地產品。
除了在智能音箱領域與小米的合作,聲智在智能安防領域有 “奇虎360小水滴智能攝像頭;智能機器人領域有“奇虎360兒童陪伴機器人”。
而在智能車載領域,聲智科技對準駕駛員語音控制和全車語音控制的用戶需求,提供了單麥識別優化算法和分布式麥克風陣列方案。
三、持續盈利
不止語音交互市場,縱觀整個人工智能行業,可以實現持續盈利的公司也沒有幾家。人工智能領域,還處于投入開發階段。
聲智科技做為一家技術驅動型公司,通過賣技術、產品、服務,已達到持續盈利。
“我們的產品質量上好一點,成本上控制低一些,這些可以形成競爭優勢。最早的時候,一套開發板賣幾千塊,也是營收。”陳孝良感慨。
語音交互市場的巨大前景
與其他行業相同,國內語音交互市場同樣依賴國外核心芯片。同時,國外巨頭虎視眈眈準備進軍中國語音交互市場。我們國家整個語音交互市場的現狀非常嚴峻。
不可否認的是,語音交互市場的前景是廣闊的。人工智能帶來的社會變革,就是讓人類選擇更便捷的生活方式。
在眾多智能產品中,用戶可以通過各種手段對其進行控制,而語音交互無疑是最便捷的操控手段。所以,人工智能的發展將與語音交互發展深度相連。
在這場智能變革的浪潮中,持續優化遠場語音交互體驗、打通與產業鏈上下游企業的合作,正是聲智科技未來應做的事。
首席內容指導:投資家網蔣東文(曾用名:蔣冬文)
北京市助理全科醫師規范化培訓是面向基層的臨床醫學專科畢業生開展的畢業后教育,是以提高臨床思維、臨床技...
企業是推動經濟高質量發展主力軍,近年來,為進一步弘揚企業家精神,增強企業家的榮譽感、使命感,我國越來...
投資家網(m.51baobao.cn)是國內領先的資本與產業創新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創業企業、地方政府等提供專業的第三方信息服務,包括行業媒體、智庫服務、會議服務及生態服務。長按右側二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。
2016年注冊于北京的中氫新能技術有限公司,下設位于大興的裝備制造公司、位于海淀區的技術研究院、材料...
一度無比高光的理想汽車,猝不及防遭遇重挫。
2024年1月10日,由投資家網主辦,財經銳眼、有時間協辦,北京微金科技有限公司承辦的“第十二屆股權...
2024年1月10日,由投資家網主辦,財經銳眼、有時間協辦,北京微金科技有限公司承辦的“第十二屆股權...
2024年1月10日,由投資家網主辦,財經銳眼、有時間協辦,北京微金科技有限公司承辦的“第十二屆股權...