小米AI實力再次得到驗證，聲音識別算法能力國際排名第一

時間：2023年09月13日 14:08 來源：TechWeb 閱讀量：8462

近日，小米自研聲音識別算法取得最新進展，算法模型領先其他機構，性能國際排名第一。小米是在 Google 發布的 AudioSet 音頻標記任務中獲得的這一突破。它是音頻標記任務影響力最大的數據集，被認為是聲音領域的 ImageNet (注:計算機視覺領域最著名的數據集，由著名學者李飛飛等主持發布)，權威性頗高。

Google 將 AudioSet 數據集分為三個子集，前兩個子集用于訓練，被合并稱為 “AudioSet-2M”。正是在這個合并后的訓練集中，小米的聲音識別算法模型首次在業界突破了50 mAP，刷新了音頻標記技術指標，成為截至目前性能最好的模型。此外，小米還發布了一個 Mini 版模型，適合資源受限的場景。該模型的參數量被壓縮到了原模型的約九分之一，遠小于其他機構的模型，但性能卻優于其他所有機構。

這項技術的突破意味著小米的聲音識別算法能力再次精進，小米的眾多智能硬件設備應用此項技術后，可以更敏銳地捕捉和識別環境聲音，大幅提升硬件的智能化程度，從而為用戶創造更加便捷的智能生活體驗。

不僅如此，小米聲音識別算法下的音頻標記技術能力，還為業界的前沿研究提供了巨大的技術價值，有力推動了相關研發進程。

小米算法應用場景廣泛，AI賦能惠及普通大眾

小米此次精進后的聲音識別算法，具有極高的應用價值。它能夠廣泛應用于小米的智能設備中，大幅提升用戶的智能生活體驗。具體來說，音頻標記算法能夠識別廣泛的環境聲音，比如嬰兒的啼哭聲、動物叫聲、汽車引擎聲、爆炸聲、煙霧警報、門鈴聲、水流聲等，并讓環境中的聲音以文字等模態表達，讓聲音被“看”見。這可以讓硬件設備更加智能，為用戶帶去更高效和更準確的聲音識別體驗。

以搭載在小米手機中的“小米聞聲”功能來說，它可以監測 14 種重要的環境音，包括火警、嬰兒啼哭、燒水壺聲等，并以手機通知欄進行文字推送。這讓聽力障礙用戶得以“看見”生活中的聲音，與普通人一樣享受智能生活的便捷。小米手環也可以同步顯示和接收這樣的聲音信息。

智能家居設備上的應用則更加廣泛。小米的聲音識別算法已經應用于眾多的智能家居設備中，比如米家攝像頭的寶寶哭聲監測功能，它能在監測到寶寶哭聲的時候，實時向用戶手機推送通知。Xiaomi Sound 音箱也搭載了聲音識別功能，它能夠識別家用報警器、嬰兒啼哭、火警、流水、貓叫、狗叫等六種用戶關心的家居環境聲音。小米健康 APP 的睡眠鼾聲監測，則可以幫助跟蹤用戶睡眠時的鼾聲夢話。此外，針對家庭場景，小米還對音箱環境音的監測做了特別適配。比如為了避免一開水龍頭就觸發通知，打擾用戶，研發人員將水流聲的識別提醒條件改為一分鐘之內多次監測到。

這項算法技術還廣泛應用于小米機器人的研發中，大幅提升了機器人的感知能力。小米歷時10個月全棧自研的第一代全尺寸人形機器人 CyberOne，可以識別 85 種環境聲音，能夠通過聽覺感知 6 類、45 種人類情緒。而小米第二代仿生四足機器人 CyberDog 2 則可以識別 38 種環境聲音，實現更強大的動態響應能力。

小米強大的 AIoT 平臺生態，為這項算法技術的應用提供了廣闊的空間，這也是小米技術研發的先天優勢，有豐富的場景推動技術邁向應用層面，讓科技成果真正惠及普通大眾。目前，小米的聲學語音團隊已將自研聲學語音技術全面應用于小米手機、音箱、電視、耳機、手表、機器人等 79 個品類，共計 5000多款智能產品中。而小愛同學的月活躍用戶數量則達到了1.15 億，是世界上最忙的語音助手之一。

長期深耕底層技術，小米推動行業前沿探索向前邁進

小米自研聲音識別算法的突破，還為業界的前沿研究提供了巨大的技術價值。目前，業內已知的相關研究成果幾乎都應用到了預訓練的音頻標記模型，用作音頻編碼，為音頻領域的研究提供關鍵的音頻信息提取能力。小米此次在音頻標記任務上的出色表現，不僅充分彰顯了技術實力，更直接推動了音頻領域前沿探索向前邁進。

這是小米又一次展露出深耕底層技術的決心和實力。今年8月，小米對其科技戰略進行了升級，提出“選擇對人類文明有長期價值的技術領域，堅持長期投入”的科技理念，并指出了具體路徑和原則，即深耕底層技術，長期持續投入，軟硬深度融合，AI全面賦能。

事實上，歷經十三年的發展，小米的技術研發已經從應用層面更多轉向了底層技術層面。其中 AI 領域是小米長期持續投入的底層賽道之一。據悉，小米自2016年組建AI團隊以來，人工智能團隊經過7年6次擴展，人員規模已達3000多人。同時，小米 AI 技術能力也已經覆蓋了視覺、聲學、語音、NLP、知識圖譜、機器學習、大模型、多模態等眾多方向，并全面賦能了手機、汽車、AIoT、機器人等眾多業務板塊。今年4月，小米還正式組建了 AI 大模型團隊，全面擁抱大模型，目前陸續有了一些應用嘗試。其中第一個應用大模型，就是將智能語音助理小愛同學升級了大模型版本，并開啟邀請測試。這次聲學語音團隊刷新行業音頻標記技術指標，再次證明了小米強大的AI實力。

從更全局的視野看，小米的技術體系已蔚然成林，研發布局進入了12個技術領域，包括5G 移動通信技術、大數據、云計算及人工智能，同時基于智能制造，進入機器人、無人工廠、智能電動汽車等，總體細分領域達99項。小米的技術研發還有持續的資金保障，未來五年研發投入將超過1000億元。

小米還在持續通過多個層面的努力提升科技創新能力。9月11日，小米正式成立集團科協暨院士專家工作站，攜手更多力量、匯聚更多資源進行關鍵核心技術攻關，加強基礎性、前沿性研究和成果轉化。

中國科協黨組成員、書記處書記殷皓在當天的授牌儀式活動中表示，小米集團科協的成立，體現了小米集團高管對科技創新工作的高度重視。他指出，期待小米集團科協充分發揮資源優勢，大力普及科學知識，拓展開放合作，共同營造具有全球競爭力的開放創新生態。

中國工程院院士丁文華成為小米院士專家工作站的首位進站院士。他指出，在以手機鏡頭為代表的成像技術領域，小米實現了光學鏡頭小型化的重大突破，是行業的佼佼者。小米已經牽頭成立了智能圖像處理北京市工程研究中心，他希望未來能夠努力升級為國家工程研究中心。他還表示，期待與小米科技工作者團隊共同開展關鍵技術攻關，推動行業向前發展。

在新的科技戰略指引下，小米正朝向著世界科技巨頭的目標銳意進取。而在歷經十三年的豐厚積淀，又匯聚起強大外部科研力量后，小米勢必迸發出更加強勁的創新活力。

聲明：以上內容為本網站轉自其它媒體，相關信息僅為傳遞更多企業信息之目的，不代表本網觀點，亦不代表本網站贊同其觀點或證實其內容的真實性。投資有風險，需謹慎。

分享到微信