新型AI(人工知能)が最先端の機械聴力の2千倍で凌駕する!

人工知能(AI)ディープラーニングのパターン認識能力は、音声認識や音声認識のイノベーションに拍車をかけてきました。

ベルギーの研究者が数日前に発表した最新の研究で、人間のようなリアルタイム聴覚能力を持ったハイブリッドAIの開発に成功しています。最先端の機械聴力の2千倍速い速度です。新型AI(人工知能)は、人間と同じ聴覚能力を備えて機械学習します。

研究では、最先端の機械ベースの聴覚ソリューションの2000倍のパフォーマンスを発揮する、リアルタイムで人間のような能力を持つ新しいAI機械学習モデルが紹介されています。

機械ベースの聴覚市場は成長のチャンス。

生物物理学者、機械学習の専門家、AI医療機器の研究者の世界以外では、機械ベースの聴覚を悩ませている問題は一般的な知識ではありません。補聴器、機械ベースの聴覚、ロボット工学、自動音声認識システムの特徴抽出に使用されている現在の聴覚モデルには、2つの大きな問題がある-リアルタイムで動作しないことと、重い計算リソースを必要とすることだ。

ベルギーのヘント大学の研究者は、次世代のマシンベース聴覚の先駆けとなる新しいタイプの聴覚モデルの作成に着手しました。

音響モデルを理解するためには、生物物理学的(対生化学的)プロセスである人間の聴覚に関する知識が必要です。人間の聴覚は、音が外耳から外耳道を通って鼓膜(鼓膜)に伝わり、外耳と中耳を隔てるところから始まります。鼓膜は振動して音を伝え、ハンマー(マレウス)、アンビル(インカス)、スターラップ(スタペス)と呼ばれる3つの小さな骨(小骨)によって増幅されます。次に、増幅された音波は蝸牛へと内耳に入り、蝸牛はカタツムリの殻のような形をした液体で満たされたカールした構造物です。蝸牛の中の液体は音によって上下に動きます。これにより、蝸牛の内膜(基底膜)に並ぶ毛髪細胞の突起(立体毛髪)がぶつかって曲がります。

この物理的な動きと立体細胞の曲がりがイオンチャネルを刺激して開き、蝸牛から聴覚(蝸牛)神経を経由して脳幹(髄質)に送られる信号を発生させます。

内耳の力学の既存の一般的なモデルには、さまざまな欠点があります。研究者によると、多くのモデルは歪みを導入する可能性があります。ガンマトーンフィルターバンクモデルは “内耳フィルタリングの刺激レベル依存性を無視している”。パラレルアーキテクチャは、音響放射と縦方向の結合を除外しています。人工内耳の力学に一般的に使用されている最新の伝送線路(TL)モデルは、カスケードシステムを使用していますが、これはフィルタリング中の並列計算ができない計算コストの高い方法です。

ベルギーの研究者は、リアルタイムの内耳進行波モデルの前処理におけるゲーティング要因として、計算の複雑さを挙げています。

この複雑さが、リアルタイム実行を可能にしながら、最先端の解析的TLモデルの性能にマッチする効率的なモデルを探す動機となりましたと研究者は書いています。

研究者らは、ハイブリッドAIモデルを、完全畳み込み型エンコーダー・デコーダー・ニューラルネットワークであるCoNNearと名付けました。CoNNearは、サンプリングされた20kHzの音響波形を蝸牛の基底膜(BM)変位波形に変換する。CoNNearモデルは、リアルタイムで内耳の機械的応答をシミュレートします。CoNNearは、GPUコンピューティングで高速化できる並列CPU計算をベースにしており、リアルタイム聴覚深層学習アプリケーションと統合することができます。

CoNNearは微分可能な方程式を持つアーキテクチャを提示し、リアルタイム(7.5ms以下の遅延)で動作し、最先端の生物物理学的に現実的なモデルの2000倍の速度で動作します。”と研究者らは報告しています。フレームワークが、人間のような機械の聴覚、拡張聴覚、自動音声認識システムの新世代を刺激することを大いに期待しています。