ヘッダをスキップ

印刷用

このニュースリリース記載の情報(製品価格、製品仕様、サービスの内容、発売日、お問い合わせ先、URL等)は、発表日現在の情報です。予告なしに変更され、検索日と情報が異なる可能性もありますので、あらかじめご了承ください。なお、最新のお問い合わせ先は、お問い合わせ一覧をご覧下さい。

2007年4月20日

隣り合う人が同時に話す音声を聞き分けることができる
音声処理技術を開発

通話システムにおける雑音除去や音声認識の精度向上に寄与

  日立製作所中央研究所(所長:福永 泰/以下、日立)は、このたび、隣り合う人が同時に話す音声を、誰が話したかを明確に聞き分けることが可能な音声処理技術を開発しました。本技術は、複数のマイクロホン(以下、マイク)素子を使って、音の発生位置(音源位置)を瞬時に高い精度をもって測定する技術と、特定の方向からの音声だけを抽出できる技術の開発によって実現したものです。この技術を用いると、マイクから1〜2メートル離れた複数の人の音声を聞き分けることや、周辺の雑音を取り除き特定の音声だけを抽出することが可能になります。これにより、テレビ会議や電話会議において、外部からの雑音を取り除くことをはじめ、雑音の多い環境下で音声認識の精度を向上させることや、複数のマイクで録音したビデオ映像の中から、特定の人の音声だけを抽出することが可能となります。

  テレビ会議や電話会議での通話装置をはじめ、音声認識機能を用いて操作が行われるカーナビゲーションなどの情報機器では、それらを利用する環境の雑音や、複数の人が同時に発声することにより、通話性能や機器操作性が低下することがあります。従来、エアコンやプロジェクタなどから発せられる定常的な雑音に対しては、一定レベルで鳴っている雑音を除去するという音声処理技術が用いられていましたが、複数の人が同時に発声したり、突発的に発生した雑音に対しては、この方法を用いることはできませんでした。突発的に発生する雑音を除去する技術としては、予め、音声が発生する場所の方向を設定しておき、それ以外の方向から発せられる音声を雑音として除去する方法がありますが、この方法では、音声の周波数に起因する理由により精度を高めるには限界があるため、音源位置が近接している場合、それらを聞き分けることが不可能でした*。また、この方法では、音声の周波数ごとに音源位置を求めていたため、数秒間、音声を入力する時間が必要とされていました。
  このため、音声を利用したシステムの性能を向上させるには、複数の人が同時に話す中から特定の人の音声を高精度に抽出したり、突発的な雑音を除去できる音声処理技術の開発が求められていました。

  この課題に対応するため、日立では、音声が鳴った瞬間にその音の発生位置を高精度に測定し、特定方向からの音声を瞬時に選択して取り除く音声処理技術を開発しました。開発した技術の特長は、以下の通りです。

1. 一瞬で高精度に音源位置を測定できる「近接音源定位技術」

従来の音源を推定する技術と比較し、近接した音源に対して位置を推定する性能を向上させることを実現しました。複数のマイク素子を、間隔を変えながらアレイ状に配置し、間隔の異なるマイクペアで測定されたデータを組合せることで、音源の位置を推定する性能の高精度化を実現し、音声の全周波数成分を使って処理を行うことで、短時間での測定が可能となりました。

2. 突発的な雑音を選択的に除去する「空間音声フィルタリング技術」

前述1の音源位置の推定結果から、雑音領域内に音源が存在した場合、その方向に物理的に音声の死角を生成します。これによって、雑音領域内で発生した音声を抑制します。

  今回開発した近接音源定位技術の性能を実験で確認したところ、一般的なオフィス環境で、音源がマイクから1〜2メートル程度の場所にある場合、水平・垂直方向とも、10度の間隔の音源位置を識別して測定できることが確認できました。また、水平方向が20度の間隔で2人が同時に発声した場合、各個人の発声内容だけを抽出できることが確認できました。本技術は、テレビ会議や電話会議における会話の通話環境の向上や、雑音の多い環境下での音声認識の精度向上をはじめ、複数のマイクで録音したビデオ映像の中から、特定の人の音声だけ抽出して利用できるなど、情報機器における音声の利用拡大に貢献する技術です。

  なお、今回開発した技術については、4月15日から米国ハワイ州ホノルルで開催される「2007 International Conference on Acoustics, Speech, and Signal Processing」(ICASSP2007)で発表しました。

  • * 複数のマイク素子に届く音声の時間のずれを利用して、音源位置を特定する技術です。一般的にマイク素子の間隔が広い程、音源方向の推定性能が高まりますが、間隔が音源最大周波数の半波長以上の場合、逆に到来方向が分からなくなるという空間的エイリアシングという現象が生じ、音源方向の推定が困難になります。このため、マイク素子の間隔を音源の半波長以上にできず、これが音源方向の推定性能の制約となっていました。

お問い合わせ先

株式会社日立製作所 中央研究所 企画室 [担当:花輪、木下]
〒185-8601 東京都国分寺市東恋ヶ窪1丁目280番地
TEL : 042-327-7777 (直通)

以上

アドビ・リーダーのダウンロードPDF形式のファイルをご覧になるには、Adobe Systems Incorporated(アドビシステムズ社)のAdobe(R) Reader(TM)が必要です。

免責事項や著作権など