ページの本文へ

Hitachi

近年、半導体の製造技術の進歩によって、わたしたちの社会を支えるインフラ装置の小型化が進んでいます。しかしその一方で、半導体の小型化によって、宇宙からのわずかな放射線が装置の誤動作の原因となってしまうことがわかってきました。
そこで日立は、装置に対する宇宙線の影響を評価する手法を確立し、装置の誤動作を抑止する対策技術を開発。装置の高信頼化による「止まらないインフラ」が、みなさまに安心社会をお届けします。

(2016年9月16日 公開)

宇宙線が装置に与える意外な影響

宇宙線中性子に起因するソフトエラーとは、いったい何でしょうか。

上薗宇宙線と言われても普段生活していくうえでまったく想像できないと思いますが、宇宙からは日々さまざまな粒子が降ってきています。粒子には電子、陽子、中性子などさまざまな種類があるのですが、その中でも中性子はとにかく粒が小さいので、建物をすり抜けてくることがあります。

この中性子が運悪く装置の中の半導体に衝突してしまい、さらに運悪く半導体にノイズが起こって、さらに運悪くそのノイズがメモリに取り込まれてしまうと、メモリの値が0から1に、あるいは1から0に反転してしまいます。その結果、装置に誤動作が起こったり、演算結果が間違ってしまったりします。これが宇宙線中性子によるソフトエラーのメカニズムです。

新保ソフトエラーは昔から知られてはいたのですが、よっぽどのことがないと起こらない現象だと考えられていました。わたしも昔からデジタル回路の設計をしてきましたが、「こんなの起きないでしょ」という考えでした。

それが最近になって問題となってきている、と。

上薗昔は半導体のサイズが大きかったので、ちょっとしたノイズではメモリの値が反転するようなことはありませんでした。けれども近年、技術の進化でデバイスが小さくなってきて、保持する電荷も小さくなってきたことで、ちょっとしたノイズですぐに値が反転してしまうようになったのです。

新保装置に中性子を人為的に照射する実験で、実際にソフトエラーが頻発するのを目の当たりにしたときは本当に驚きました。その後、いろいろなデバイスについてソフトエラーの発生率を調べたのですが、一部のデバイスではハードウェア自身の故障率を上回っていることもわかってきました。

宇宙線中性子によるソフトエラーには、どのような特徴があるのでしょうか。

新保ソフトエラーは、経年劣化による誤作動やハードウェア自身の故障とは違い、新しくデータが書き込まれたりすると正しい状態に戻ってしまうエラーなんです。装置の動きが一瞬おかしくなった、でももう一度動かすと正しく動いている、と。なので、どうしてエラーになったのかわからない、誤動作を再現できないという困ったことになります。誤動作が再現しないというのが、ソフトエラーのいちばんの特徴であり、最も厄介なところですね。

ソフトエラーの評価-さらに手軽な手法の確立に向けて

宇宙線中性子によるソフトエラーに対して、お二人はどのような技術を開発したのでしょうか。

上薗ソフトエラーに対する評価技術と対策技術です。この2つの技術は、評価と対策をぐるぐると回すイメージで開発を進めました。まず、現状を把握するために装置に対する評価を実施します。それで実情がわかったら今度は対策をして、さらにその対策が有効に働いているかを見るためにまた評価を実施して…という流れです。この技術のうち、わたしが評価技術を、新保が対策技術を担当しました。

それではまず、評価技術について詳しく教えてください。

上薗この評価技術では、装置に強力な中性子ビームを照射して、わざとエラーを起こすという手法を取っています。中性子ビームの照射位置にある部品は設計段階でわかっているので、照射位置からエラーが発生した部品を推定できます。つまり、中性子ビームの照射位置を変えながらソフトエラーを起こすことで、装置内のどの部品が原因でソフトエラーが起こるのかを推定できる、というのがこの評価技術です。これによって、装置の中でどこが中性子に弱くて、どこに対策が必要なのかをしっかり見極めることができるのです。

図1 宇宙線中性子ソフトエラー評価技術の概要
宇宙線中性子ソフトエラー評価技術の概要を示した図

上薗装置の中にはいろいろなデバイスが搭載されていますが、この評価の結果、FPGA(Field Programmable Gate Array)というデバイスが中性子にいちばん弱いということがわかりました。FPGAというのは何度もロジック情報を書き換えることができる便利なデバイスです。最先端の通信装置をはじめ、製品への採用数が増えていたこともあり、それならFPGAに特化した対策技術が必要だ、ということになったのです。

評価の際にいちばん苦労したのはどのようなことでしょうか。

上薗評価に使用する中性子ビームをいつでも使えるわけではない、つまり評価したいときに必ずしも評価できるわけではない、というのがいちばん苦労した点です。この評価のためには、通常の環境の数億倍くらいの数の中性子を短時間で照射できる装置が必要です。それくらい多くの中性子を当てないとエラーが出ないのです。このような中性子ビームを出せて、なおかつわたしたちが使用できる施設というのは、国内に2施設しかありません。

新保日本国内の施設が使えない場合は、海外の施設を使うこともあります。一時期、国内の施設が使えないときがあったのですが、それでも期限までに成果を出す必要がありました。

上薗あのときはスウェーデンまで行って評価を実施しました。けれど、いつもと使い勝手も違いますし、外国なので電源も違います。輸出管理などの事務手続きも含めて、やっぱり大変でしたね。

今後、もっと手軽に評価できるようになったらいいですよね。

写真「上薗 巧(うえぞの たくみ)」

上薗そこでいま、もっとエネルギーの低い中性子ビームでも評価できるような技術を作ろうとしているところなんです。

もともと、中性子によるソフトエラーの評価試験を実施するには、アメリカのロスアラモス国立研究所にまで行く必要がありました。その評価を日本でもできるようにするという目的で、これまで技術開発を進めてきました。2006年には国際標準試験法として認定もされました。しかしそれでも、特定の施設でしか照射できないほど強いレベルの中性子ビームが必要なので、装置の最終的な確認などにしか適用できません。

そうではなく、弱い中性子ビームしか出せない施設でも評価ができるようになれば、装置の設計の途中でも「これ大丈夫かな」というのをあらかじめ確認できるようになりますし、そうなるときっと装置の設計の方法も変わってくると思います。最終的にはエネルギーをもっと低くしていって、一般的な実験室に行けば評価できます、というレベルで標準化できれば、もっと社会に普及できるような技術になるかなと思っています。

ソフトエラーの対策-半導体を「使いこなす」技術

次に、対策技術について詳しく教えてください。

新保先ほどもありましたが、評価の結果、FPGAが中性子にいちばん弱いことがわかりました。その原因は、FPGA内部のメモリにありました。FPGAでは、書き込まれるロジック情報を内部のメモリに記憶するのですが、このメモリの容量が大きく、ソフトエラーが起きやすいのです。

このFPGAですが、もともと、内部のメモリを小さい領域に分割し、それぞれの領域を巡回しながらエラーをチェックする機能が備わっていました。しかし、FPGAのサイズが大きくなると、エラーを見つけるまでに時間が掛かってしまうという問題があったんです。例えば、チェックした直後の領域でたまたまエラーが発生したとすると、もう1周チェックがまわってくるまでエラーが発見されません。その間にエラーが装置に伝わると、誤動作を起こしてしまいます。そこで、FPGA内のエラーを早く見つけるために、このチェックの動きを自由に設定できる回路を開発したのです。

実は、FPGAはデバイス内のすべての領域を使って動作しているわけではありません。そこで、実際に使っている領域だけを巡回してチェックするようにしたり、重要な領域を優先的にチェックするようにしたりすることで、エラーを見つけるまでの時間を短縮しました。これによって、エラーが装置に伝搬してしまう前にエラーを修正でき、装置としては誤動作することなく動き続けることができるのです。

図2 宇宙線中性子ソフトエラー対策技術の概要
宇宙線中性子ソフトエラー対策技術の概要を示した図

エラーをなくすのではなく、エラーを修正するまでの時間を短くしたのですね。

新保そうなんです。この技術はエラーを発生させないようにするのではなく、エラーを外に伝えないようにマスクをする技術なんです。半導体の構造を作り変えることでソフトエラーに強くするという方法もあるのですが、そのためには半導体自体を作り替えないといけない。しかし、半導体の構造を作り替えるには時間も費用も掛かります。また、半導体を外部から購入した場合は内部構造を作り替えることができません。そこでこの対策技術では、購入した半導体をどう使いこなしていくか、というところでアイデアを出しました。この「使いこなし」というのが今回の対策技術のいちばん難しいところなのですが、研究者として面白いところでもありました。

対策が有効に働いているかを確認するために、また先ほどの評価技術を使って評価したのですね。

新保はい。その結果、対策後はエラーが早く修正されるおかげで、装置として動き続けることが確認できました。対策の前もあとも、中性子ビームを当てたときに装置内部でソフトエラーが発生する確率は変わりません。しかし対策後は、装置内部のFPGAでエラーが発生しても装置が誤動作しなくなったのです。

止まらないインフラで安心社会を

今回開発した技術は、今後どのように展開するとお考えでしょうか。

写真「新保 健一(しんぼ けんいち)」

新保今回の技術は装置に対する信頼性を向上させるための技術でしたが、それだけではなく、セキュリティという観点でも展開していけるのでは、と考えています。

ハードウェア、特にFPGAというデバイスは、人間が悪意を持って攻撃することで意図的に誤動作を起こさせることができます。そういう場合に今回開発した技術を応用すれば、ハードウェア自身が不正な攻撃を検知できる、つまり、インフラシステムのセキュリティ向上にも貢献できると思っています。

最後に、お二人の今後の夢について聞かせてください。

新保わたしは、これからもお客さまに喜んでもらえるような研究をしたいと思っています。高い信頼性はもちろん、セキュリティの面でも安心して使ってもらえるシステムをもっと展開して、みなさんの生活に貢献していきたいと思っています。

上薗わたしは入社したときから、日立のインフラ、それも信頼性にかかわる仕事をしていきたいと思ってきました。現在はその夢がかなって、今回はソフトエラーという仕事にかかわれました。今後もソフトエラーだけではなくて、信頼性を揺るがすさまざまな原因に対応できるような技術をどんどん開発していって、「止まらないインフラ」を実現していきたいと考えています。

特記事項

  • 2016年9月16日 公開
  • 所属、役職は公開当時のものです。

関連リンク