# Sw・Hw 混載システムを用いたパルスニューラルネットワークの ハードウェア化

茂野聡登志† 金丸 隆志† 入谷 勝† 関根 優年†

† 東京農工大学 工学部 〒 184-8588 東京都小金井市中町 2-24-16 E-mail: kanamaru@sekine-lab.ei.tuat.ac.jp

**あらまし** 「アプリケーション開発の容易さ」を主眼にディジタルニューロ回路の試作を行う. ターゲットは FPGA とし, 我々が開発している HwModule ボードと市販の PCI ボードの 2 種類を考慮する. 設計する回路は, 2 入力ニューロンとそれを利用した XOR 回路, そして 9 ニューロン 81 シナプスの連想記憶回路である. HwModule はハードウェアを通常のオブジェクト指向言語のオブジェクトとしてアプリケーションから利用可能であり (HwObject), 設計したニューロ回路をソフトウェアから容易に利用可能である. (信学技報, vol.103, No.732, pp.135–140 (2004)). **キーワード** パルスニューラルネットワーク, Sw・Hw 混載システム, FPGA, ハードウェアオブジェクト, HwModule

# Hardware implementation of pulse neural networks with Sw/Hw heterogeneous system

Akitoshi SHIGENO<sup>†</sup>, Takashi KANAMARU<sup>†</sup>, Masaru IRITANI<sup>†</sup>, and Masatoshi SEKINE<sup>†</sup>

† Department of Electrical and Electronic Engineering, Faculty of Technology, Tokyo University of Agriculture and Technology, Tokyo 184-8588, Japan E-mail: kanamaru@sekine-lab.ei.tuat.ac.jp

**Abstract** Digial neural-network circuits are designed to facilitate the development of applications which use neural circuits from the software. As targets, we use FPGAs and consider both our custom-made HwModule and a PCI board on market. A neuron with two inputs, an XOR circuit, and an associative-memory circuit with 9 neurons and 81 synapses are designed. Using the HwModule, application developers can use hardwares as usual objects in their applications, thus they can easily use neural circuits from softwares.

Key words pulse neural networks, Sw/Hw heterogeneous system, FPGA, hardware object, HwModule

# 1. はじめに

ニューラルネットワークは本質的に並列分散処理システムで あるため、従来のノイマン型コンピュータで実装すると膨大な 計算時間がかかり、ニューラルネットワークが持つ並列性を十 分に活かすことは難しい. そのため、ニューラルネットワーク のハードウェア化が望まれている. ハードウェア化方式にはア ナログ回路方式とディジタル回路方式があるが、近年、FPGA (field-programmable gate array)のような書き換え可能なデバ イスの大規模化、高速化が進んで来たことにより、ディジタル回 路方式のニューロハードウェア[1]~[10]が注目を集めている. さらに、ディジタル回路方式には「他のシステムとのインター フェイスが容易である」、「ノイズに強い」などの利点も多い.

そのようなニューロハードウェアが現実に広く応用される ようになるためには、「大規模なネットワークを作成できるこ と」,「そのハードウェアをアプリケーションから容易に利用 できること」が必要であるが,現状ではそれらの条件が満たさ れているとは言いがたい.

FPGA をターゲットにした場合, 大規模ネットワークを作成 するには

- 小規模な回路で済むような回路方式,情報表現を工夫する
- 複数の FPGA を実装し, それらを連係させる

 今後のさらなる FPGA の大規模化に期待する などが考えられる.

一方、ハードウェアをアプリケーションから容易に利用できるようにするためには、ハードウェアとソフトウェアのインターフェイス部分に工夫が必要となる。我々はオブジェクト指向のパラダイムに基づき、ハードウェアをアプリケーションからオブジェクト(HwObject)として利用可能となるような枠組み(Object Manager)を提供しており、そのためのプラット

— 1 —

フォームとして FPGA を 3 つ実装した HwModule を開発し ている [11]. 図 1 および 2 に HwModule の模式図と写真をそ れぞれ示した. HwModule は通常の PC の PCI バスに接続



図1 HwModule の模式図.



図 2 HwModule の写真. ユーザ用の FPGA が 3 つ搭載されている. FPGA は Xilinx 社製の Spartan2 (xc2s200fg456) である.

されるデバイスであり, HwModule と HwObject の枠組みを 用いるとアプリケーション開発者は, 既に HDL 言語などで設 計されたニューロ回路を通常の C++ 言語から利用可能になる. 例えば, new 演算子で HwObject を確保すると, 回路データが FPGA にダウンロードされる, などである.また, HwModule は一枚につき 3 つの FPGA が載り, さらに複数の HwModule を 1 つの PC に接続することも可能であるので, 今後の回路の 大規模化にも対応可能であると考えている.

本研究は主に「アプリケーション開発の容易さ」を主眼にディ ジタルニューロ回路の試作を行う.ターゲットとしては我々が 開発している HwModule ボードと,市販の PCI ボード [12] の 2 種類を考慮して比較検討を行う.

# 2. ニューロンの設計例

ディジタル回路を用いたニューロンモデルの模式図を図3に 示した.0/1のパルス列を入力として受取り,0/1を出力する ため,これはパルスのやりとりで情報処理を実現しているとい う意味ではパルスニューロンのモデルである.ただし,情報の キャリアとして発火頻度を用いるかパルスのタイミングを用い



図3 ディジタル回路を用いたニューロンモデルの模式図.

るかは設計する回路次第となる.パルスのタイミングを重視す るいわゆる「パルスニューロン」も設計可能であるが,以下で は発火頻度を情報とするニューロンモデルを取り扱う.これは, 発火頻度を情報としてニューロンの振舞いのほうが現状では広 く研究されており,アプリケーション開発が容易であろうと考 えられるからである.

以下では, FPGA を対象としたニューロンの設計例を示す. 任意の入力数に対応した素子を設計できるが, まず簡単のため 2 入力素子についての解説を行う.

#### 2.1 全体のブロック図

設計したニューロンモデルの模式図を図4に示す.処理の大



図 4 設計したニューロンモデルの模式図.

まかな流れは以下のようになる.

- 結合係数 w による入力パルスの変調.
- 複数の入力を空間加算.

空間加算したパルスの数をある時間幅 (timeslot) で計数
 し、その数に応じてパルスを出力する.

なお、「結合係数 *w* による変調」と「パルスの出力」には乱数 が必要であるので、乱数生成用に LFSR (linear feedback shift register) が各素子に一つ存在する.

#### 2.2 入力表現

図 5 のように,入力パルスは一パルスあたりクロック周期 の幅を持っている.また,パルスの位置は乱数で決めることと



する. その模式図を図 5 に示した. "timeslot"の時間幅にお けるパルス数の割合が情報を担っているとする. 図 5 の場合, timeslot=10 の中に 3 発のパルスが存在するので,入力は 3/10 であると考える. この情報表現により, [0,1] 区間の実数が表現 できる. 実際に設計した回路では timeslot=255, 511, 1023 な どを試している.

このように, ランダムなパルスによって情報が表現されてい るとする方式に文献 [1], [3] がある.一方, パルスが周期的であ るとする (周波数変調) 方式に文献 [2], [4], [6] があるが, ここで は採用しなかった.

## 2.3 結合係数によるパルス変調

入力パルスに対して, 結合係数 w を乗算するという操作 を考える. 結合係数 w は正負の値を取り得るが, ここでは -1 ≤ w ≤ 1 と考え, その絶対値 |w| が確率を表すと考えよう. そして, 入力パルスが到達するたびに, 確率 |w| で入力パル スを後段に 1 クロック遅れで伝えることとする. このとき, 入 力のパルス数が N であれば, 変調されたパルス数の期待値は N|w| 個となる. このような確率によるシナプス乗算は文献 [1] で用いられている.





今, |w| = 2/3 である場合の模式図を図 6 に示した. N = 3 であったパルス数が変調によって N = 2 になっていることが わかる.

なお,後段に w の符号を伝える必要があるため, w の符号用の 1 bit 出力が存在する (図 4).

実際に設計した回路では  $w \ge 8$  bit の 2 の補数表現で表 し (すなわち  $-128 \le w \le 127$ ), |w|/128 が確率を表すとして いる.

#### 2.4 空間加算

結合係数 w により変調された複数のパルスを加算 (空間加 算) するための回路は組み合わせ回路で実現できる.

いま,図4のように符号 sign1のパルス m\_input1と符号 sign2のパルス m\_input2の2入力が加わっているとする. だし,符号 sign は正のとき0,負のとき1をとるとする.

いま,ある時刻における正のパルス数 pos\_pulse と負のパル ス数 neg\_pulse はそれぞれ

 $pos\_pulse = \overline{sign0} \cdot m\_input0 + \overline{sign1} \cdot m\_input1$ (1)

 $neg_pulse = sign0 \cdot m_input0 + sign1 \cdot m_input1$  (2)

とあらわされる.このとき,

- pos\_pulse > neg\_pulse  $\texttt{$\pounds$5$}$  s\_pulse = 1, s\_sign = 0
- pos\_pulse < neg\_pulse 35 s\_pulse = 1, s\_sign = 1

pos\_pulse = neg\_pulse なら s\_pulse = 0, s\_sign = 0
 と出力を定める.この模式図を図 7 に示した.



図7 入力の空間加算.

## 2.5 パルスのカウントとパルスの出力

空間加算されたパルスと符号を用いて timeslot の時間間隔内 のパルス数をカウントし,その値に基づいてパルスを出力する 回路が必要である.図8に従って解説する.入力パルス s.input



図 8 パルス数のカウントと出力.

と入力符号 s\_sign に従って, レジスタ count の値を +1 または -1 する. この計数は timeslot の時間間隔だけ行う. レジスタ count は timeslot のビット幅に符号ビットと桁あふれを考慮し ただけのビット幅が必要である. timeslot=255 を例とすると, count のビット幅は 8 + 1 (符号) + 3 (桁あふれ用) の 12 ビッ トとなる.

計数が終了したらあらかじめ設定してあった閾値  $\theta$  を count から引き, その値に非線形関数を施し, その出力を count\_out とする.

非線形関数の出力 count\_out は、「count を 4 倍し、最大値 (=timeslot) を超えていたら timeslot の値に、0 以下であった ら 0 にセットする」こととする. これにより、count\_out は 0~ timeslot の値を取るが、これを timeslot で割るものと考える と、出力は [0,1] 区間の実数値を取ることになる. この実数値を 再び確率と考え、出力パルスを生成する. この出力パルスは次 段のニューロンへの入力となる.

#### 2.6 制御回路

ニューロンモデルの動作のタイムチャートは図 9 のようになる. パルスの計数とパルスの出力は並列に動作する.

このようなタイムチャートを実現させるために、図の count\_ctrl, update\_ctrl, output\_ctrl のような制御信号を生 成する回路を作成した.この制御回路はネットワークにつき一 つ存在する.

#### 2.7 インターフェイス回路

作成したニューロン回路を複数接続する場合, 各ニューロン は図 10 のように 0/1 のパルスで情報をやり取りする. この



図 9 パルス数のカウントと出力のタイムチャート,およびそれを実現するための制御信号.

とき,外部とのデータのやりとりのために,インターフェイス 回路が必要になる.具体的には,入力値をパルス列に変換する MakeInputPulse という回路を作成した. MakeInputPulse モ



図 10 作成したニューロンと外部とのインターフェイス.

ジュールは確率を用いてパルス数が入力値がほぼ等しくなるようにパルスを出力する. ニューロンの出力は, パルス数をカウントするモジュールの count\_out (図 8 参照) を観測することにする.

#### 2.8 シミュレーション結果 1:入出力関係

以上のようにして作成した 2 入力 1 出力のニューロンモデ ルのシミュレーションを行った. シミュレーションには Solaris 9 上で動作する Synopsys 社製の VCS を用いた.

まず,2入力のうち1系統のみにパルスを加え,素子の入出力 関係を調べる.外部との情報のやりとりには2.7節のインター フェイス回路を用いる.

シミュレーションは以下のステップで行う.

(1) 結合強度 w, 閾値  $\theta$ , 乱数の seed をニューロンにセットする (seed はシミュレーション中一定とする).

(2) ニューロンに入力を加える.

(3) ランダムな回数だけニューロンに出力を計算させる (この回数はソフトウェア上で乱数を用いて決める).

(4) ニューロンの出力を得る.

(3)のステップがないと、ニューロンは毎シミュレーションごと に同じ乱数系列で出力を出すことになり、きれいな出力が得ら れる傾向がある.(3)のステップを加えることでより実機での 動作に近いシミュレーションになると言える.

timeslot を 255, 511, 1023 に変えてシミュレーションを行っ た結果が図 11 である. 入出力の値は最大値が timeslot になる ように表示されている. timeslot が短いと入出力関係に揺らぎ が大きいことがわかる. さらに, *w* が小さいとやはり揺らぎが 大きくなる.

なお, w = 1のグラフの傾きは 4 である. これは count を 4 倍して非線形処理を施して count\_out にセットしたことによ る. より急峻な傾きが欲しい場合は 4 倍ではなく 8 倍, 16 倍な どを施せば良いであろう.

# 2.9 シミュレーション結果 2: XOR

次に,3素子を組み合わせて図 12 のような構成の XOR 回 路を作成した.この回路の入出力関係をシミュレーションで調



図 12 XOR 回路の構成.

べて図示すると図 13 のようになった.確かに XOR 回路とし て動作している.なお,傾きが急峻になるところでの揺らぎが 大きいのは確率演算による素子の特徴である.

# 2.10 ゲート数

ここで作成したの「2入力ニューロン」および「XOR 回路」 を Xilinx 社製の WebPack ISE で Implement したところ,以 下のようなゲート数になった. ただし,ターゲットは Xilinx 社 製の Spartan2 (xc2s200fg456) とした. 255, 511, 1023 の 3 種の timeslot について調べている. まず,「2入力ニューロ ン」は図 4 のような構成で Implement したもので,制御回路 などは含めていないゲート数を表す. 2.7 節で扱ったインター フェイス回路のゲート数は MakeInputPulse に対応する. また, 「XOR(full)」は 3 ニューロンに制御回路, MakeInputPulse 2



図 13 XOR 回路の入出力関係. 3 つの timeslot に関して調べた.

| 回路 \timeslot         | 255       | 511       | 1023      |
|----------------------|-----------|-----------|-----------|
| 2 入力ニューロン (a)        | $1,\!372$ | $1,\!427$ | $1,\!482$ |
| 制御回路 (b)             | 348       | 374       | 394       |
| MakeInputPulse $(c)$ | 162       | 179       | 196       |
| XOR (full)           | 4,876     | 5,116     | 5,332     |

つを加えて Implement したもので, ほぼ 3a + b + 2c に近い ゲート数になっていることがわかる.

ターゲットの Spartan2 は 200,000 ゲート であるので,数 十~百程度のニューロンが実装可能であることがわかる. ただ し,上記のデータは 2 入力ニューロンについて行ったもので,入 力数を増やすと実装可能な素子数も減ることになるだろう.

# 3. 9 ニューロン 81 シナプス連想記憶回路

前章で取り扱った 2 入力ニューロンを同様の方式で「9 ニュー ロン 81 シナプス連想記憶回路」を設計した. この素子数にした のは,比較的設計が容易であろうと考えたからである. timeslot は 1023 を用いる. 全ての素子から入力が加わるので, 1 ニュー ロンに対し 9 つの入力が存在する.

このネットワークに対してパターン  $\xi_i^{\mu}$  ( $i = 1, 2, \dots, 9$ ,  $\mu = 1, 2, \dots, p, \xi_i^{\mu} \in \{0, 1\}$ )を埋め込む. パターン数 p は 3 と し, その 3 つのパターンは図 14 のように定める.

このとき, *j* 番目の素子から *i* 番目の素子への結合 *w*<sub>*ij*</sub> を以下で定める.

$$w_{ij} = \frac{1}{Na(1-a)} \sum_{\mu=1}^{p} \xi_i^{\mu} (\xi_j^{\mu} - a).$$
(3)

ただし、N = 9, a = 0.5 とした.



図 14 ネットワークに埋め込む 3 つのパターン. 黒が 1, 白が 0 を 表す.

以上のようなネットワークを Verilog-HDL で記述し, 前章と 同様に Synopsys 社の VCS でシミュレーションした.まず, パ ターン想起の様子を図 15 に示す.時間ステップ 0 におけるパ ターンは, ネットワークの初期状態である.2 ステップで一つ目 のパターンが想起されていることがわかる.



図 15 設計した回路によるパターンの想起.2 ステップで一つ目のパ ターンが想起されていることがわかる.

このときのパターンとネットワークの状態のオーバーラップ

$$m^{\mu} = \frac{1}{Na(1-a)} \sum_{i=1}^{N} (\xi_i^{\mu} - a)(x_i - a).$$
(4)

を図示したのが図 16 である. やはり 2 ステップで想起に成功 していることがわかる.



図 16 図 15 に対応するオーバーラップ *m* の時間変化. やはり 2 ス テップで想起に成功していることがわかる.

# 4. 実機への実装

まず, 設計した回路の市販の評価用 PCI ボード [12] への実 装に関して述べる. このボードには Xilinx 社製の Spartan2 (xc2s150-5fg456) が 1 つ搭載されている. このボードへ実装 するために作成した回路のブロック図を図 17 (a) に示す. な





(b) Arrangement of Control Register

|   | 31 2            | 24 | 23  | 16 1 | 5                      | 87 | ,      | 0   |
|---|-----------------|----|-----|------|------------------------|----|--------|-----|
|   | w01             |    | w00 |      | set                    |    | enable | 00h |
| ſ | w <sub>21</sub> |    | w20 |      | <i>w</i> <sub>11</sub> |    | w10    | 04h |
| ſ | seed0           |    |     |      | seed_in                |    |        | 08h |
| ſ | seed2           |    |     |      | seed1                  |    |        | 0ch |
| ſ | θι              |    |     |      | θ <sub>0</sub>         |    |        | 10h |
|   |                 |    |     |      | θ2                     |    |        | 14h |
|   |                 |    |     |      |                        |    |        | 7   |

図 17 評価用 PCI ボードへ実装するために作成した回路.

お, 実装したのは timeslot=255 の 2 入力 1 出力の回路である. ニューラルネットへの変数の受渡しや制御信号 (set, enable) の ために Control Register が, 入出力データのために dual port BlockRAM が使用されている. Control Register は図 17 (b) のように配置されており, メモリアクセスと同様にこのレジスタ に対して host PC から書き込み・読み込みが可能である. デー タ用の BlockRAM へのアクセスも PCI メモリアクセスで行 う. この回路において, 図 11(a) のような入出力関係を PC 上 で得ることができた.

また, 我々が製作した HwModule への実装例については講 演にて触れる.

# 5. まとめ

「アプリケーション開発の容易さ」を主眼にディジタルニュー ロ回路の試作を行った.ターゲットとしては我々が開発してい る HwModule ボードと,市販の PCI ボード [12] の 2 種類を 考慮した.設計した回路は,2入力ニューロンとそれを利用し た XOR 回路,そして 9 ニューロン 81 シナプスの連想記憶回 路である.

設計には、ディジタル回路によるニューロン回路にしばし ば用いられる確率演算方式を用いた. この場合、Xilinx 社の Spartan2を用いると 2入力ニューロンが数十~百程度の素子 が載ることがわかった. これでは現実の問題に対するニューラ ルネットワークのアプリケーションを作成するには十分とは言 いがたく、効率の良い回路方式や情報表現を追求する必要があ るだろう.

また,設計したニューロ回路を用いたアプリケーション作成 を容易にするため,我々が研究している HwObject モデルと HwModule ボードを利用し,その有効性を講演にて示す.

本研究は東京大学大規模集積システム設計研究センターを通 しシノプシス株式会社の協力で行われたものである.

#### 文 献

- [1] 江口裕俊,古田俊之,堀口浩幸,樗木杉高,"学習機能をもつパル ス密度形ニューロンモデルとそのハードウェア,"電子情報通信
   学会論文誌 C-II, vol.J74-C-II, no.5, pp.369–376 (1991).
- [2] 平井有三, "PDM ディジタルニューラルネットワークシステム," 電子情報通信学会論文誌 C-II, vol.J74-C-II, no.5, pp.267–280 (1991).
- [3] Young-Chul Kim and Michael A. Shanblatt, "Random Noise Effects in Pulse-Mode Digital Multilayer Neural Networks," IEEE Transactions on Neural Networks, vol.6, no.1, pp.220– 229 (1995).
- [4] 肥川宏臣, "周波数変調パルスと多数決ニューロンによる学習機 能付きニューラルネットワーク,"電子情報通信学会論文誌 A, vol.J82-A, no.7, pp.1005–1015 (1999).
- [5] 川島毅, 石黒章夫, 大熊繁, "小規模回路で実現可能なニューラル ネットワークのハードウェア化手法," 電子情報通信学会技術報 告, NC99-90, pp.23-28 (2000).
- [6] 平井有三,西澤邦宜,"実時間 PCA 学習回路のハードウェア化," 電子情報通信学会論文誌 D-II, vol.J84-D-II, no.4, pp.699–707 (2001).
- [7] 田中愛之,黒柳奨,岩田彰, "FPGA のためのニューラルネットワークのハードウェア化手法,"電子情報通信学会技術報告, NC2000-179, pp.175–182 (2001).
- [8] 市川道教, "脳型コンピュータとニューラル・ネット・プロセッサ," Computer Today 特集「脳と情報処理 脳はどこまで 創れるのか」, no.90, pp.10–17 (1999).
- [9] 市川道教、"小型ロボットを用いた脳型コンピュータの開発研究、" Computer Today 特集「脳を創る – 脳型コンピュータの実現 に向けて」、no.106、pp.10–15 (2001).
- [10] 桃井昭好,秋元俊祐,佐藤茂雄,中島康治,"ストカスティックロジックを使った連続時間ハードウェアニューロンモデルと非単調活性化関数の改良,"日本神経回路学会第13回全国大会講演論文集,pp.122-123 (2003).
- [11] K. Kudo, Y. Myokan, W. Chan Than, S. Akimoto, T. Kanamaru, and M. Sekine, "Hardware object model and its application to the image processing," IEICE Transactions on Fundamentals, March (2004) in press.
- [12] "PCI デバイス設計入門," CQ 出版社, (2000).