初めに

ご無沙汰しております、iPX界の深層学習部(非公式）部長の小川です。
今回はDeep Learning（以下DL）につきまして記そうと思います。
既にありふれている情報で、インターネットを汚す事は大変恐縮してしまいますが、取り組み内容をアピールする場として発信させていただけたらと思います。

これまで道具を使う為の自己研鑽は多く積んできました、そして物体認識や深層強化学習にトライし、一定の結果も残せたと思います。

今後はエッジデバイスから始まり、DLが量産品に導入されるケースも増えてくると思います。
近い未来に問われるであろうDLの品質保証をどう担保していくか。
今一度基礎に立ち返り理論への理解を深める事、それが私に求められる次なる自己研鑽なのであります。

記事方針

記事の内容は書籍を元に構成しております、正確な情報は是非書籍をお手にとっていただけたらと思います（参考書籍の項をご参照ください）。
ここでは新入社員向けに噛み砕けるだけ噛み砕き説明する事に徹します。
よって事実とは異なる点があることを予めご了承願います。
また、私自身も未熟至る為、数式や説明が間違っている可能性が有ります点も併せてご容赦いただけたら幸いです。

記事中のプログラムはpython3で実装しています。

DLの目的

ある関数を近似(まね)することです。
利点としては下記があると考えています。

既知の計算量が膨大な関数を近似することで高速化する
未知の関数を近似することで実装が困難な処理を実現する

これら恩恵を受ける為には道具と使い方を学ぶ必要が有ります。
具体的にはパーセプトロン、活性化関数、多層ネットワークといった枠組みや、順伝搬や誤差逆伝播法などの枠組みの使い方です。

ニューラルネットワーク

ここではニューラルネットワークの構築に必要となるいくつかの枠組みを一つづつ知っていきます。

パーセプトロン

いくつかの入力をまとめて一つの出力を返す枠組みです。
登場人物は下記３名です。

名称	役割
ユニットさん	入力とか出力のあの丸(○)の部分
重みさん	重みさんを良しなに変化させる事が学習
バイアスさん	微調整

数式
$u_j = \sum_{i=1}^I w_{ji} x_i + b_j$
行列版
$u = Wx+b$
魚のような記号はΣ（シグマ)で、直訳すると総和です。
プログラムではsum変数に計算結果をループで足す処理に当たります。

pythonプログラムにて行列演算ライブラリのnumpyを用いて表現してみます。

import numpy as np

I = 4
J = 1
x = np.random.rand(I)
W = np.random.rand(J,I)
b = np.random.rand(J)

# for文版
u = .0
for i in range(I):
    u += W[0,i] * x[i]
else:
    u += b[0]
print(u)

# 行列版
u_d = np.dot(W,x)+b
print(u_d)

numpyの演算を使うととっても楽でした。

活性化関数

パーセプトロンはあくまで複数の入力に重みとバイアスを加えて１つの出力を行う枠組みでした。
出力にある変換を行う活性化関数が知られています。
DLでは非線形関数（１本の直線ではない）を適用することがお決まりです。

名称	特徴	式
ロジスティック関数さん	範囲が0~1	$f(u)=\frac{1}{1+e^{-u}}$
双曲線正接関数さん	範囲が-1~1	$f(u) = \tanh(u)$
正規化線形関数(ReLU)さん	マイナスが無い	$f(u) = \max(u,0)$
恒等写像さん	そのまま	$f(u) = u$

pythonにてグラフ描画ライブラリのmatplotlibを用いて関数の形を可視化してみます。

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(-5., 5., .1)

def logistic(u):
    return 1/(1+np.exp(-u))

def hyperbolic(u):
    return np.tanh(u)

def relu(u):
    return np.maximum(u,0)

plt.plot(x, logistic(x), label='logistic', linestyle='--')
plt.plot(x, hyperbolic(x), label='hyperbolic', linestyle='--')
plt.plot(x, relu(x), label='relu', linestyle='--')

plt.legend()
plt.xlim(-5.2, 5.2)
plt.ylim(-1.2, 1.2)
plt.title('activation functions')
plt.show()

f:id:ipx-writer:20180521015559p:plain

いずれも確かに直線ではない事と、データ範囲と形に特徴がある事が分かりました。

多層ネットワーク

パーセプトロンと、活性化関数を組み合わせて、ユニットを横にも積んで多層化します。
多層化することでニューラルネットワークの表現力が高まります。
層の上から計算していき、最終的な出力を求める事を順伝搬と呼びます。

ネットワークの作成と順伝搬をpythonで表現してみます。
書籍「ゼロから作るDeep Learning - Pythonで学ぶディープラーニングの理論と実装」の例を参考にしました。

from functools import reduce
import numpy as np
import matplotlib.pyplot as plt

class layer:
    def __init__(self, W, b, f):
        self.W = W
        self.b = b
        self.f = f

def logistic(u):
    return 1/(1+np.exp(-u))

def identity(u):
    return u

layer1 = layer(np.array([[.1, .3, .5], [.2, .4, .6]]), np.array([.1, .2, .3]), logistic)
layer2 = layer(np.array([[.1, .4], [.2, .5], [.3, .6]]), np.array([.1, .2]), logistic)
layer3 = layer(np.array([[.1,.3], [.2, .4]]), np.array([.1, .2]), identity)
network = [layer1, layer2, layer3]

x = np.array([1., .5])
y = reduce(lambda z, l: l.f(np.dot(z, l.W) + l.b), network, x)
print(y)    # output:[ 0.31682708  0.69627909]

１つ目の層は入力層、最後の層は出力層と呼ばれます。
また、各層の出力をzと置き、任意の総数Lと置くと多層ネットワークは下記に一般化出来ます。

$u^{(l+1)} = W^{(l+1)} z^{(l)}+b^{(l+1)}$

$z^{(l+1)} = f(u^{(l+1)})$

$y≡z^{(L)}$

≡(合同)は左辺を右辺で定義する意味です。

以降は書籍「深層学習」に則り、ネットワークのパラメータ全てを成分に持つベクトルwを定義し、下記で表す事とします。

$y(x;w)$

学習

ここまでで多層ネットワークを定義し、順伝搬することで出力yを得ることが出来るようになりました。
次に必要な事は多層ネットワークの枠組みを用いて、重みを調整する事、即ち学習です。
任意のデータから適切な重みを調整する為にはいくつか覚えることが必要です。

教師（訓練）データ
誤差
回帰
分類
- 二値分類
  - 最尤推定
  - 単調性
  - 条件付き確率
(時間切れ... TBD)

教師（訓練）データ

DLではデータから任意の関数を近似することが目的でした、ここでデータとは入力と出力の組み合わせとなっており、教師データと呼ばれます。

誤差

全ての教師データの入力と出力（答え）と、ニューラルネットワークの出力が一致すれば、学習が完了したということになります。
そこで教師データと、現在のニューラルネットワークがどれだけかけ離れているかを表す指標が誤差と呼ばれます。
つまり学習とは誤差を返す誤差関数の結果が最小とする事です。

回帰

DLでは解きたい問題によって出力が変わります。
回帰問題では連続値の推定が問題設定となります。
例えば、ある入力から適切なモーターのトルク値を出力するような問題は、この回帰問題です。
回帰問題の場合は誤差関数として二乗誤差がよく用いられます。
目標出力（答え）をdと置くと、下記数式で表せます。

$||d-y(x;w)||^2$

全教師データに適用する場合は、1/2を掛ける事で、微分計算の際に二乗と相殺されるようにするのが一般的です。
回帰問題の場合はこの二乗誤差関数のwを最小化することが学習タスクとなります。

$E(w) = \frac{1}{2} \sum_{n=1}^{N}||d_n - y(x_n;w)||^{2}$

最後に

大変申し訳ございません、力尽きました。
実際に二値分類の学習を行うコードまで載せたかったですが、書籍「深層学習」の P17-18 への理解に時間が取られました。
学習を行うためには、微分法やチェーンルール、勾配や、勾配降下法、そして誤差逆伝播法を学ぶ必要が有ります。
次回は上記を載せた上で、学習を実施するpythonプログラムを載せた内容をゴールと定めて、執筆を頑張りたいと思います。

参考にさせていただきました書籍の著者様、わかりやすい記事を公開してくださった皆様に感謝を申し上げます。

iPX社員によるブログ

iPX社員が"社の動向"から"自身の知見や趣味"、"セミナーなどのおすすめ情報"に至るまで幅広い話題を投下していくブログ。社の雰囲気を感じ取っていただけたら幸いです。

深層学習

初めに

記事方針

DLの目的

ニューラルネットワーク

パーセプトロン

活性化関数

多層ネットワーク

学習

教師（訓練）データ

誤差

回帰

分類

二値分類

最尤推定

単調性

条件付き確率

最後に

参考書籍

参考サイト