大切な単純作業 - iPX社員によるブログ

こんにちは。iPXの重量級担当、阿部です。

少し前のブログ投稿にありましたが、先日慰労会に行ってまいりました。
慰労会では毎年余興と題して抽選会を行っていますが。今年も当選の幸運に浴しました。
前回は賞品選択制だったので珪藻土マットを頂いたのですが、今年は賞品抽選制。
残った賞品を見つつ、くじを引いて当たったのが
「黒ウーロン茶 1 ケース」
会場謎の大盛り上がり。
これで今年の慰労会は大成功だったと思います（個人的には） *1

さて、今回は、機械学習に重要な役割を果たすデータとその作り方について簡単なお話をさせていただければと。

２つで一つ？データセットあれこれ

機械学習において、基本的に必要とされるのが、学習させるデータとそれに対する正解を指し示すラベルデータの組み合わせであるデータセットと呼ばれるものになります。
このデータセットですが、学習させるデータにもラベルデータにもいろいろなものがありまして、以下のようなものがあります。（これでも一例ですが）

画像とその画像が何であるかのラベルデータ
画像とその画像のどこに何があるかを示すラベルデータ
一部が欠損したり、線描画だけの画像ファイルとその元画像となった画像データ

最初のものは物体識別(Classification)によく使われます。手書き数字とその数字がいくつであるかのデータセットであるmnistは入門として有名です。
2番目のものは物体認識(ObjectDetection)によく使われます。
画像の中で該当する箇所を矩形で囲んでクラス付けするのが一般的です。
3番目のものはちょっと特殊ですが、GAN(Generative Adversarial Network)の一部で使用される形式です。
先日出展したGTCで展示したものもこの形式のデータセットを使って学習しています。

ある意味最大の事前作業

さて、前述のデータセットを用意するにも方法が複数あります。
お手軽に試すのであれば、ネット上で公開されているものを使うのがおすすめです。
しかし、中々行いたい機械学習にマッチしたデータセットがうまい具合に公開されているとは限りません。
そんな時には、ニューラルネットワークに適した形でデータを作成することになります。
これが地味に大変な作業でして・・・

どのようなデータが必要か（画像のシーンや対象物の数など）
どれぐらいのデータが必要か（数が多い方が押しなべて良い方向に行くが、その分時間も手間もかかる）

という吟味をまず行う必要があり、その後、画像であれば画像の取得を行い、ラベルデータの作成を行う必要があります。
このラベルデータ作成がまた地味に大変な作業でして、ひたすら単純作業の連続になります。
ただひたすらに該当のものを四角で囲んだり、線を引いて行ったりと単純作業の繰り返しで、続けてやるのにはなかなか強い気持ちが必要だったりもします。

最後の手段は人海戦術？

データセットの作成はどうしても人手がかかるため、時間とマンパワーが必要になる工程です。
とはいえ、データセット作成は機械学習のある意味基礎となる箇所であるため、多少のコストを支払ってでも充実させたい部分でもあります。
データセット作成をサポートしてくれるツールもうまく取り入れつつ、効率的に行うことができれば、機械学習の成果もよいものが得られるのではないでしょうか。

*1:今年は慰労会の幹事役の一端を担っていたのは事実ですが、仕込んだわけでは断じてないです。