群知能とデータマイニング
価格:3,960円 (消費税:360円)
ISBN978-4-501-55090-5 C3004
奥付の初版発行年月:2012年07月 / 発売日:2012年07月中旬
昆虫や鳥は、単独では秩序だった行動をとることはないが、群れになると秩序だった集団行動をとる。群れとなることで知的な行動をとる様子を群知能と呼ぶ。本書は、群知能を計算機上で再現し、その性質をデータマイニング技術に利用する研究について解説する。今後は渋滞シミュレーションや経済行動学のモデルとして活用が期待される。
群知能(Sworm Intelligence:SI)は,脊椎動物に見られる群れでの移動や採餌行動,そしてハーディング現象(ほかの個体と同じ行動をとりたがる現象のこと)といった生物のダイナミクスに着想を得た,最適化問題を解くための革新的な分散知能計算パラダイムである.その一つの具体例である粒子群最適化法(Particle Swarm Optimization:PSO)は,鳥の群れや魚群,ミツバチの群れ,あるいは人の社会的な振る舞い等に見られる群れ行動に着想を得た最適化手法である.また,ACO(Ant Colony Optimization)は,アリの採餌行動に着想を得た最適化手法であり,離散最適化問題の解法として利用されている.
一方,データから有用なパタン等を発見するタスクは,これまでデータマイニング(Data Mining)や知識発見(Knowledge Discovery),そして情報抽出(Information Extraction)等様々な呼び方をされてきた.データマイニングは,大規模なデータ空間を探索して一貫性のあるパタンやお互いに系統だった関係のあるデータを発見し,その結果をさらに新しいデータに適用してその妥当性を検証するといった分析的な一連の手法のことである.これを可能とするために,データマイニングにおいては統計や機械学習,そしてパタン認識といった計算テクニックを利用している.
データマイニングと群知能は,一見,あまり関連がないように思える.しかし近年の多くの研究において,様々な実データを対象としたデータマイニングに対して両者以外の組み合わせでは多くの計算コストを要したり実装が困難であったりする中で,両手法(データマイニングと群知能)の組合せが有用であることが示されている.
本書は,データマイニングに関する様々な問題に対して,それぞれ異なる角度から知的に取り組む新規性に富む内容となっている.全11章にて構成され,序章では基本的な定義づけや重要な研究課題をいくつか紹介する.残りの章では,いくつかの技術を選択し,それらの詳細な解説ではなく基本的なアイデアや考え方に焦点を当てて解説する.
第1章は,生物に学ぶことへの動機付けと,PSOとACOに焦点を当てた群知能のいくつかの理論的概念に関するGrosanらによる解説である.また,データマイニングの基本的な解説と,群知能技術を利用してこれまでに行われた研究および現在進行性の研究とデータマイニング技術との関連性についても触れられている.
第2章では,人工アリシステムが持つ自己組織化能力を利用した,MartensらによるAntMiner+というクラスタリング手法の紹介である.AntMiner+は,ベースとなるAntMinerと次の3点で異なる.第1点は,AntMiner+は「MAX-MINアリシステム」という最初に提案されたアリシステムの拡張版であり,より強力なクラスタリング性能を有していること.第2点は,アリが行動する環境の複雑度が徐々に減少する特徴を有していること.そして3番目が,AntMiner+ではより少なく質のよいルールが抽出できるということである.
第3章では,問題空間が持つ元々の特徴空間の精度を維持しつつ最小の特徴空間を求めることができるアントコロニー最適化法に基づく,Jensenらによる特徴選択アルゴリズムの紹介である.そしてここでは,提案手法であるWeb分類問題と複雑システム監視問題への適用例についても紹介されている.
GaleaとShenによる第4章では,アントコロニー最適化法をファジィ規則誘導に適用する方法について解説する.複数のアントコロニー最適化法アルゴリズムを並列に動作させ,それぞれが特定のクラスを記述するルールの発見を行う.最終結果は個々のアルゴリズムによって発見された,個々のルールでお互いに補完されたファジィルールベースとして生成されてる.
第5章では,コンピュータネットワーク侵略検知のための,TsangとKwongによるACOに基づくクラスタリング手法の紹介である.これは,ACOにいくつかのメタヒューリスティックな規則を組み込むことで改良を施したものである.また,ネットワーク接続データにおけるクラスタリング性能のさらなる向上と,次元の呪いからの脱却を目指した,4種類の教師なし特徴抽出アルゴリズムについての解説や評価についても触れられている.
第6章は,OmranらによるPSOのパタン認識と画像処理問題への適用についての解説である.最初にクラスタリング法であるPSOについて解説した後,本章にて提案するクラスタリング手法の教師なし画像分割・分類問題への適用について議論する.そして,PSOに基づく手法のカラー画像量子化やスペクトル分解問題への適用の試みについても議論されている.
第7章は,実際のアリの自己組織化的振る舞いに着想を得た,Azzagらによるデータクラスタリングのための新しい計算モデルの紹介である.自然界のアリはお互いに食いつくすことで結合し,複雑な構造を形成することができる.本章では,この振る舞いがお互いのデータの類似性に基づいて,一連のデータを階層構造として分類する手法に利用できることを示す.さらに,提案する手法の改良版についても紹介されている.
Kazemianらによる第8章では,人工ハチによる花の受粉(Flowers Pollination by Artificial Bees:FPAB)に基づく新しい群知能型のクラスタリング手法について解説する.FPABは,対象のデータに対して分割/分離すべきクラス数などのパラメータや初期段階で必要とされる情報が不要である.FPABでは,まずハチを花粉のところに移動させて受粉させる.各花粉は,その場に存在する他の花の量に応じた大きさに成長する.環境がよければよい成長となる.そして,何回かの繰り返しを経ることで,自然淘汰によって花粉と花は徐々に少なくなり,最終的に同じタイプの花でそれぞれまとまった複数の庭が形成される.形成される個々の庭は庭の原型として,明らかに誤った分類の低減に有効なFazzy C meansアルゴリズムにおける初期段階での,個々のクラスタの中心として利用される.そして,次の段階では個々の庭は,それぞれ単一の花によって構成されていると仮定して,それぞれの庭に対してFPABをさらに適用する.
第9章は,Palotaiらによるニュース記事を収集するための人工生命アルゴリズムの紹介である.インターネットにおけるニュース記事の自動収集を簡潔な選択アルゴリズムで行うというものである.選択機能はアルゴリズムが利用する記憶モジュールと関連しており,そのモジュールは有限のサイズで有用な情報供給元のリストを保持している.ニュース記事収集モジュールは,新しいニュースを見つけると報酬を獲得することができ,有用なニュース記事が見つかる見込み度合いの値に基づいてインターネット空間を動き回る.ニュース記事収集モジュールは,自身が保有する生産性に関する値がある閾値を上回ると分裂することができる.お互いが直接的にインタラクションを行わない収集モジュール群において構成される.特徴的なコミュニティが形成される.そしてこの形態は,システムをスケールさせる際に重要な「棲み分け」という考え方に関する議論に対して,極めて明瞭な示唆を与えてくれるものである.
VeenhuisとKoppenによる第10章は,種が分類されていくダイナミクスに基づくデータクラスタリングアルゴリズムの紹介である.これは,PSOと群れアルゴリズムを組み合わせたものである.まず一連のデータを複数の種が混在する群れとして解釈し,その群れは単一の種で構成される複数の群れ(複数のクラスタと表現することもできる)に分割されることを望んでいると考える.クラスタとして分割される個々のデータは,それぞれ「datoid」と呼ばれる自律性のあるモノとして取り扱われ,2次元平面上に一つのdatoidの群れを形成する.そして,datoid群が群がる振る舞いを通して,この群れが平面上を移動しつつ,お互いに類似するdatoid同士から構成される複数の群れに分割していく.最終的に群れ行動が停止した後,それぞれの個々の群れを構成するdatoidを集めて各クラスとして抽出する.
最終章である第11章は,Yangらによる有効性指標を伴うACOとARTニューラルネットワークを利用したクラスタリングアンサンブル法の紹介である.クラスタリングは平面上を移動するアリにより行われ,アリがデータであるオブジェクトをそれぞれ異なる確率で拾ったり置いたりする行動を通してクラスタが可視化的に形成される.そして,適応的共鳴理論(Adaptive Resonance Theory:ART)によって,それぞれ異なる移動速度のアリのコロニーで形成されるクラスタリング同士を統合する.
我々は,名著者並びに各章の内容を多大な労力の下に精査いただいた閲読者各位に心から感謝する.また,Dr.Thomas Ditzinger(Springer Engineering Inhouse Editor,Studies in Computational Intelligence Series),Professor Janusz Kacprzyk(Editor-in-Chief,Springer Studies in Computational Intelligence Series),そしてMs.Heather King(Editorial Assistant,Springer Verlag,Heidelberg)には本書の編集の援助とこの重要な科学的取り組みを生み出すための多大な協力をいただいた.ここに深く感謝するものである.そして,我々は読者各位に本書「群知能とデータマイニング」を贈ることで,我々のこの興奮を分かち合いたいと思うとともに,群知能の有用性を理解されることを切に期待するものである.
2006年4月
Ajith Abraham,Chung-Ang University,Seoul,Korea
Crina Grosan,Cluj-Napoca,Babes-Bolyai Unversity,Romania
Vitorino Ramos,Technical University of Lisbon,Portugal
目次
序文
まえがき
訳者まえがき
第1章 データマイニングにおける群知能
1.1 生物における集団行動
1.2 群れと人工生命
1.3 データマイニング
1.4 群知能と知識発見
1.5 アントコロニー最適化法とデータマイニング
1.6 本章のまとめ
第2章 アリの集団によるルールベース分類器
2.1 はじめに
2.2 アリシステムとデータマイニング
2.3 AntMiner+
2.4 AntMiner+による分散データマイニング:信用度採点への適用例
2.5 実験と結果
2.6 結論と今後の課題
第3章 アントコロニー最適化法を用いた属性選択
3.1 はじめに
3.2 ラフ特徴選択
3.3 ファジィ-ラフ特徴選択
3.4 アリの行動に基づく特徴選択
3.5 クリスプ-アントベース特徴選択法の評価
3.6 ファジィ理論とアリの行動に基づく特徴選択法の評価
3.7 結論
第4章 言語ファジィルール学習のための同時アントコロニー最適化法
4.1 はじめに
4.2 背景
4.3 同時ファジィルール学習
4.4 実験と解析
4.5 結論と今後の課題
第5章 異常侵入検知ためのアントコロニークラスタリングと属性抽出
5.1 はじめに
5.2 関連研究
5.3 アントコロニークラスタリングモデル
5.4 実験と結果
5.5 まとめ
5.6 これからの展望
第6章 パタン認識と画像処理のための粒子群最適化法
6.1 はじめに
6.2 背景
6.3 粒子群最適化法
6.4 PSOを用いたクラスタリングアルゴリズムの教師なし画像分類問題への適用
6.5 PSOに基づくカラー画像量子化アルゴリズム(PSO-CIQ)
6.6 PSOに基づく端成分抽出アルゴリズム(PSO-EMS)
6.7 まとめ
第7章 階層的クラスタリングを行うアリの集団によるデータマイニング
7.1 はじめに
7.2 生物学的モデルとコンピュータモデル
7.3 確率論的アルゴリズムと決定的アルゴリズム
7.4 数値,記号,テキストデータベースによる実験結果
7.5 実データへの適用
7.6 大規模データセットの逐次クラスタリング
第8章 人工ハチによる花の受粉に基づく群知能によるクラスタリング
8.1 はじめに
8.2 クラスタリング
8.3 FPAB
8.4 実験結果
8.5 結論と今後の展望
第9章 進化的手法によるインターネットにおける自動ニュース収集システム
9.1 はじめに
9.2 関連研究
9.3 収集エージェントの仕組み
9.4 実験と結果
9.5 議論
9.6 本章のまとめ
第10章 群知能によるクラスタリング
10.1 はじめに
10.2 クラスタリング
10.3 Flockアルゴリズム
10.4 粒子群最適化法
10.5 群知能によるクラスタリング
10.6 実験設定
10.7 実験結果
10.8 結論
第11章 ANTとARTによるクラスタリングアンサンブル
11.1 はじめに
11.2 妥当性指標を用いたアントコロニークラスタリング(ACC-VI)
11.3 ARTアルゴリズム
11.4 クラスタリングアンサンブル
11.5 実験による分析
11.6 結論
索引