東京大学バナー(中) 東大 アラムナイ 寄付のご案内
| ENGLISH | サイトマップ |
東京大学 大学院 情報理工学系研究科
交通アクセス・学内地図
訪問者別ご案内
受験・進学希望の方
留学生の方
(For International Students)
企業・一般の方
修了者の方
高校生の方
高校教員の方
大学生の方
教育と研究
研究科案内
各専攻・教員の紹介
 
コンピュータ科学
  数理情報学
  システム情報学
  電子情報学
  知能機械情報学
  創造情報学
フォーカス(2006〜2016)
ソーシャルICT研究センター
情報理工学国際センター
情報理工学教育研究センター
受賞
ソーシャルICTグローバル・クリエイティブリーダー育成プログラム
グローバル・クリエイティブリーダー 講義
enPiT
データサイエンティスト養成講座(領域知識創成教育研究プログラム)
計算科学アライアンス
創造情報学連携講座
産学連携(R2P/IST等)
情報理工関係イベント
国際交流
(International Cooperation)
他プログラム
科学研究ガイドライン
情報倫理ガイドライン
入学・進学案内 new !
学生支援制度
履修・学籍・諸手続案内
科目等履修生案内
東京大学学務システム(UTAS)
工学・情報理工学図書館
公募情報
ポータルサイト (内部のみ)
ISTクラウド (内部のみ)
研究倫理審査・広報 (内部のみ)
緊急連絡
緊急連絡ページ
関連学部
工学部
理学部
Home > 過去のNews > フォーカス
 
Focus
フォーカス

 2010/02/01
新研究領域「学習数理情報学」の確立へ
数理情報学専攻 山西健司 教授

独自の方法論「Latent Dynamics」を駆使
データの背後に潜む貴重な情報を引き出す

 「これまでのデータマイニングは、データの表面的な関係性を調べるのが主体でした。それだけでは、必ずしも価値ある知識は発見できません」。山西教授は、データの背後に潜んでいる情報に注目し、その変化やダイナミクスを捉えることで、いままで見えなかった貴重な情報を引き出そうとしている。そのカギと位置づけているのが「Latent Dynamics」(潜在的なダイナミックス)と呼ぶ方法論。数理情報学専攻が新たに打ち出した『学習数理情報学』という研究領域の中核に据え、この科学的な視点を通して、ネットワークの異常検知、情報犯罪の予兆、食の安全にかかわる情報など、現実の世界に起きている変化の兆しを捉えるのが目標である。「次世代データマイニングのキーワード」になると提唱するLatent Dynamicsの世界とはどんなものか−。

次世代データマイニングのキーワード

学習数理情報学における両輪
MDL原理に基づく学習
※ページ内の画面をクリックして拡大画像をご覧下さい

 まず、学習数理情報学とはどのような研究分野なのかを、山西教授に解き明かしてもらおう。機械学習は、大量のデータの中から構造的な知識を獲得し、将来に向けて活用することを指す。それを基礎理論(情報論的機械学習)と実践的応用(データマイニング)を両輪として進めるのが学習数理情報学である。この学問領域では、どのような複雑な現象でも、最終的に0、1のビット列に符号化して、どれだけの情報量が含まれているのかを評価する。その際、できるだけ短いビット列に符号化できるように現象を説明する最適な数理モデルを抽出(学習)する。これが情報論的学習理論のアプローチである。一方、データマイニングは機械学習の応用で、大量のデータの中から発見した価値ある知識をマーケティングやセキュリティ、リスク管理などに生かす手法である。

 山西教授はデータマイニングのエキスパートである。企業(NEC)時代は、そのリーダーとして機械学習の基礎研究とデータマイニングの事業化を手がけ、自ら育てた学習理論をデータマイニングに応用する研究を追求した。そして、「機械が学習するということは、データを最も圧縮するための表現を見つけること」という統一的な見方に基づいて、現象を最も短いビット列で適切に説明するモデルを選ぶという、MDL(Minimum Description Length=記述長最小原理)を中核にした学習の方法論を構築した。そこではMDLを応用するだけではなく、MDLでなぜ学習ができるのかを「学習のコンプレキシティ(複雑さ)」という視点から初めて解き明かし、学習の設計と解析の本質を担う「情報論的学習理論」を確立した。「とくに、モデルは時間とともに変わっていくので、MDLによってモデルの時間変化を検出していくことが重要なのです」。その観点から最近では「動的モデル選択」という方法を編み出す。

 データマイニングでは、上記の理論を総合的に活用して大量データから異常を検出し、環境が変化しても柔軟かつ迅速に発見するための「学習型異常検知理論」の体系化に成功した。これを用いると、不正侵入や未知のウイルスの検出、障害検出といったリスク管理を実現できる。また、時系列データから次に流行するトレンドの変化検知など、マーケティングに欠かせない重要な情報を得る手段になる。

Latent Dynamics とは

 こうした流れをみれば、山西教授が推進しようとしている研究のトレンドが見えてくる。すなわち、基礎(情報論的機械学習)と実践的応用(データマイニング)を両輪として進めるLatent Dynamicsの研究であり、それを中核とした学習数理情報学の確立である。従来のデータマイニングは、データの顕在的な関係性(何と何が一緒に買われるかといった表面的な関係)を抽出することがメインだったが、「データの背後にある潜在世界のほうにこそ面白い情報が眠っている。そこにはデータの表面には現れない、データを操作するものの意図や潜在的な関係性といったメタなレベルの情報が含まれています。しかも、こうした潜在情報は時間とともに変化しており、情報の構造的変化(Latent Dynamics)を抽出することによって、一段と深いデータマイニングを目指します」。学習数理情報学の真の目標がこの点にあるのが浮き彫りになってくる。

 セキュリティ分野への応用例を取り上げよう。ユーザーのPCやデータベースに入り込み、中においしそうな情報があると、外部に引き出そうとするハッカー攻撃。それも情報を引き出したあとの完了した時点ではなく、まさに引き出そうとしている瞬間(変化点)を、トラフィック量の変化などから捉えるところまで、これまでの研究で可能にしてきた。「何かおかしい、不審なアクセスが生じている」ことをキャッチできるまでになったわけで、さらにLatent Dynamicsのマイニングが可能になると、その予兆や原因までを分析できる可能性が出てくる。これによりハッカー攻撃を防ぐ道が拓かれる。

数理工学はビジネスと密着した学問

 さらに、こんな使い方もできる。企業が消費者にテレビや雑誌などで商品のプロモーションをかけたあと、その効果を調べる際、かつては、視聴率や売上高データなど直接、手に入るデータを使って評価していた。それがWebの発展で大きく変化し、ブログやソーシャルネットワークなど消費者が勝手に発言するクチコミ情報「CGM(Consumer Generated Media)」の中に重要なヒントが隠されていることに注目している。「このCGMの背後にあるLatent Dynamicsを解析することにより、商品トレンド、消費傾向、ライバル関係などの潜在的な動きを分析できます。これを上手に活用する企業が勝ち組になる可能性が出てきますね」

 2009年1月に教授に就任して1年と1ヵ月。「自らのDNAである数理工学の考え方をベースに、企業の現場で培った感性を学生に伝えたい」と山西教授。数理工学は数学を言葉として世の中をモデリングする学問。その対象は自然科学から社会・経済・サービス・スポーツ・芸術までに幅広い。数学を駆使して複雑な現象をモデリングし、現象を解き明かすことは、純粋数学の難問を解くのとはまったく異なる創造的な楽しさに満ち溢れている。その楽しさと有用性を訴えたいという。「数理工学はIT技術者に訴えるばかりでなく、CEOに向かって発信する技術。今後、解析の技術から戦略の技術になっていくものです。学生にはそれを将来、実業界で生かすことを目標に学んでほしい」とメッセージを贈る。

山西教授



大学院 情報理工学系研究科 お問い合せ先 東京大学