ICCV2009　２日目〜３日目 - takminの書きっぱなし備忘録 @はてなブログ

毎日英語で集中して聞いてると、かなり頭が疲れます・・・。集中して聞かないとまったく理解できないし。

でも面白い発表が多いし、自分の研究のヒントやら自分の人生のヒントやら（！？）色々と得られて、大変充実してますです。

というわけで、昨日さぼった分も含めて、レポート上げます。

といっても、発表数が膨大でいちいち書くのは無理なので（汗）、その中でも特に面白かったものだけピックアップします。
やや自分の専門の物体認識系に偏るかもですが、ご容赦を。
あと、ほとんど概要だけになっちゃったので、興味のある人は自分でググってください。
それから、参加者からの突っ込みも歓迎です。

２日目

Building Rome in a Day

これ。例えばローマのような観光地ならFlickrに膨大な画像があるので、それらのデータからその観光地を３次元再構成しようという研究。
まともめにやったらえらい時間がかかるので、並列処理やら、アルゴリズムの改良をもろもろやって、１日でできるようにしたよー、という発表。（それでもかなりのCPUコアを使う。）
なんかICCVの発表ってしゃれたタイトルが多いです。
最近この手のネット上の大量の画像を使って色々やります系の研究が流行ってるなあ。

Modelling Activity Global Temporal Dependencies Using Time Delayed Probabilistic Graphical Model

地下鉄などに設置してある、複数の監視カメラ（画像領域のオーバーラップはない）から異常事態を自動検知する研究。各カメラに映っている画像の動きにはある一定の時差を持って相関があるはずで、その相関が崩れた時に何か異常事態があると判断する。

Patch-based Within-object Classification

ポスターセッション。
オブジェクトを検出した後、そのオブジェクトの属性を判別するための、汎用的な学習/認識方法。
例：
顔検出→男/女
歩行者検出→ポーズ

Is a Detector Only Good for Detection?

同じくポスターセッション
顔検出などオブジェクト検出に使ったweak classifierをそのまま認証や性別判別のような属性判定にも適用。
上の"Patch-base ..."も含めて、物体検出から属性判定という流れを持った研究が現れたというのが軽く新鮮で、自分もいろいろとインスパイアされました。
昔勤めてた会社の顔認識ソフトが、これと同じような考え方をしてたなあ。

Semi-automatic Stereo Extraction from Video Footage

午後のオーラルの一番最初。
3DCGアニメ映画が流行っているけど、既存の動画を3Dにするのは大変。
当然、従来のステレオカメラによる方法で3D化するわけにはいかないので、単眼カメラで撮影された動画のシーンから直接視差画像を作り出す研究。
ユーザがあるフレームの視差情報を簡単に指示してやると、その後のフレームを特徴点のマッチングとることですべて自動で計算してくれる（らしい）。

A Prism-based System for Multispectral Video Acquisition

カメラの分光特性をプリズムとスリットの入ったマスクを使って向上させるという研究。
プリズムをカメラの前においてやると、それぞれ違う波長の光がカメラ上の違う画素上に届くので、例えば普通のカメラはRGBを感知する素子しか持ってないけど、これをもっと色々な色を持つ素子を仮想的に作ってやったようなことができる。だから人間の眼には区別がつかないような色の変化も簡単に可視化できる。
これは絵がないと説明が難しいけどコロンブスの卵でした。

３日目

Estimating Natural Illumination from a Single Outdoor Image

屋外のたった１枚の画像から光源（太陽の位置）を推定する方法。
屋外の画像を空、建物等の領域、地面にセグメンテーションして（ここは既存手法らしい）、それぞれの領域から太陽位置を確率分布として推定して、最後にそれらを合わせることで、最終的な太陽の位置を求めるという研究。
空は、全体のあかるさの分布から。
地面は、影の方向から。
建物は壁上のあかるさから。

Stereo from Flickering Caustics

水中をステレオカメラで３次元復元。水中は波の揺らぎなどがあって、対応点探索が難しいと思われるが、実は左右のカメラで時系列で画素の様子を見てやると、その揺らぎ方は同期していて、逆にそこから数ピクセルずれただけで、まったく同期しなくなる。
この性質を利用して、マッチング。

Learning a Dense Multi-view Representation for Detection, Viewpoint Classification and Synthesis of Object Categories

画像からオブジェクトのカテゴリのみならず、そのポーズ（無期）も推定するというもの。しかも、学習時にポーズ情報のラベルはいらないらしい。
また、そうやって学習させたオブジェクトの情報を元に、新しい視点を合成していた（ただし厳密な３次元モデルではなく、かなり怪しい形）。人間は想像力でオブジェクトの形を補うことで、高い認識能力を持つことができるけど、これってそれに通じるものがあるんじゃないかと感動した。
これはちゃんと中身を理解したいので、あとでもっと読み込むことにする。

Discriminative Models for Multi-class Object Layout

オブジェクト検出器で、画像中をスキャンすると、オブジェクトの周辺にたくさんオブジェクト候補が出てくる。通常はこれらをうまく統合したり、ピークをとったりして一つの候補領域にするような後処理を行う必要がある。
また、複数のオブジェクトが一枚の画像に存在する場合は、検出窓の候補同士が重なったり、隣あったりといった場合がある。
その際、事前に複数のオブジェクトが同じ場所に存在する確率や隣に存在する確率などを学習させておくことで、後処理によってより正確な検出を行うことが可能になる。
これって、今までのオブジェクト検出から一歩踏み込んで、画像のコンテクストを理解するというところに踏み込んでいるという意味で面白いと思った。

Globally Optimal Segmentation of Multi-region Objects

セグメンテーションの問題で、例えば領域の中にさらに領域があるような形（例：建物の壁領域と窓領域）や、隣会っている領域など、様々な領域間の関係を扱うことができる研究。
領域間の関係（入れ子とか、隣あってるとか）を事前に定義してやった上で、その制約をうまくグラフカットの中に入れて解いていた。

あー、つかれた。
明日以降は、更にレポート内容が薄くなるかも（笑）