takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

ICCV2009 チュートリアル〜1日目

今、ICCV(International Conference on Computer Vision)という学会に参加するために京都に来てます。
正直レベルが高すぎて、内容を理解するのがかなり大変、ってか無理。(^^;
それでも、とりあえず理解できたもの、興味があるものなどに関して概略だけでもこのブログにまとめることにする。
我ながらひどいレポートだと思うけど、あえてさらす。
将来、「あー、そういえばこんな問題に対してはこんな研究があったなー。ちょっと詳しく調べてみよう」という自分の引き出しにしまえる程度に理解できれば良いやということで・・・。

チュートリアル

実はこの日、会場間違えて遅刻して参加・・・。(本会議は京都国際会館だったのに、この日は京都大学

Structured Prediction in Computer Vision

Structured Output SVMの話があるかと思って聞いてみたのだが、どこでそんな話をしているのかわからず・・・。
かなり数学なお話+英語でかなり厳しかった。
Structured Predictionというのは、高次元かつそれぞれの要素が相互に影響を与えあっているような系の出力を予測する問題。つまりMarkov Random Fieldとか、そこら辺の話が中心だった。
MRFにおけるエネルギー関数の定義方法の話やグラフカットなどなどについて解説してました。
あと、ここで初めてCRF(Conditional Random Field)なるものの存在を知る。でも、その後本発表のSegmentationセッションの中でしょっちゅうこの話が出てくるので、ちゃんと調べておこうと思う。
それから、学習時にどうやって損失関数を定義するか云々という話。

Boosting and Random Forest for Visual Recognition

最初にRandom Treeという学習アルゴリズムのお話し。
Random ForestというのはこのRandom Treeがたくさん集まってForestなんだそうな。
つまり、学習データセットをランダムに分割して、複数のRandom Treeをその分割したデータセットで学習させるんだそうです。
それから、色々なAdaBoostの話。
最後が、Random TreeとかAdaBoostを使ったリアルタイムトラッキングの話。Online Boostingという逐次的に弱識別器を更新していくという方法(Oza & Russel 01)があるというのをはじめて知った。

1日目

こっから本番。
午前中に開会の挨拶やらアワードの話やらがあった後に、Segmentationのオーラルセッション。午後はポスターセッションとHuman Detection、Learningのオーラルセッション。
全部紹介するのはしんどいので、気にとめたやつだけ。

Decomposing a Scene into Geometric and Semantically Consistent Regions

Segmentationの1つめのオーラル発表。
画像をセグメンテーションするにあたって、位置的なラベル(vertical,horizontal,sky)と、意味的なラベル(grass,sky,foregroundなど)の2つの観点からセグメンテーションを行う。
その2つのラベルの考え方を含んだエネルギー関数というのを定義してやって、そのエネルギー関数の各パラメータを学習を通して最適化してやるとかなんとか。

Curvature Regularity for Region-based Image Segmentation and Inpainting: A Linear Programming Relaxation

従来はセグメンテーションのためのエネルギー関数の定義で、輪郭の長さというのを正則化項に加えているけど、これじゃうまくいかない。代わりに局所的な曲率というのを使ってやった。
で、それを線形計画法で解くことで、RegionとBoundaryを同時に求めるそうだ。
で、この方法は画像のセグメンテーションだけでなく、ほぼ同じようなやり方でインペインティング(欠けた画像領域の補完)にも応用できる。

Robust Graph-cut Scene Segmentation and Reconstruction for Free-viewpoint Video of Complex Dynamic Scenes

ポスターセッションでの発表。
グラフカットで動画(ここではラグビーシーン)から、選手を抜き出して3次元再構成することで自由視点動画を作るという研究。後輩に似たような研究をやっているのがいたので、気になった。
デモがいけていて、3Dメガネを貸してくれて、それでPCを覗き込むとラグビーの様子が立体的に見えるというもの。

Human Detection Using Partial Least Squares Analysis

Shape、Color、Textureの3つの情報を使って人物を抽出する(色情報を加えたHistogram of Gaussianを使う)
ただし、それだと次元がバカでかくなるので、PLS(Partial Least Squares)という方法で次元を減らす。
PLSというのは僕も初めて聞いた。詳しくはわからないが、PCAに似た感じらしい。PCAがサンプルの分散だけを考慮するのに対し、PLSはデータのクラスラベルも考慮するとかなんとか。


ここまで書いて力尽きました・・・。
明日早いので寝ます。