takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

第14回コンピュータビジョン勉強会@関東「CVPR2011祭り」を開催しました

表題の通り、7/31(日)にCVPRというコンピュータビジョンの国際会議の論文読み会を開催しました。
http://atnd.org/events/17265


Togetter
http://togetter.com/li/168739


以下、自分用の備忘録としてまとめておきます。
ちなみに今回は私は発表しませんでした。(名古屋で発表したので他の方に譲りましたw)

東大 原田達也先生

「CVPR2011における一般物体・シーン認識のトレンド」というタイトルで、

の二本の論文をご紹介されました。本当はもう二本くらいあったみたいなのですが、残念ながら時間切れとなりました。(非常にもったいない。。。)
物体認識の研究は主にデータセットに対して精度を上げるようなアプローチが取られますが、ひとつの目の論文はそもそもそのデータセットは実世界をきちんと反映しているのかという問題意識の元、各データセットにバイアスが存在するという話と、その中から他のデータセットに対しても汎用性があるものを選ぶという研究。ふたつ目の論文は、データセットを増やすために、違うドメインのデータセットを変換する方法の研究でした。
また、CVPRに通すためのアドバイスとして、「関連論文50本以上読む」「原文を読み、アルゴリズムだけでなく、論理展開まで理解する」「新たな問題提起をする」などなど、非常に胸に刺さりました。
発表資料はこちらです。(2011/08/02追記)

@tsubosakaさん

今回、私の代わりに発表をしてくれた@tsubosakaさんは、

についての発表です。従来の画像検索の研究では、クエリー画像から特徴量をとって、データベース中の類似特徴量を持つ画像を取ってくるというアプローチでしたが、この研究ではあらかじめセマンティックインデックス(意味の木構造。例えば「スポーツ」>「スケート」の親子関係)を作成しておき、画像特徴量から一旦セマンティック(意味)に変換してその意味同士の関係性を使うことで精度を向上するというものでした。
@tsubosakaさんはsupplementary material(リンク先:PDF)までしっかり読み込まれて、特に類似度検索のためのハッシュ法部分に非常に力を入れて解説されてました。(が、僕は要復習)
発表資料はこちらです。

@_akisatoさん

今回わざわざ京都から来ていただいた@_akisatoさんの発表は今の物体認識研究に足りないものは何か?という視点で、物体の属性、及び関係性という視点からこの2つの論文について解説されました。

一本目の論文は画像に対して属性をつけるための研究です。と言っても完全自動で機械にそれをやらせるのは難しいので、ユーザに画像を提示することで行います。ただしDB中の画像すべてをユーザに見せるわけにもいかないので、まず画像の特徴量群を今の属性辞書でうまく分類しきれない分について最大マージンクラスタリングを行い、その識別面との距離の順に画像を並べたものをユーザに提示することで、その識別面(属性)に名前をつける(または名前を付けない)というアプローチを取りました。
二本目の論文はBest Student Paper Awardを受賞したもので、「馬に乗った人」といった物体同士の関係を持つものを一つのクラスとみなしてやることで、物体検出の精度を上げるという研究でした。物体検出自体は既存手法の「Deformable Part Model」を使用して、人、馬、馬に乗った人、をそれぞれ検出してやり、それをデコードすることで精度をあげていました。
@_akisatoさんの発表資料はこちらです。

@idojunさん

今回、完徹状態の@idojunさんの発表は、

についてです。これはいわゆるイメージスティッチングという2枚の画像をつなげてパノラマ画像を作るための技術についての研究です。従来のような平面、球面、円柱などの形状へのワーピングではなく、画像上の各画素ごとにアフィン変換のパラメータを求めることで、自然な画像のつなぎ合わせと副産物としてSIFTより正確な対応点関係が取得できるという手法でした。
途中、@idojunさんがOpenCVで自前実装したPoisson Image Editingのデモが大好評でした。
発表資料はこちらから

@payashimさん

「勉強会の申し子」@payashimさんの発表は以下の3本

それぞれトップカンファレンスの常連で、機械学習フリー、3D系もしくは3D系に発展しそうなどなどの視点で選んだそうです。
一本目の論文は、例えば部屋の画像から「座れる場所」という人間のワークスペースを推定する研究。これはモーションキャプチャーのデータから人間がある動作を行う時に、3次元空間をどのように占有するか、またどういう物体とのインタラクションがあると姿勢が安定するか、といった情報と、部屋の画像から推定した3次元的な構造から、その動作を行うことのできるスペースを推定しています。
二本目の論文は輪郭ベースの特定物体認識です。モデルとなる輪郭と、エッジ抽出などの処理によって求めた輪郭の断片とのマッチングで物体認識をしているのですが、その際輪郭断片同士の類似度を距離と角度を考慮したAffinity Matrixというもので定義してやることでマッチングを行っています。
三本目は、本などの歪みを1枚のカメラ画像から補正するというもので、本のページ上に記述されているテキストの並びから2次元的な歪みと、そこから3次元的な歪みを求めています。
発表資料はこちら

@miyabiartsさん

なぜかネコミミで発表してくれた@miyabiartsさんは、Best Paper Awardをとった「あの」Kinect論文を発表してくれました。

Kinect等から取得した距離画像「だけ」を使って、どのように人体のポーズを推定するかという研究で、「学習データを3Dモデルソフトで大量に生成」、「体の各パーツを深度情報の2点間の差異を特徴としたRandomized Treeで学習」、「Randomized Treeで判定したパーツ候補からmean shiftで関節位置を推定」といった処理により高速に人体のポーズを求めています。
発表資料

早大 石川博先生

「Area Chairから見たCVPR」というタイトルで、今年のCVPRで経験した論文採択プロセスの裏話を聞かせてくれました。またCVPRに論文を通しためにどのような点に気をつけるべきか、といった点についてもお話をいただきました。以下、印象に残った点をメモ

  • 査読する側もとにかく大変。一人最大で12本。人気の査読者は取り合いになる。
  • Area Chairは中間管理職w。
  • 「論文の採否で人生を左右される研究者がいる。だから査読側も真剣に取り組め。」
  • 関連研究をしっかり抑えていくことと、実験をしっかりやること(半分くらい実験で良い)
  • 査読者の論文を引用することも重要(笑)
  • 例え違う内容の研究でも、Googleで日本で発表した同タイトルの研究がひっかかったりすると不利


というわけで、発表者の皆さん、参加者の皆さん、大変ありがとうございました。


次回は9/4(日)に通常に戻って「コンピュータビジョン最先端ガイド」の読み会を行います。
テーマは「一般物体認識」です。ご参加お待ちしてます。
http://atnd.org/events/18321