点群SegmentationのためのTransformerサーベイ - takminの書きっぱなし備忘録 @はてなブログ

今回、主に点群に対してSemantic Segmentationを行うためにTansformerを適用した研究についてサーベイしてみたので、資料を公開します。

元々は、前回開催したコンピュータビジョン勉強会＠関東「深層学習＋３D論文読み会」で発表するために準備していたのですが、発表者が十分に集まったことと、ハイブリッド開催のため運営が大変になりそうだったので、発表は断念しました。

最初は画像と点群でのTransformerの適用方法の違いが気になって調べだしたので、PointTransformerとPointMixerあたりまでを発表するつもりだったのですが、発表を取りやめて調べる時間もできたので、色々と追加で調べているうちに分量が増えてしまいました。

調べてみて、果たしてTransformerは畳み込みと比べて点群処理に最適か？というのはよくわかりませんでした。ただ、PointBERTのように大規模事前学習モデルを作るのは世の流れなので、学習データの量の問題はありますが、点群に関してもいずれそうなるのではないかと思ってます。

また、点群に対してTransformerを適用する場合、計算リソースが大きな問題となるので、そこをどう工夫するか各手法が知恵を絞っている感じでした。他にもAttentionの計算に、内積の代わりに差分を用いる等、画像とは違ったアプローチが多々見られました。

というわけでご参考になれば幸いです。また、抜けや誤り等コメント歓迎です。