takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

第59回コンピュータビジョン勉強会@関東「CVPR2023読み会(後編)」

先月の前編に引き続き、本日コンピュータビジョン勉強会@関東「CVPR2023読み会(後編)」をニューラルグループ株式会社様提供の会場をお借りして開催いたしました。

以下、資料やリンク等のまとめです。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

Youtube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
yuukicammy InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions https://speakerdeck.com/yuukicammy/internimage-exploring-large-scale-vision-foundation-models-with-deformable-convolutions
Kenji DynIBaR: Neural Dynamic Image Based Rendering https://speakerdeck.com/tsukamotokenji/dynibar-di-60hui-cvmian-qiang-hui-at-guan-dong
Beluuuuuuga Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation https://speakerdeck.com/elith/cvpr-2023-lun-wen-shao-jie-bidirectional-copy-paste-for-semi-supervised-medical-image-segmentation
OZ_Z_C Efficient Hierarchical Entropy Model for Learned Point Cloud Compression https://speakerdeck.com/oz_z_c/20230825-cv-cvpr2023-ehem
cheerfularge Paint by Example: Exemplar-Based Image Editing With Diffusion Models https://speakerdeck.com/cheerfularge/cvmian-qiang-hui-at-guan-dong-cvpr2023-paint-by-example-exemplar-based-image-editing-with-diffusion-models
carnavi NeRF-RPN: A general framework for object detection in NeRFs https://speakerdeck.com/ryokawanami/nerf-rpn-carnavi
ymats Train/Test-Time Adaptation with Retrieval https://speakerdeck.com/ymats/20230826-cvmian-qiang-hui-zi-liao-traintest-time-adaptation-with-retrieval
shimacos Unifying Vision, Text, and Layout for Universal Document Processing https://speakerdeck.com/shimacos/kanto-cv-59-udop
losnuevetoros ドキュメント/レイアウト祭り https://speakerdeck.com/yushiku/reiautoji-ri

第59回コンピュータビジョン勉強会@関東「CVPR2023読み会(前編)」

本日、コンピュータビジョン勉強会@関東を「CVPR2023読み会(前編)」というテーマで株式会社サイバーエージェント様に会場をお借りして開催いたしました。

CVPRはコンピュータビジョンのトップカンファレンスの一つで、読み会は当勉強会では恒例の開催となりました。

というわけで、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

Youtube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
takmin MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures https://speakerdeck.com/takmin/mobilenerf-di-59hui-cvmian-qiang-hui-at-guan-dong-fa-biao-zi-liao
alfplpl Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models https://www.docswell.com/s/alfredplpl/ZRXEQG-2023-07-23-125218
tereka114 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering https://speakerdeck.com/tereka114/prompting-large-language-models-with-answer-heuristics-for-knowledge-based-visual-question-answering
inoichan Planning-oriented Autonomous Driving https://speakerdeck.com/inoichan/cvmian-qiang-hui-at-guan-dong-cvpr2023-uniad-planning-oriented-autonomous-driving
s_aiueo Real-Time 6K Image Rescaling With Rate-Distortion Optimization https://speakerdeck.com/sansan_randd/real-time-6k-image-rescaling-with-rate-distortion-optimization
abemii_ UniSim: A Neural Closed-Loop Sensor Simulator https://speakerdeck.com/abemii/unisim-chao-riarunazi-dong-yun-zhuan-sensasimiyuresiyon
shade-tree Connecting Vision and Language with Video Localized Narratives https://speakerdeck.com/forest1988/connecting-vision-and-language-with-video-localized-narratives
InoueNaoto Visual Programming: Compositional visual reasoning without training https://speakerdeck.com/naoto0804/jie-shuo-visprog-cvpr2023-best-paper
tana BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision https://speakerdeck.com/kotaro_tanahashi/zi-dong-yun-zhuan-niokerubevbesuwu-ti-ren-shi-ji-shu-nojin-hua
yumash3 Semi-Supervised Parametric Real-World Image Harmonization https://speakerdeck.com/yumash3/semi-supervised-parametric-real-world-image-harmonization-hua-xiang-he-cheng-niokeruse-diao-diao-zheng

私が発表した内容はこちらです。

speakerdeck.com

javascriptでカメラの解像度を取得するとOSやブラウザで振る舞いが異なる

javascriptでカメラの解像度を取得する際、OSやブラウザによって振る舞いが異なるため、色々とはまったのでメモ。

まず、カメラの解像度を取得するコードは以下の通り

  let stream = await navigator.mediaDevices
    .getUserMedia({
      video: {
        facingMode: currentFacingMode
      },
      audio: false
    });

  // Get the video track of the camera stream
  const track = stream.getVideoTracks()[0];

  // Get the current settings of the video track
  const settings = track.getSettings();

  // Camera resolution
  let video_width = settings.width;
  let video_height = settings.height;

ここでvideo_widthが幅のピクセル数、video_heightが高さのピクセル数になります。

やっかいなのは、OSやブラウザによって、デバイスの自動回転をONにした状態で、スマホを横向きにした時にwidthとheightが入れ替わるケースとそうでないケースがあることです。 デバイスの回転に関係なく一定のケースでは、デバイスの向きによらず、width > heightでした。一方デバイスの回転が反映されるケースでは、スマホを縦に持った時はheight > width、横にした時はwidth > heightです。

僕がテストした範囲ではこんな感じです。

結局、navigator.userAgentなどを使用して、OSやブラウザを特定して場合分けすることで対応しました。

点群SegmentationのためのTransformerサーベイ

今回、主に点群に対してSemantic Segmentationを行うためにTansformerを適用した研究についてサーベイしてみたので、資料を公開します。

元々は、前回開催したコンピュータビジョン勉強会@関東「深層学習+3D論文読み会」で発表するために準備していたのですが、発表者が十分に集まったことと、ハイブリッド開催のため運営が大変になりそうだったので、発表は断念しました。

最初は画像と点群でのTransformerの適用方法の違いが気になって調べだしたので、PointTransformerとPointMixerあたりまでを発表するつもりだったのですが、発表を取りやめて調べる時間もできたので、色々と追加で調べているうちに分量が増えてしまいました。

調べてみて、果たしてTransformerは畳み込みと比べて点群処理に最適か?というのはよくわかりませんでした。ただ、PointBERTのように大規模事前学習モデルを作るのは世の流れなので、学習データの量の問題はありますが、点群に関してもいずれそうなるのではないかと思ってます。

また、点群に対してTransformerを適用する場合、計算リソースが大きな問題となるので、そこをどう工夫するか各手法が知恵を絞っている感じでした。 他にもAttentionの計算に、内積の代わりに差分を用いる等、画像とは違ったアプローチが多々見られました。

というわけでご参考になれば幸いです。また、抜けや誤り等コメント歓迎です。