2023-08-27

第59回コンピュータビジョン勉強会＠関東「CVPR2023読み会（後編）」

勉強会コンピュータビジョン学会

先月の前編に引き続き、本日コンピュータビジョン勉強会＠関東「CVPR2023読み会（後編）」をニューラルグループ株式会社様提供の会場をお借りして開催いたしました。

以下、資料やリンク等のまとめです。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

コンピュータビジョン勉強会＠関東

sites.google.com

資料まとめ

発表者	発表内容	資料
yuukicammy	InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions	https://speakerdeck.com/yuukicammy/internimage-exploring-large-scale-vision-foundation-models-with-deformable-convolutions
Kenji	DynIBaR: Neural Dynamic Image Based Rendering	https://speakerdeck.com/tsukamotokenji/dynibar-di-60hui-cvmian-qiang-hui-at-guan-dong
Beluuuuuuga	Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation	https://speakerdeck.com/elith/cvpr-2023-lun-wen-shao-jie-bidirectional-copy-paste-for-semi-supervised-medical-image-segmentation
OZ_Z_C	Efficient Hierarchical Entropy Model for Learned Point Cloud Compression	https://speakerdeck.com/oz_z_c/20230825-cv-cvpr2023-ehem
cheerfularge	Paint by Example: Exemplar-Based Image Editing With Diffusion Models	https://speakerdeck.com/cheerfularge/cvmian-qiang-hui-at-guan-dong-cvpr2023-paint-by-example-exemplar-based-image-editing-with-diffusion-models
carnavi	NeRF-RPN: A general framework for object detection in NeRFs	https://speakerdeck.com/ryokawanami/nerf-rpn-carnavi
ymats	Train/Test-Time Adaptation with Retrieval	https://speakerdeck.com/ymats/20230826-cvmian-qiang-hui-zi-liao-traintest-time-adaptation-with-retrieval
shimacos	Unifying Vision, Text, and Layout for Universal Document Processing	https://speakerdeck.com/shimacos/kanto-cv-59-udop
losnuevetoros	ドキュメント/レイアウト祭り	https://speakerdeck.com/yushiku/reiautoji-ri

2023-07-24

第59回コンピュータビジョン勉強会＠関東「CVPR2023読み会（前編）」

コンピュータビジョン勉強会

本日、コンピュータビジョン勉強会＠関東を「CVPR2023読み会（前編）」というテーマで株式会社サイバーエージェント様に会場をお借りして開催いたしました。

CVPRはコンピュータビジョンのトップカンファレンスの一つで、読み会は当勉強会では恒例の開催となりました。

というわけで、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

コンピュータビジョン勉強会＠関東

sites.google.com

資料まとめ

発表者	発表内容	資料
takmin	MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures	https://speakerdeck.com/takmin/mobilenerf-di-59hui-cvmian-qiang-hui-at-guan-dong-fa-biao-zi-liao
alfplpl	Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models	https://www.docswell.com/s/alfredplpl/ZRXEQG-2023-07-23-125218
tereka114	Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering	https://speakerdeck.com/tereka114/prompting-large-language-models-with-answer-heuristics-for-knowledge-based-visual-question-answering
inoichan	Planning-oriented Autonomous Driving	https://speakerdeck.com/inoichan/cvmian-qiang-hui-at-guan-dong-cvpr2023-uniad-planning-oriented-autonomous-driving
s_aiueo	Real-Time 6K Image Rescaling With Rate-Distortion Optimization	https://speakerdeck.com/sansan_randd/real-time-6k-image-rescaling-with-rate-distortion-optimization
abemii_	UniSim: A Neural Closed-Loop Sensor Simulator	https://speakerdeck.com/abemii/unisim-chao-riarunazi-dong-yun-zhuan-sensasimiyuresiyon
shade-tree	Connecting Vision and Language with Video Localized Narratives	https://speakerdeck.com/forest1988/connecting-vision-and-language-with-video-localized-narratives
InoueNaoto	Visual Programming: Compositional visual reasoning without training	https://speakerdeck.com/naoto0804/jie-shuo-visprog-cvpr2023-best-paper
tana	BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision	https://speakerdeck.com/kotaro_tanahashi/zi-dong-yun-zhuan-niokerubevbesuwu-ti-ren-shi-ji-shu-nojin-hua
yumash3	Semi-Supervised Parametric Real-World Image Harmonization	https://speakerdeck.com/yumash3/semi-supervised-parametric-real-world-image-harmonization-hua-xiang-he-cheng-niokeruse-diao-diao-zheng

私が発表した内容はこちらです。

speakerdeck.com

2023-07-02

javascriptでカメラの解像度を取得するとOSやブラウザで振る舞いが異なる

javascript

javascriptでカメラの解像度を取得する際、OSやブラウザによって振る舞いが異なるため、色々とはまったのでメモ。

まず、カメラの解像度を取得するコードは以下の通り

  let stream = await navigator.mediaDevices
    .getUserMedia({
      video: {
        facingMode: currentFacingMode
      },
      audio: false
    });

  // Get the video track of the camera stream
  const track = stream.getVideoTracks()[0];

  // Get the current settings of the video track
  const settings = track.getSettings();

  // Camera resolution
  let video_width = settings.width;
  let video_height = settings.height;

ここでvideo_widthが幅のピクセル数、video_heightが高さのピクセル数になります。

やっかいなのは、OSやブラウザによって、デバイスの自動回転をONにした状態で、スマホを横向きにした時にwidthとheightが入れ替わるケースとそうでないケースがあることです。デバイスの回転に関係なく一定のケースでは、デバイスの向きによらず、width > heightでした。一方デバイスの回転が反映されるケースでは、スマホを縦に持った時はheight > width、横にした時はwidth > heightです。

僕がテストした範囲ではこんな感じです。

Android 15
- Chrome: 可変
- Firefox: 一定
  - ただしデバイスを横向きにすると、streamの向きが90度回転するというバグ。
- Edge: 可変
iOS 16
- Safari: 一定
- Chrome: 一定
- Firefox: 一定
- Edge: 一定

結局、navigator.userAgentなどを使用して、OSやブラウザを特定して場合分けすることで対応しました。

2023-05-23

点群SegmentationのためのTransformerサーベイ

Survey コンピュータビジョン Point Cloud

今回、主に点群に対してSemantic Segmentationを行うためにTansformerを適用した研究についてサーベイしてみたので、資料を公開します。

元々は、前回開催したコンピュータビジョン勉強会＠関東「深層学習＋３D論文読み会」で発表するために準備していたのですが、発表者が十分に集まったことと、ハイブリッド開催のため運営が大変になりそうだったので、発表は断念しました。

最初は画像と点群でのTransformerの適用方法の違いが気になって調べだしたので、PointTransformerとPointMixerあたりまでを発表するつもりだったのですが、発表を取りやめて調べる時間もできたので、色々と追加で調べているうちに分量が増えてしまいました。

調べてみて、果たしてTransformerは畳み込みと比べて点群処理に最適か？というのはよくわかりませんでした。ただ、PointBERTのように大規模事前学習モデルを作るのは世の流れなので、学習データの量の問題はありますが、点群に関してもいずれそうなるのではないかと思ってます。

また、点群に対してTransformerを適用する場合、計算リソースが大きな問題となるので、そこをどう工夫するか各手法が知恵を絞っている感じでした。他にもAttentionの計算に、内積の代わりに差分を用いる等、画像とは違ったアプローチが多々見られました。

というわけでご参考になれば幸いです。また、抜けや誤り等コメント歓迎です。

takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

第59回コンピュータビジョン勉強会＠関東「CVPR2023読み会（後編）」

登録サイト

Togetter

Youtube

コンピュータビジョン勉強会＠関東

資料まとめ

第59回コンピュータビジョン勉強会＠関東「CVPR2023読み会（前編）」

登録サイト

Togetter

Youtube

コンピュータビジョン勉強会＠関東

資料まとめ

javascriptでカメラの解像度を取得するとOSやブラウザで振る舞いが異なる

点群SegmentationのためのTransformerサーベイ