takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

2025/08/24第64回CV勉強会@関東「CVPR2025読み会」(後編)資料まとめ

8月24日は、7月13日の前編に引き続き、第64回コンピュータビジョン勉強会@関東「CVPR2025読み会」後編を、渋谷スクランブルスクエアの株式会社ディー・エヌ・エー様/株式会社IRIAM様に会場をお借りして行いました。

以下、自分で見返すために資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetterあらためposfie

posfie.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
takmin R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization https://speakerdeck.com/takmin/r-score-revisiting-scene-coordinate-regression-for-robust-large-scale-visual-localization
Takeo Shibata MotionPro: A Precise Motion Controller for Image-to-Video Generation
abemii MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos https://speakerdeck.com/abemii/cvmian-qiang-hui-at-guan-dong-cvpr2025-du-mihui-megasam-accurate-fast-and-robust-structure-and-motion-from-casual-dynamic-videos-li-plus-cvpr2025
s_aiueo32 Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition https://speakerdeck.com/s_aiueo32/cvpr2025lun-wen-du-mihui-linguistics-aware-masked-image-modeling-for-self-supervised-scene-text-recognition
kzykmyzw Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders https://speakerdeck.com/kzykmyzw/gaze-lle-gaze-target-estimation-via-large-scale-learned-encoders
Kenji RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics https://speakerdeck.com/tsukamotokenji/di-64hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-hou-bian
caprest SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment https://docs.google.com/presentation/d/1YqppSVFJNaqXKHuhx3SZvob1ZCulix2X-o8PWM7Zfao/
frkake Removing Reflections from RAW Photos https://speakerdeck.com/frkake/removing-reflections-from-raw-photos
YutaKikuchi DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery https://speakerdeck.com/yutakikuchi_sd/cvmian-qiang-hui-at-guan-dong-dronesplat-3d-gaussian-splatting-for-robust-3d-reconstruction-from-in-the-wild-drone-imagery
Keiichi-Ito Towards Zero‑Shot Anomaly Detection and Reasoning with Multimodal Large Language Models https://speakerdeck.com/keiichiito1978/cvprmian-qiang-hui-hou-ban

今回は私も発表したので、こちらに発表資料を埋め込んでおきます。

speakerdeck.com

映像情報メディア学会誌に「Transformerによる点群セマンティックセグメンテーション概観」という記事を書きました

映像情報メディア学会誌2025年7月号に「Transformerによる点群セマンティックセグメンテーション概観」という記事を寄稿いたしました。

www.ite.or.jp

以前、このブログで「点群SegmentationのためのTransformerサーベイ」という記事を書きましたが、そこに最新の情報を付与したものになります。

takmin.hatenablog.com

とはいえ、紙面の都合で網羅的な紹介はかなり厳しいので、紹介を代表的と思われる手法に絞り込み、代わりに「1.点群にTransformerを適用する場合どのような困難があるのか」、「2.その困難を解決するために各手法はどのような工夫をしているのか」という点を中心に解説しました。

学会誌なので読める人は限られていると思いますが、読んで感想など教えてくれると嬉しいです。

2025/07/13第64回CV勉強会@関東「CVPR2025読み会」(前編)資料まとめ

第64回コンピュータビジョン勉強会@関東は恒例の「CVPR2025読み会」を7月13日と8月24日の前後編で行うことになりました。

前編は、ソニー株式会社様のBridge Terminalをお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetterあらためposfie

posfie.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
shade-tree Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
keiichi ito AnomalyNCD: Towards Novel Anomaly Class Discovery in Industrial Scenarios https://drive.google.com/file/d/1zx9SUqUh3ed_CCwMlxy2IuiuXKfl_B4F/view?ts=68732f86
x_ttyszk The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition https://speakerdeck.com/x_ttyszk/kantocv20150713-panaf-fgbg
peisuke VGGT: Visual Geometry Grounded Transformer https://speakerdeck.com/peisuke/vggt-visual-geometry-grounded-transformer-3019a999-11ea-430f-9412-2e2f0f35ec34
potyy HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation
Shin-kyoto S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation https://speakerdeck.com/shinkyoto/cvmian-qiang-hui-at-guan-dong-cvpr2025-vlmzi-dong-yun-zhuan-model-s4-driver
Oguryu417 TKG-DM: Training-free Chroma Key Content Generation Diffusion Model

後編はこちから申し込み出来ます。

第64回 コンピュータビジョン勉強会@関東(後編) - connpass

2025/02/24第63回CV勉強会@関東「コンピュータビジョンでこんなプログラム作りました大LT大会5」資料まとめ

第63回コンピュータビジョン勉強会@関東は久しぶりの「CVでこんなプログラム作りました大LT大会」を株式会社サイバーエージェント様の様の渋谷スクランブルスクエアの会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetterあらためposfie

posfie.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
takmin CVの社会実装について考えていたら、なぜかゲームを作っていた話 https://speakerdeck.com/takmin/konpiyutabiziyonnoshe-hui-shi-zhuang-nituitekao-eteitaragemuwozuo-tuteitahua
ShibaTake Stable Diffusionを使ったアプリのプロトタイプ https://docs.google.com/presentation/d/1qrwkOB4pQkfdSlG85DYED17EMj175fba/
s_takahashi_st 深層学習と古典的画像アルゴリズムを組み合わせた類似画像検索内製化 https://speakerdeck.com/shutotakahashi/shen-ceng-xue-xi-togu-dian-de-hua-xiang-arugorizumuwozu-mihe-wasetalei-si-hua-xiang-jian-suo-nei-zhi-hua
あるふ 0から作る動画生成AI https://www.docswell.com/s/alfredplpl/K22JN9-2025-02-23-204416
peisuke AI for Kids:小学生に画像認識を教えてみた話
RyotaMaeda 偏光画像処理ライブラリを作った話 https://speakerdeck.com/elerac/pian-guang-hua-xiang-chu-li-raiburariwozuo-tutahua
いしたー 店舗向けにコンピュータビジョンを使ったサービスを作る
TakahiroAkimoto Faster R-CNNの限界をxAIで検証してみた
tomoaki_teshima 可視化と可視化と可視化とrclone https://speakerdeck.com/tomoaki0705/visualize-visualize-visualize-and-rclone
Keiichi-Ito HLACを使った欠点分類アプリ
SmartRig AIで24時間配信をする話
ほき 脳波を用いた嗜好マッチングシステム https://speakerdeck.com/hokkey621/noy-bo-woyong-itashi-hao-matutingusisutemu
losnuevetoros 会社を作った話 https://drive.google.com/file/d/18CB9setnln9uzCN5opLTTevS_ndIo_0P/preview

私の発表資料を埋め込んでおきます。 speakerdeck.com