takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

映像情報メディア学会誌に「Transformerによる点群セマンティックセグメンテーション概観」という記事を書きました

映像情報メディア学会誌2025年7月号に「Transformerによる点群セマンティックセグメンテーション概観」という記事を寄稿いたしました。

www.ite.or.jp

以前、このブログで「点群SegmentationのためのTransformerサーベイ」という記事を書きましたが、そこに最新の情報を付与したものになります。

takmin.hatenablog.com

とはいえ、紙面の都合で網羅的な紹介はかなり厳しいので、紹介を代表的と思われる手法に絞り込み、代わりに「1.点群にTransformerを適用する場合どのような困難があるのか」、「2.その困難を解決するために各手法はどのような工夫をしているのか」という点を中心に解説しました。

学会誌なので読める人は限られていると思いますが、読んで感想など教えてくれると嬉しいです。

2025/07/13第64回CV勉強会@関東「CVPR2025読み会」(前編)資料まとめ

第64回コンピュータビジョン勉強会@関東は恒例の「CVPR2025読み会」を7月13日と8月24日の前後編で行うことになりました。

前編は、ソニー株式会社様のBridge Terminalをお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetterあらためposfie

posfie.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
shade-tree Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
keiichi ito AnomalyNCD: Towards Novel Anomaly Class Discovery in Industrial Scenarios https://drive.google.com/file/d/1zx9SUqUh3ed_CCwMlxy2IuiuXKfl_B4F/view?ts=68732f86
x_ttyszk The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition https://speakerdeck.com/x_ttyszk/kantocv20150713-panaf-fgbg
peisuke VGGT: Visual Geometry Grounded Transformer https://speakerdeck.com/peisuke/vggt-visual-geometry-grounded-transformer-3019a999-11ea-430f-9412-2e2f0f35ec34
potyy HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation
Shin-kyoto S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation https://speakerdeck.com/shinkyoto/cvmian-qiang-hui-at-guan-dong-cvpr2025-vlmzi-dong-yun-zhuan-model-s4-driver
Oguryu417 TKG-DM: Training-free Chroma Key Content Generation Diffusion Model

後編はこちから申し込み出来ます。

第64回 コンピュータビジョン勉強会@関東(後編) - connpass

2025/02/24第63回CV勉強会@関東「コンピュータビジョンでこんなプログラム作りました大LT大会5」資料まとめ

第63回コンピュータビジョン勉強会@関東は久しぶりの「CVでこんなプログラム作りました大LT大会」を株式会社サイバーエージェント様の様の渋谷スクランブルスクエアの会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetterあらためposfie

posfie.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
takmin CVの社会実装について考えていたら、なぜかゲームを作っていた話 https://speakerdeck.com/takmin/konpiyutabiziyonnoshe-hui-shi-zhuang-nituitekao-eteitaragemuwozuo-tuteitahua
ShibaTake Stable Diffusionを使ったアプリのプロトタイプ https://docs.google.com/presentation/d/1qrwkOB4pQkfdSlG85DYED17EMj175fba/
s_takahashi_st 深層学習と古典的画像アルゴリズムを組み合わせた類似画像検索内製化 https://speakerdeck.com/shutotakahashi/shen-ceng-xue-xi-togu-dian-de-hua-xiang-arugorizumuwozu-mihe-wasetalei-si-hua-xiang-jian-suo-nei-zhi-hua
あるふ 0から作る動画生成AI https://www.docswell.com/s/alfredplpl/K22JN9-2025-02-23-204416
peisuke AI for Kids:小学生に画像認識を教えてみた話
RyotaMaeda 偏光画像処理ライブラリを作った話 https://speakerdeck.com/elerac/pian-guang-hua-xiang-chu-li-raiburariwozuo-tutahua
いしたー 店舗向けにコンピュータビジョンを使ったサービスを作る
TakahiroAkimoto Faster R-CNNの限界をxAIで検証してみた
tomoaki_teshima 可視化と可視化と可視化とrclone https://speakerdeck.com/tomoaki0705/visualize-visualize-visualize-and-rclone
Keiichi-Ito HLACを使った欠点分類アプリ
SmartRig AIで24時間配信をする話
ほき 脳波を用いた嗜好マッチングシステム https://speakerdeck.com/hokkey621/noy-bo-woyong-itashi-hao-matutingusisutemu
losnuevetoros 会社を作った話 https://drive.google.com/file/d/18CB9setnln9uzCN5opLTTevS_ndIo_0P/preview

私の発表資料を埋め込んでおきます。 speakerdeck.com

2024/11/16第62回CV勉強会@関東「ECCV2024読み会」

第62回コンピュータビジョン勉強会@関東は「ECCV2024読み会」をセーフィー株式会社様の会場をお借りして開催いたしました。

以下、資料やリンク等をまとめておきます。

登録サイト

kantocv.connpass.com

Togetter

togetter.com

YouTube

www.youtube.com

コンピュータビジョン勉強会@関東

sites.google.com

資料まとめ

発表者 発表内容 資料
tomoaki_teshima Factorized Diffusion: Perceptual Illusions by Noise Decomposition https://speakerdeck.com/tomoaki0705/factorized-diffusion-perceptual-illusions-by-noise-decomposition
lychee1223_Lab Long-CLIP: Unlocking the Long-Text Capability of CLIP https://speakerdeck.com/lychee1223/kantocv-62th-eccv-2024
shunk031 Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model https://speakerdeck.com/lycorptech_jp/miru2024-layout-corrector
chou VideoMamba: State Space Model for Efficient Video Understanding https://speakerdeck.com/chou500/videomamba-state-space-model-for-efficient-video-understanding-614d37bc-0664-4525-9ad2-397be4c9fdf0
frkake Geospecific View Generation -- Geometry-Context Aware High-Resolution Ground View Inference from Satellite Views https://speakerdeck.com/elith/eccv2024du-mihui-wei-xing-hua-xiang-karanodi-shang-hua-xiang-sheng-cheng
colum2131 Improving 2D Feature Representations by 3D-Aware Fine-Tuning https://speakerdeck.com/koheiiwamasa/fit3d-improving-2d-feature-representations-by-3d-aware-fine-tuning-di-62hui-konpiyutabiziyonmian-qiang-hui-eccvlun-wen-du-mihui
abemii_ MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping https://speakerdeck.com/abemii/cvmian-qiang-hui-at-guan-dong-eccv2024-du-mihui-onrainmatupingu-x-toratukingu-maptracker-tracking-with-strided-memory-fusion-for-consistent-vector-hd-mapping-chen-plus-eccv24
s_aiueo32 VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding https://speakerdeck.com/sansan_randd/visfocus-prompt-guided-vision-encoders-for-ocr-free-dense-document-understanding
hsmtta Minimalist Vision with Freeform Pixels https://speakerdeck.com/hsmtta/di-62hui-konpiyutabiziyonmian-qiang-hui-at-guan-dong-eccv2024du-mihui-lun-wen-shao-jie
Antonio Tejero-de-Pablos Robust Nearest Neighbors for Source-Free Domain Adaptation under Class Distribution Shift https://www.slideshare.net/slideshow/eccv2024-paper-reading-robust-nearest-neighbors-for-source-free-domain-adaptation-under-class-distribution-shift-japan-computer-vision-study-group-2024-11-16/273390692
caprest UniCal: Unified Neural Sensor Calibration https://docs.google.com/presentation/d/19fFjuydR1zVj8KLJT-8WpLMuiaTKzjxt057Mm2jKOvM/