takminの書きっぱなし備忘録 @はてなブログ

主にコンピュータビジョンなど技術について、たまに自分自身のことや思いついたことなど

2018/07/07 CV勉強会「CVPR2018読み会(後編)」発表資料まとめ

先週に引き続き第46回コンピュータビジョン勉強会@関東「CVPR2018読み会(後編)」というテーマで、株式会社サイバーエージェント様の会場をお借りして行いました。


コンピュータビジョン勉強会@関東

http://sites.google.com/site/cvsaisentan/



開催プログラム

https://kantocv.connpass.com/event/88653/



Tweetまとめ

https://togetter.com/li/1244536



以下で録画を確認できます。

https://www.youtube.com/watch?v=goWpBM20qzU

https://www.youtube.com/watch?v=LYbKW437aNk

https://www.youtube.com/watch?v=2zbD7fFHzYA

https://www.youtube.com/watch?v=gQoZUI6-2s8


取り急ぎ、発表者ごとに資料のリンクをまとめます。(敬称略)

発表者 論文タイトル 発表資料
takmin SPLATNet: Sparse Lattice Networks for Point Cloud Processing https://www.slideshare.net/takmin/cvpr2018pointcloudcnnsplatnet
sakuDken Single View Stereo Matching https://drive.google.com/file/d/1CAJb-uAfWKG6I0MOEhJWDl6FuXBqUxGm/view
lunardog Finding beans in burgers: Deep semantic-visual embedding with localization
sonicair Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction
sakai Im2Flow: Motion Hallucination from Static Images for Action Recognition https://www.slideshare.net/toshikisakai982/cvcvpr2018-im2flow-motion-hallucination-from-static-images-for-action-recognition
ShinichiroMurakami Deep layer aggregation https://docs.google.com/presentation/d/13MKWIOYs5MqhmTy0jpy2r8w5gsTI14Q47rKSVXF9JDo/
tackson5 Neural Inverse Rendering for General Reflectance Photometric Stereo (ICML2018) https://www.slideshare.net/TatsunoriTaniai/neural-inverse-rendering-for-general-reflectance-photometric-stereo-icml-2018
side_yu Boosting Self-Supervised Learning via Knowledge Transfer https://www.dropbox.com/s/s99ypdawvd9oug8/self-supervised_learning_cvsaisentan%2346.pdf?dl=0
yosshi9 SfSNet:Learning Shape, Reflectance and Illuminance of Faces in the wild
peisuke Sliced Wasserstein Distance for Learning Gaussian Mixture Models https://www.slideshare.net/FujimotoKeisuke/sliced-wasserstein-distance-for-learning-gaussian-mixture-models


自分の発表分については、ここにも張り付けておきます。

2018/07/01 CV勉強会「CVPR2018読み会(前編)」発表資料まとめ

第46回コンピュータビジョン勉強会@関東は、「CVPR2018読み会(前編)」というテーマで、株式会社DeNA様の会場をお借りして行いました。

CVPRはコンピュータビジョン分野のトップカンファレンスで、今回非常に多くの方に発表者として立候補していただけたため、前編と後編の二回にわけて行うことになりました。


今回は前編です。


コンピュータビジョン勉強会@関東

http://sites.google.com/site/cvsaisentan/



開催プログラム

https://kantocv.connpass.com/event/88613/



Tweetまとめ

https://togetter.com/li/1242697



以下で録画を確認できます。
https://www.youtube.com/watch?v=rAQh3uhHVvI
https://www.youtube.com/watch?v=ddGoHcAQFm0
https://www.youtube.com/watch?v=sxEgsfq7QiQ
https://www.youtube.com/watch?v=4A9dBVcQe8M


取り急ぎ、発表者ごとに資料のリンクをまとめます。(敬称略)

発表者 論文タイトル 資料
hirotomusiker CVPR2018現地報告 https://www.slideshare.net/HHiroto/cvpr2018-103816861
tereka Future Frame Prediction for Anomaly Detection – A New Baseline https://www.slideshare.net/ssuser21af5b/future-frame-predictionforanomalydetectionanewbaseline
TenkiLee High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs https://www.slideshare.net/ssuser86aec4/cvpr2018-pix2pixhd-cv-103835371
大政孝充 DenseASPP for Semantic Segmentation in Street Scenes
Translating and Segmenting Multimodal Medical Volumes With Cycle- and Shape-Consistency Generative Adversarial Network
t2kasa Domain Adaptive Faster R-CNN for Object Detection in the Wild https://www.slideshare.net/TsukasaTakagi/domain-adaptive-faster-rcnn-for-object-detection-in-the-wild
doiken23 ROAD: Reality Oriented Adaptation for Semantic Segmentation of Urban Scenes
Learning to Adapt Structured Output Space for Semantic Segmentation
https://www.slideshare.net/KentoDoi/cvpr201820180701-103676493
YoheiKikuta MobileNetV2: Inverted Residuals and Linear Bottlenecks https://speakerdeck.com/diracdiego/20180701-cvpr2018-reading-yoheikikuta
tomoaki_teshima Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation https://www.slideshare.net/tomoaki0705/cvim-saisentancvprsuperslomopublish
losnuevetoros Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments https://www.slideshare.net/YoshitakaUshiku/visionandlanguage-navigation-interpreting-visuallygrounded-navigation-instructions-in-real-environmentscv-cvpr-2018


後編は7/7(土)にサイバーエージェント様の会場を借りて行います。

https://kantocv.connpass.com/event/88653/

フリーランスエンジニアから法人成りしました

2009年の5月1日から9年間個人事業主として活動してきましたが、2018年5月11日に法人化したので、知り合いへの報告と、同じように法人化を検討している自営業の方の参考になるかもしれないので、経緯をまとめておきます。


もともと個人事業主になった経緯は、前職のベンチャーをやめた時まだ社会人博士課程在学中で、二足の草鞋状態で雇ってくれるところもないだろうということで、とりあえず独立しました。

もう一つ、それまでリストラ2回とブラック会社勤務を経験し、年齢的にも転職が厳しくなると言われている三十路中盤だったため、今後サラリーマンを続けていくことに不安を感じていました。そこで、とりあえず自分の名前で仕事取ってこれるようになれば、リストラもブラック会社怖くないだろうというのも理由です。


独立直後は赤字案件に捕まって生活が追い込まれたりもしましたが、なんとか博士号も取得し、お客さんにも恵まれてこれまでやってこれました。


尚、自分の仕事内容について簡単に説明すると、独立する前からコンピュータビジョンという人工知能の画像分野に関わってきました。独立前は他の大学や他の企業が開発したコンピュータビジョンのアルゴリズムを元にアプリやサービスを開発するようなことをずっとやってきましたが、独立後はコンピュータビジョンのアルゴリズムを中心に受託で研究したり開発したりコンサルしたりといったことをやってきました。


ここら辺の経緯は以下の記事にまとまってます。


「働きながら7年間かけて博士号を取得しました」
http://d.hatena.ne.jp/takmin/20140329/1396087917


「コンピュータビジョンの先端技術で未来を見据える VISION&IT Lab 代表 Dr. 皆川卓也」
https://the-stage.tech/articles/20170613-minagawa.html


余談ですが、自分が博士課程に進学した2007年はAIブームよりも前で、博士課程後はブルーオーシャンを悠々泳いでいくつもりだったのですが、博士号取得にモタモタしている間に2012年にDeep Learningブームが起こり、取得したころにはすっかりレッドオーシャンになっていました。もっともAIブームのお陰で独立しても食うに困らなかったということもあるのですが。


独立後の仕事は知り合いからの紹介や、このブログやSlide Sharegithubなんかを見て連絡を下さった方、僕が主催している「コンピュータビジョン勉強会@関東」の参加者などから頂いてきました。なので、基本営業らしい営業はしてません。


また、いわゆる常駐のようなことはせず、事前に作業の進め方や作業範囲/ゴール等を提案書の中で合意して進めるやり方をしてきました。そのため時間は自由に使えて、子供が産まれたばかりの頃などはとても助かりました。平日に混雑を避けてレジャーにいけるのもメリットです。


ちなみにランサーズやクラウドワークスを利用したことはありませんが、独立したばかりで仕事の伝手がない人が最初に利用するのには良いのかなという気がしています。
ただ、ああいうところから流れてくる仕事は、既にやることが定義されてしまっているため価格競争に陥りやすく、あまり儲からないだろうと思ってます。それよりもお客さんの要望がまだとモヤっしている段階から自分で提案していった方が、より良いやり方を考えられるし、作業内容も価格もある程度こちらでコントロールできるので自分はこちらが好みです。


というわけで、それなりにフリーランスとして充実してましたが、1つ大きな不満は


寂しい


ということです。例えば、仕事に関して悩んだときに気軽に話を聞いてくれる人がいません。これは、例えばバグが取れない、というような技術的に詰まった状態に限らず、見積もり金額など何か決断を下さなければならない時に、外部から冷静に意見を言ってくれる人がいない、という辛みもあります。
また勉強会や外部の人に聞くなどで、自分の専門分野に関しては色々と情報も入ってくるし、仕事を通して成長の機会もあるのですが、専門外の話や自分が意識的に収集した情報以外についてはほとんど話が入ってこないため、自分自身の視野が狭まっていっていると感じていました。
企業に勤めていたときは、そういう情報が同僚などから自然と耳に入りましたし、みんなで一つの目標に取り組む喜びみたいなのがありましたが、そういうのがないのも寂しいです。
最近、在宅勤務を見直す風潮がありますが、非常にわかる気がします。


というわけで、子供が幼稚園に入園して今までよりも時間に余裕ができそう(+平日レジャーもやりにくくなる)ということもあって、法人化を検討していました。単に寂しいだけならどこかに就職するという手もありますが、そうなると一旦私の抱えているお客さんとの関係を切らなくてはいけなくなり、またリストラされた時のことを考えると大変リスキーです。
とはいえ、この分野の人材は引く手あまたなので、法人化してもすぐ人が雇えるとは思えないし、何人か共同創業者に誘ってみましたが良い返事が貰えず、ただ法人化しても当初の目的が果たせそうにありません。


そこでふと事業売却という形を思いつきました。つまりどこか私の事業ごと買ってくれる会社があれば、お客さんとの関係を切らずに済むし、人と一緒に仕事もできます。
というわけで、いくつかの会社と話をしてみたのですが、その中の一社が「株式会社フューチャースタンダード」でした。


フューチャースタンダードはSCORERというカメラ映像に対するストレージ+画像解析のプラットフォームを扱っている会社で、私も技術顧問をさせていただいてました。SCORERは様々な大学や企業が提供しているコンピュータビジョンのアルゴリズムを機材を設置するだけで手軽に使えるようになっており、そのために必要なカメラやセンサー、通信、クラウド、Edgeコンピューティングなどの周辺技術をEnd-to-Endでサポートしています。
私もコンピュータビジョンのアルゴリズムを提供するうちの一社としてソフトウェアを提供したり、技術相談などに乗ってきました。


いくつかお話しさせていただいた会社の中でフューチャースタンダードが一番、連携した時にお互いメリットがあるんじゃないかと思ったのですが、先方もベンチャー企業で買収にほいほいお金を出せるわけではないですし、考えてみたら事業売却という形じゃなくて事業提携という形にすればこちらの目的は十分果たせる上に、独立性も保てるということに気付きました。
そこで、新法人をフューチャースタンダードのオフィス内に設置させていただき、営業や技術、人材交流の面で密に連携するような業務提携契約を結びました。


フューチャースタンダード代表取締役の鳥海さんはビジネス、ファイナンス、技術など広範囲にわたって色々な知識と経験を持っている方で、他のメンバーも様々な分野のスペシャリストがそろっているため、こちらも日々良い刺激が受けられそうです。


この提携により、今後は既存の技術をうまく流用することで、自分の時間をより困難な技術課題に注力しつつ、今までのアルゴリズム中心の研究や開発以外にも、アプリ/システム/ソリューション提供などにも範囲を広げていきたいと思ってます。


というわけで、今まで「ビジョン&ITラボ」という屋号で活動してきましたが「株式会社ビジョン&ITラボ」を設立することになりました。
http://visitlab.jp (すいません、HPのアップデートはまだできていません)


人も増やしていければなあと思っているので、興味ある方はご連絡ください。

今後とも宜しくお願い致します。

第一回 3D勉強会発表資料「ORB-SLAM Code Reading」

今回、産総研AIセンターの櫻田先生が主催する第一回3D勉強会@関東で発表してきました。


第一回3D勉強会@関東「SLAMチュートリアル大会」

https://3dvision.connpass.com/event/86945/


ツイートまとめ

https://togetter.com/li/1231482


三次元ビジョンはコンピュータビジョン勉強会でもたまに扱うテーマですが、この勉強会はより三次元処理を中心に据えた勉強会で、認識だけでなくCGのような表現までカバーする予定だそうです。


私は「第一回AI Code Review」でORB-SLAMというARなどで利用される技術について簡単なコード解説をしましたが、今回は三次元ガチ勢も多いと思うので、より突っ込んだ解説をしています。


また、今回は事前にsyinari0123さんの「論文紹介:ORB-SLAM」があったので、ORB-SLAM自体のアルゴリズムの解説は割愛し、実装の中身を中心に解説しています。


「論文紹介:ORB-SLAM」

https://www.slideshare.net/MasayaKaneko/slamorbslam



私の資料はこちら
「ORB-SLAM Code Reading」