MonST3R
DUSt3R 只適合靜態場景。但實際上在物品有在動的情況也還算能用
需要分辨背景與物品
使用一些合成的資料
拍遠景時有人從前面經過,不同焦距、運動造成的模糊也是 MonST3R 比較會處理
Inference Optimization
一段影片中用 sliding window,抽出一些幀跑 DUSt3R。
Loss
- align,多個 view 的結果應該類似
- smooth,相機的移動應該要很流暢,沒有劇烈變動
- flow,相機動作應該與背景的移動方式一致
還需要改進的
很遠的地方拍的影像
有太多遮蔽還是會爛掉
沒有考慮物品的種類,用夠多資料就可以學會
都視為剛性物體,會形變可能會很麻煩
No Pose No Problem
3D Gaussian splatting 比起 NERF 很有效率,但可能比較不精準
很依賴相機的位置,這很煩。
從 DUSt3R 提取靈感,就算沒有很多重疊也能做。
DUSt3R 是用 point cloud,很需要知道 Depth map,而且是離散的。
可以用 MASt3R 訓練 ViT Encoder。
Gaga Group Gaussians
3D-aware Memory Bank,把兩張圖內對應的點找出來並對應
FaceLift
一張人臉照片變成高解析 3D 模型,只花五秒。
只在合成資料上訓練,但現實也不錯
QA
對 ChatGPT 的看法
調侃 ChatGPT 是 Closed。ChatGPT 全部人都做同一個主題,教授覺得 Data 夠就行了。
怎麼想出主題
題目都是學生想出來的,都是花很多時間做,還是得靠學生。
美國很多教授專職就在找錢,沒時間管學生。
做不出東西的學生自然會被淘汰,很殘酷