CVPR 26 | Waymo把行車記錄儀變成自動(dòng)駕駛傳感器：長(zhǎng)尾數(shù)據(jù)終于能進(jìn)仿真了

本文作者：陳淑瑜

2026-06-01 14:43

專題：CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

導(dǎo)語(yǔ)：?Waymo 提出 Sensor2Sensor ，用 4D Gaussian Splatting 先把自家自動(dòng)駕駛?cè)罩句秩境伞靶熊囉涗泝x視角”，再訓(xùn)練擴(kuò)散模型把

來(lái)源：公眾號(hào)“Hyman的雜貨鋪”

原文鏈接：https://mp.weixin.qq.com/s/LU5ldsQhD0EcIcOy0ynOtw

街上每天都有海量行車記錄儀、手機(jī)拍攝、 ADAS 車輛視頻。里面藏著很多自動(dòng)駕駛系統(tǒng)最想要的東西：事故前幾秒、夜間低能見(jiàn)度、奇怪并線、突發(fā)施工、行人橫穿、車輛擦碰。這些場(chǎng)景真實(shí)發(fā)生過(guò)，物理過(guò)程也可信。

難點(diǎn)在另一個(gè)地方：自動(dòng)駕駛系統(tǒng)不能直接吃這些視頻。

一段普通行車記錄儀視頻通常只有一個(gè)前視單目視角，沒(méi)有車輛頂部多路相機(jī)，沒(méi)有環(huán)視覆蓋，沒(méi)有 LiDAR 點(diǎn)云，也沒(méi)有目標(biāo)車隊(duì)對(duì)應(yīng)的傳感器標(biāo)定。對(duì)一套依賴多相機(jī)和 LiDAR 的 ADS 來(lái)說(shuō)，它像一段“看得見(jiàn)但用不上”的素材。

Sensor2Sensor 把問(wèn)題改成了傳感器轉(zhuǎn)換：輸入是野外來(lái)源的單目駕駛視頻，輸出是目標(biāo)自動(dòng)駕駛平臺(tái)格式下的多視角相機(jī)畫(huà)面和 LiDAR 點(diǎn)云。它的核心動(dòng)作，是把真實(shí)視頻重新投到目標(biāo)車的傳感器坐標(biāo)系里，讓一段外部單目視頻變成內(nèi)部系統(tǒng)能讀取的多傳感器日志。

CVPR 26 | Waymo把行車記錄儀變成自動(dòng)駕駛傳感器：長(zhǎng)尾數(shù)據(jù)終于能進(jìn)仿真了

Sensor2Sensor 的目標(biāo)：把手機(jī)、行車記錄儀、互聯(lián)網(wǎng)駕駛視頻等單目來(lái)源，轉(zhuǎn)換成目標(biāo)自動(dòng)駕駛車輛的多相機(jī)與 LiDAR 日志。

為什么這件事值得看

自動(dòng)駕駛數(shù)據(jù)一直有兩個(gè)互相拉扯的目標(biāo)。

一邊是自有車隊(duì)采集的數(shù)據(jù)。它質(zhì)量高，傳感器完整，有精確標(biāo)定，能直接進(jìn)入訓(xùn)練、驗(yàn)證、仿真流程。但它貴，覆蓋有限，尤其是長(zhǎng)尾事件很難靠車隊(duì)自然“等”出來(lái)。

另一邊是開(kāi)放世界里的第三方視頻。規(guī)模極大，內(nèi)容豐富，而且天然偏向長(zhǎng)尾，因?yàn)槿粘Ｆ椒€(wěn)駕駛不會(huì)被頻繁上傳，異常事件反而更容易被記錄下來(lái)。但這類視頻缺少結(jié)構(gòu)化傳感器信息，很難被自動(dòng)駕駛系統(tǒng)當(dāng)作正式驗(yàn)證數(shù)據(jù)。

論文把這個(gè)矛盾概括為 embodiment gap ，也就是“載體差異”。同一個(gè)真實(shí)世界事件，發(fā)生在某個(gè)攝像頭視角里；而你的 ADS 需要的是另一輛車、另一套相機(jī)、另一套 LiDAR 、另一組標(biāo)定下的傳感器觀測(cè)。這類差異遠(yuǎn)遠(yuǎn)超過(guò)風(fēng)格遷移，同時(shí)包含視角、幾何、模態(tài)和時(shí)間一致性。

我的理解是， Sensor2Sensor 的價(jià)值落在一個(gè)非常具體的工程瓶頸上：怎么把外部真實(shí)長(zhǎng)尾視頻變成內(nèi)部可消費(fèi)的 AV log 。

訓(xùn)練數(shù)據(jù)怎么來(lái)：先反向造“配對(duì)樣本”

最大的問(wèn)題是沒(méi)有配對(duì)數(shù)據(jù)。

如果要訓(xùn)練一個(gè)模型，把“行車記錄儀視頻”變成“目標(biāo)自動(dòng)駕駛?cè)罩尽?，理想?xùn)練集應(yīng)該長(zhǎng)這樣：同一時(shí)刻、同一場(chǎng)景，既有第三方行車記錄儀視角，又有目標(biāo)自動(dòng)駕駛車的 8 路相機(jī)和 LiDAR 。現(xiàn)實(shí)中這種配對(duì)幾乎不存在。

論文的做法很工程：從已有 AV logs 出發(fā)，先用 4D Gaussian Splatting 重建動(dòng)態(tài)駕駛場(chǎng)景，再?gòu)倪@個(gè)重建場(chǎng)景里渲染出各種“模擬第三方攝像頭”。這樣就得到一對(duì)訓(xùn)練樣本：模擬行車記錄儀視角作為輸入，原始 AV 多傳感器日志作為監(jiān)督輸出。

這一步里， 4DGS 更像一個(gè)幾何老師：它負(fù)責(zé)把已有多相機(jī)和 LiDAR 觀測(cè)整理成可重渲染的 4D 場(chǎng)景，為后續(xù)模型提供時(shí)間同步、空間對(duì)齊的訓(xùn)練對(duì)。

配對(duì)數(shù)據(jù)生成流程：先從 8 路相機(jī)重建 4DGS ，再渲染不同型號(hào)和安裝位置的第三方攝像頭視角。

論文使用約 10 萬(wàn)個(gè) 10 秒駕駛片段做 4DGS 重建。每個(gè)片段包含 360 度多視角相機(jī)數(shù)據(jù)和 LiDAR 數(shù)據(jù)， LiDAR 可用于初始化和約束 3D Gaussian 的幾何。動(dòng)態(tài)物體會(huì)通過(guò)規(guī)范物體模型做累積，以提升車輛、行人等移動(dòng)對(duì)象的覆蓋。

隨后，系統(tǒng)采樣第三方攝像頭的內(nèi)參和外參。

?內(nèi)參方面，采樣焦距、主點(diǎn)、畸變系數(shù)，用來(lái)模擬低成本廣角鏡頭、魚(yú)眼效果和不同 dashcam 光學(xué)配置。

?外參方面，采樣相對(duì)車體的 6 自由度位姿，覆蓋不同車型、安裝高度、前后位置、偏航、俯仰和滾轉(zhuǎn)誤差。

?渲染階段還考慮曝光補(bǔ)償、 gamma 校正等光照歸一化，讓合成 dashcam 更接近真實(shí)野外視頻。

補(bǔ)充材料里提到，轎車場(chǎng)景下攝像頭高度會(huì)在 1.1 到 1.3 米附近采樣，前向平移在 2.0 到 2.5 米區(qū)間內(nèi)變化，焦距還會(huì)加入約 5% 的均勻擾動(dòng)。這些細(xì)節(jié)讓“合成第三方攝像頭”具備真實(shí)安裝和鏡頭差異，而非簡(jiǎn)單換一個(gè)視角。

補(bǔ)充材料展示的 4DGS 合成 dashcam ：不同攝像頭參數(shù)會(huì)產(chǎn)生不同視角、畸變和安裝效果。

模型怎么做：一個(gè)輸入視角，生成 8 路相機(jī)和 LiDAR

Sensor2Sensor 的生成模型基于 Latent Diffusion 。它要同時(shí)輸出兩類東西：目標(biāo)車輛的多視角相機(jī)圖像，以及同一時(shí)刻的 LiDAR 點(diǎn)云。

論文把相機(jī)和 LiDAR 分開(kāi)編碼，再在擴(kuò)散 U-Net 內(nèi)部做跨視角、跨傳感器融合。

Sensor2Sensor 架構(gòu)：相機(jī)和 LiDAR 各自有 VAE 與 U-Net 分支，通過(guò)跨視角注意力和跨傳感器注意力保持一致。

多視角相機(jī)生成

相機(jī)分支繼承了多視角擴(kuò)散模型的思路。它學(xué)習(xí)的是所有目標(biāo)視角的聯(lián)合分布，而非逐個(gè)孤立生成每個(gè)相機(jī)。為了讓 8 路相機(jī)之間保持一致，模型把普通 2D attention 換成 3D attention ：既在空間維度上看圖像內(nèi)容，也在視角維度上交換信息。

相機(jī)位姿通過(guò) raymap 注入。 Raymap 可以理解為每個(gè)像素對(duì)應(yīng)的一條 3D 射線，包含射線起點(diǎn)和方向。模型看到的不只是“生成一張圖”，還知道這張圖對(duì)應(yīng)車輛上哪個(gè)相機(jī)、朝哪里看、內(nèi)外參是什么。

第三方 dashcam 輸入會(huì)作為第 9 個(gè)視角加入模型。它的 latent 、 raymap 和二值 mask 會(huì)一起拼到視角維度里。這個(gè) mask 告訴模型：這一視角是已知條件，不參與噪聲還原；另外 8 個(gè)目標(biāo)視角才是要生成的結(jié)果。

這會(huì)影響模型理解輸入的方式。通道拼接容易把 dashcam 壓成普通特征圖；視角拼接則明確告訴模型：這是一臺(tái)真實(shí)存在的已知相機(jī)，可以通過(guò)跨視角注意力與目標(biāo)相機(jī)互動(dòng)。

LiDAR 生成

LiDAR 點(diǎn)云沒(méi)有直接作為無(wú)序點(diǎn)集生成，而是轉(zhuǎn)成 range-view spin image 。論文使用一個(gè)形狀為高度、寬度、通道的張量表示 LiDAR ，其中 4 個(gè)通道分別是：距離、反射強(qiáng)度、 elongation 和有效性 mask 。

距離會(huì)被截?cái)嗟?150 米并線性歸一化到 0 到 1 ，強(qiáng)度和 elongation 也做歸一化。這樣 LiDAR 可以更自然地進(jìn)入 2D 生成模型。

LiDAR 分支有獨(dú)立 VAE 。編碼器和解碼器都是卷積結(jié)構(gòu)，訓(xùn)練目標(biāo)包括距離、 elongation 、強(qiáng)度的 L1 重建，有效性 mask 的二元交叉熵，以及法線、 elongation 、強(qiáng)度、有效性上的 LPIPS 感知損失，再加 KL 正則。這里不必糾結(jié)每個(gè)損失項(xiàng)的公式，核心意思是：模型既要還原數(shù)值，也要讓點(diǎn)云轉(zhuǎn)換成圖像表示后在結(jié)構(gòu)和感知上更接近真實(shí) LiDAR 。

跨傳感器注意力

相機(jī)和 LiDAR 分支如果完全分開(kāi)訓(xùn)練，很容易出現(xiàn)圖像里有車、點(diǎn)云里沒(méi)車，或者點(diǎn)云障礙物位置和圖像對(duì)不上。論文在每個(gè) U-Net block 里加入 cross-sensor attention 。

做法是把相機(jī)特征 token 和 LiDAR 特征 token 拉平后拼到同一個(gè)序列里，再做 self-attention 。這樣圖像和 LiDAR 的特征能在去噪過(guò)程中互相引用。對(duì)自動(dòng)駕駛來(lái)說(shuō)，這一步比單純提升視覺(jué)效果更有意義，因?yàn)橄掠胃兄头抡嫦到y(tǒng)需要跨模態(tài)一致的世界，而非兩份各自看起來(lái)不錯(cuò)的數(shù)據(jù)。

視頻怎么保持穩(wěn)定： DAgger 用在自回歸生成上

單幀能生成還不夠。真實(shí) driving log 是一段連續(xù)傳感器序列。

論文把模型擴(kuò)展為自回歸視頻生成：當(dāng)前時(shí)刻的第三方視頻幀，加上上一時(shí)刻自己生成的相機(jī)和 LiDAR ，一起作為條件，生成當(dāng)前時(shí)刻的 8 路相機(jī)和 LiDAR 。

問(wèn)題也隨之出現(xiàn)：訓(xùn)練時(shí)模型常?？吹秸鎸?shí)上一幀，推理時(shí)卻只能看到自己上一幀生成的結(jié)果。小錯(cuò)誤會(huì)沿時(shí)間累積，最后變成閃爍、漂移、幾何錯(cuò)位。

論文借用了 DAgger 思路來(lái)縮小訓(xùn)練和推理差異。訓(xùn)練流程分為四步：

1.先訓(xùn)練單幀條件生成模型。

2.再加入上一幀相機(jī)與 LiDAR latent 的條件，做前幀條件微調(diào)。

3.用模型自己滾動(dòng)生成一批帶誤差的 rollout 數(shù)據(jù)。

4.再用這些模型生成的歷史狀態(tài)繼續(xù)微調(diào)，讓模型學(xué)會(huì)在自己的錯(cuò)誤上下文里恢復(fù)。

補(bǔ)充材料給出的實(shí)現(xiàn)細(xì)節(jié)是：訓(xùn)練使用 128 個(gè) TPU ， AdamW 優(yōu)化器，學(xué)習(xí)率 5e-5 ，全局梯度裁剪為 1.0 ， EMA 衰減為 0.999 。三個(gè)主要階段分別訓(xùn)練 8 萬(wàn)、 4 萬(wàn)和 2 萬(wàn)步，模型參數(shù)規(guī)模約 2.5 億。

視頻 rollout 對(duì)比： DAgger 訓(xùn)練能減少時(shí)間展開(kāi)過(guò)程中的閃爍和漂移，前視畫(huà)面更穩(wěn)定。

實(shí)驗(yàn)設(shè)置：論文自己搭了一個(gè)新評(píng)測(cè)

因?yàn)椤皢文康谌揭曨l到完整 AV sensor suite”這個(gè)任務(wù)此前沒(méi)有標(biāo)準(zhǔn)數(shù)據(jù)集，論文自建了兩個(gè)評(píng)測(cè)部分。

第一部分是 1000 段配對(duì)的 Fixed-Camera-to-AV log ，每段 3 秒。輸入相機(jī)固定在自動(dòng)駕駛車前左保險(xiǎn)杠附近，目標(biāo)輸出是車頂 8 路環(huán)視相機(jī)和 LiDAR 。因?yàn)檫@一路輸入與目標(biāo)傳感器同步且標(biāo)定已知，所以能做 PSNR 、 SSIM 、 LPIPS 、 FID 、 FVD 、 Chamfer Distance 等定量比較。

第二部分是 in-the-wild 數(shù)據(jù)，包括手工采集的真實(shí) dashcam 、互聯(lián)網(wǎng)上的駕駛視頻、手機(jī)錄制視頻和其他 ADAS 來(lái)源，用于觀察模型面對(duì)未知相機(jī)、未知天氣、未知場(chǎng)景內(nèi)容時(shí)的泛化能力。

基線方面，論文改造了幾類方法： VGGT 和 π3 代表前饋 3D 重建路線； X-Drive 代表圖像和 LiDAR 聯(lián)合生成路線； CAT3D 相關(guān)變體用于比較輸入條件的通道拼接和視角拼接。

結(jié)果一：多視角圖像生成明顯領(lǐng)先

在 Fixed-Camera-to-AV 多視角圖像生成任務(wù)上， Sensor2Sensor 的 FID 為 6.47 ， LPIPS 為 0.316 ，優(yōu)于 VGGT 、π3 、 X-Drive 和不使用視角拼接的變體。

方法	FID↓	PSNR↑	LPIPS↓
VGGT	250.93	14.73	0.491
π3	246.27	14.93	0.458
X-Drive	8.30	18.61	0.345
無(wú) VC 變體	6.88	18.69	0.346
Sensor2Sensor	6.47	19.06	0.316

視覺(jué)上， Sensor2Sensor 生成的多視角畫(huà)面更清晰，對(duì)車輛形狀、場(chǎng)景結(jié)構(gòu)、被遮擋區(qū)域補(bǔ)全更穩(wěn)。重建類模型在未觀察區(qū)域容易出現(xiàn)空洞或幾何變形；生成類基線雖然圖像更像真實(shí)，但多視角結(jié)構(gòu)和對(duì)象一致性仍弱一些。

圖像生成對(duì)比： Sensor2Sensor 更接近真實(shí)目標(biāo)視角，基線方法更容易出現(xiàn)模糊、形狀錯(cuò)誤或未觀察區(qū)域生成失敗。

補(bǔ)充材料進(jìn)一步展示了不同車輛位置和顏色下的圖像生成。可以看到，模型并非只把前視輸入復(fù)制到周圍視角，而是在推斷車輛周邊結(jié)構(gòu)、目標(biāo)車身形狀和遮擋區(qū)域。

補(bǔ)充圖像結(jié)果：在多車前方場(chǎng)景中， Sensor2Sensor 對(duì)車輛形狀和顏色的保持更穩(wěn)定。

更多圖像結(jié)果：面對(duì)傾斜車輛、迎面車輛等輸入，模型仍能生成較一致的目標(biāo)視角。

結(jié)果二：視頻 FVD 從兩千級(jí)降到兩百級(jí)

視頻生成任務(wù)只比較前視生成視頻，因?yàn)?VGGT 和 π3 在其他視角會(huì)出現(xiàn)大面積空洞。 Sensor2Sensor 的 FVD 為 278.12 ，不使用視角拼接的變體是 293.73 ，π3 和 VGGT 分別達(dá)到 2007.35 和 2373.15 。

方法	FVD↓	PSNR↑	LPIPS↓
VGGT	2373.15	14.73	0.491
π3	2007.35	14.93	0.458
無(wú) VC 變體	293.73	22.07	0.204
Sensor2Sensor	278.12	22.42	0.186

對(duì)自動(dòng)駕駛?cè)罩緛?lái)說(shuō)，漂亮的單幀還不夠。連續(xù) 3 秒、 10 秒甚至更長(zhǎng)時(shí)間里，同一輛車不能忽大忽小，路沿和車道線也不能來(lái)回漂。自動(dòng)駕駛感知模型通常會(huì)利用連續(xù)幀做跟蹤、速度估計(jì)、軌跡預(yù)測(cè)；一旦合成視頻里同一輛車每隔幾幀變形一次，或者路邊靜態(tài)物體抖動(dòng)，下游驗(yàn)證就會(huì)失真。

論文的消融也顯示， DAgger 微調(diào)把前視 FVD 從 288.90 降到 278.12 ， FID 從 24.65 降到 21.54 。提升幅度不夸張，但方向很明確：讓模型提前適應(yīng)自己的生成歷史，會(huì)讓 rollout 更穩(wěn)。

結(jié)果三： LiDAR 是核心輸出

Sensor2Sensor 的一個(gè)亮點(diǎn)是它同時(shí)生成 LiDAR ，圖像和點(diǎn)云共同構(gòu)成目標(biāo)日志。

LiDAR 定量指標(biāo)使用 Chamfer Distance 。相比 X-Drive 的 10.02 ， Sensor2Sensor 達(dá)到 8.68 ，改善 13.37%。視覺(jué)上，它對(duì)近處車輛、卡車輪廓、道路周邊靜態(tài)結(jié)構(gòu)的點(diǎn)云更干凈，噪聲更少，強(qiáng)度渲染也更合理。

方法	Chamfer↓	改善
X-Drive	10.02	—
Sensor2Sensor	8.68	13.37%

LiDAR 對(duì)比： Sensor2Sensor 對(duì)卡車形狀和周圍物體的點(diǎn)云更穩(wěn)定，噪聲和強(qiáng)度錯(cuò)誤更少。

更值得看的是圖像和 LiDAR 的一致性。論文展示了圖像里出現(xiàn)的標(biāo)志牌、道路標(biāo)線、車輛，在 LiDAR 結(jié)果里也能對(duì)應(yīng)到合理的空間結(jié)構(gòu)。這對(duì)仿真環(huán)境很關(guān)鍵，因?yàn)橄掠文Ｐ筒粫?huì)只看一張 RGB 圖，它會(huì)把多傳感器信息融合起來(lái)判斷世界。

圖像與 LiDAR 聯(lián)合生成：生成的點(diǎn)云與相機(jī)視角中的車輛、路面標(biāo)志和交通元素保持空間對(duì)齊。

補(bǔ)充材料里的 LiDAR 樣例更密集，能看到模型在多個(gè)輸入場(chǎng)景下都傾向于生成更清晰的幾何輪廓。

補(bǔ)充 LiDAR 結(jié)果：相比基線， Sensor2Sensor 輸出點(diǎn)云的噪聲更少，空間關(guān)系保留更好。

補(bǔ)充跨模態(tài)一致性結(jié)果：圖像中的幾何細(xì)節(jié)能在生成 LiDAR 中得到對(duì)應(yīng)。

結(jié)果四：野外視頻上，人類評(píng)測(cè)偏好很明顯

Sensor2Sensor 最核心的目標(biāo)是利用野外數(shù)據(jù)，所以論文專門測(cè)試了互聯(lián)網(wǎng)駕駛視頻、真實(shí) dashcam 、手機(jī)錄像和其他 ADAS 片段。場(chǎng)景包含夜間低可見(jiàn)度、近碰撞、事故和 active incidents 。

野外視頻泛化：模型把事故、夜間、低能見(jiàn)度等單目輸入轉(zhuǎn)換成完整多傳感器日志。

人類評(píng)測(cè)由 26 名參與者完成，他們對(duì) 40 組、每組三個(gè)方法的生成結(jié)果做排序，評(píng)價(jià)維度是真實(shí)感和與輸入對(duì)齊程度。

數(shù)據(jù)	圖像 Top	LiDARTop	對(duì)比 X-Drive
Dashcam	83.46%	68.08%	圖像 94.62%
Internet	84.62%	58.46%	圖像 95.38%

LiDAR 的偏好率低于圖像，但仍明顯領(lǐng)先。我的判斷是， LiDAR 偏好率低一些反而更接近真實(shí)難度：?jiǎn)文恳曨l只給了前方紋理和少量運(yùn)動(dòng)線索，模型要補(bǔ)的是車輛側(cè)后方、遮擋區(qū)域和深度結(jié)構(gòu)，這已經(jīng)越過(guò)了普通視頻翻譯任務(wù)的邊界。模型能做到多數(shù)情況下更真實(shí)、更對(duì)齊，說(shuō)明 4DGS 配對(duì)數(shù)據(jù)和跨傳感器注意力確實(shí)在發(fā)揮作用。

消融：視角拼接和聯(lián)合訓(xùn)練各自貢獻(xiàn)什么

論文對(duì)架構(gòu)做了兩組關(guān)鍵消融。

第一組看輸入條件怎么拼。通道拼接是把 dashcam 信息當(dāng)作額外特征通道；視角拼接是把 dashcam 當(dāng)作第 9 個(gè)已知視角。圖像生成中， CAT3D + VC 的 FID 為 6.20 ，優(yōu)于 CAT3D + CC 的 6.63 ；加入 LiDAR 后，完整模型 FID 為 6.47 ， LPIPS 為 0.316 ，也優(yōu)于 CC + LiDAR 變體。

變體	FID↓	PSNR↑	LPIPS↓
CC 圖像	6.63	18.91	0.314
VC 圖像	6.20	19.12	0.307
CC+LiDAR	6.88	18.69	0.346
VC+LiDAR	6.47	19.06	0.316

把這組消融翻成工程語(yǔ)言，重點(diǎn)其實(shí)有兩個(gè)：

?視角拼接更適合這類幾何條件生成，因?yàn)檩斎?dashcam 被建模成一個(gè)真實(shí)視角，避免被壓成一堆通道特征。

?聯(lián)合 LiDAR 訓(xùn)練會(huì)讓圖像指標(biāo)略有波動(dòng)，但完整模型仍保持競(jìng)爭(zhēng)力，說(shuō)明多模態(tài)聯(lián)合沒(méi)有明顯犧牲圖像質(zhì)量。

第二組是 DAgger 。沒(méi)有 DAgger 時(shí)，前視 FVD 為 288.90 ；加入 DAgger 后降到 278.12 。這個(gè)提升不是“換模型”的效果，更像是把推理時(shí)會(huì)遇到的錯(cuò)誤上下文提前喂給模型，讓它學(xué)會(huì)糾偏。

下游任務(wù)：生成數(shù)據(jù)能被真實(shí)感知模型消費(fèi)

論文還做了一個(gè)很實(shí)用的檢查：拿在真實(shí)數(shù)據(jù)上訓(xùn)練的感知模型，直接跑在生成數(shù)據(jù)上，不做 finetune 。

LiDAR 檢測(cè)結(jié)果顯示，車輛檢測(cè)模型在真實(shí)和生成 LiDAR 上表現(xiàn)可比；圖像分割中， Panoptic-DeepLab 在真實(shí)圖像和生成圖像上也能輸出一致預(yù)測(cè)。這個(gè)實(shí)驗(yàn)給出的結(jié)論應(yīng)該保守理解：生成數(shù)據(jù)還不能替代真實(shí)采集，但它已經(jīng)接近到足以被現(xiàn)有感知模型讀取和處理。

LiDAR 檢測(cè)：真實(shí)點(diǎn)云和生成點(diǎn)云上，車輛檢測(cè)結(jié)果保持可比。

圖像分割：真實(shí)圖像和生成圖像上的 panoptic segmentation 結(jié)果接近，說(shuō)明生成圖像保留了可用語(yǔ)義結(jié)構(gòu)。

這項(xiàng)工作的邊界

論文也承認(rèn)了一個(gè)重要限制：長(zhǎng)時(shí)間視頻仍會(huì)漂移。

當(dāng)前模型把強(qiáng)單幀生成能力擴(kuò)展到自回歸視頻。 DAgger 能緩解短期誤差累積，但超過(guò) 30 秒的長(zhǎng)序列里，小的 LiDAR 幾何漂移、視覺(jué)不一致、傳感器標(biāo)定感漂移仍可能逐步放大。

論文提出兩個(gè)方向：

?換成更強(qiáng)的長(zhǎng)視頻生成 backbone ，提高長(zhǎng)程一致性。

?擴(kuò)大自回歸條件窗口，不只看上一幀，而是看過(guò)去多個(gè)時(shí)刻，讓模型擁有更長(zhǎng)的時(shí)間上下文。

我會(huì)再補(bǔ)一個(gè)工程層面的疑問(wèn)：如果這些生成日志用于安全驗(yàn)證，如何定義“生成結(jié)果足夠可信”？ FID 、 FVD 、人類偏好、 Chamfer Distance 都有價(jià)值，但它們還不能直接回答“某個(gè)碰撞場(chǎng)景轉(zhuǎn)換后的 LiDAR 是否足以支撐安全結(jié)論”。后續(xù)可能需要任務(wù)級(jí)評(píng)測(cè)，比如檢測(cè)、預(yù)測(cè)、規(guī)劃模塊在真實(shí)日志和轉(zhuǎn)換日志上的行為一致性。

我的看法： Sensor2Sensor 更像自動(dòng)駕駛的數(shù)據(jù)轉(zhuǎn)接器

Sensor2Sensor 最有意思的地方，是它把生成模型放在數(shù)據(jù)基礎(chǔ)設(shè)施的位置上。

過(guò)去很多自動(dòng)駕駛生成模型關(guān)注“從文本生成駕駛場(chǎng)景”“預(yù)測(cè)未來(lái)幀”“構(gòu)建可交互世界模型”。 Sensor2Sensor 的問(wèn)題更窄，但工程價(jià)值很高：外部真實(shí)視頻已經(jīng)存在，怎么把它轉(zhuǎn)接到目標(biāo)車隊(duì)的傳感器體系里。

如果這條路線繼續(xù)成熟，自動(dòng)駕駛長(zhǎng)尾數(shù)據(jù)的獲取方式可能會(huì)改變。車隊(duì)不一定只能等待自家車輛遇到稀有事件，也可以從互聯(lián)網(wǎng)上、合作伙伴 dashcam 、手機(jī)記錄中挖掘真實(shí)片段，再轉(zhuǎn)換成內(nèi)部仿真和驗(yàn)證可用的日志格式。

當(dāng)然，生成數(shù)據(jù)不能直接等同于真實(shí)采集。它更像一個(gè)放大器：把真實(shí)世界事件的可用范圍擴(kuò)大，但每一次轉(zhuǎn)換都需要被校驗(yàn)。尤其是涉及安全決策時(shí)，轉(zhuǎn)換模型本身也必須進(jìn)入驗(yàn)證鏈路。

從這個(gè)角度看， Sensor2Sensor 給出的是一個(gè)方向：自動(dòng)駕駛數(shù)據(jù)可以跳出“采集來(lái)源”的劃分方式，按“目標(biāo)傳感器形態(tài)”重新映射。