熱門
在計算機視覺系統中應用Unity合成數據的優勢
以人體模型為中心的計算機視覺系統在過去幾年里取得了巨大的進步,這在很大程度上得益于大規模的人體數據標記。然而,重要的隱私、法律、安全和倫理問題限制了人體數據的獲取渠道?,F有的數據集還會有在數據收集和標注時引入的偏差,這會對用這些數據訓練的模型產生負面影響。此外,大多數現有的人體數據沒有提供對內容多樣性、人類活動和姿勢以及領域不可知論的適當分析。真實數據的一個新興替代方法是合成數據,它可以幫助緩解這些問題,這種方案主要應用于以數據為中心的人工智能和用計算機視覺解鎖家庭智能應用的解決方案之中。然而,創建合成數據生成器非常具有挑戰性,這使得計算機視覺社區無法利用合成數據。此外,合成數據是否有助于取代或補充現有的真實世界數據也是大家一直在討論的問題,產生這些問題的主要是因為我們缺乏一個高度參數化和高度可操作的數據生成器,該生成器能夠被用作模型訓練之中。
受到上述挑戰的激勵,Unity推出了PeopleSansPeople。它是一個以人為中心的數據生成器,包含高度參數化和模擬就緒的3D人資源、參數化照明和相機系統、參數化環境生成器以及完全可操作和可擴展的域隨機器。PeopleSansPeople可以在JSON注釋文件中生成具有亞像素的完美2D/3D邊界框、符合COCO的人體關鍵點和語義/實例分割遮罩的RGB圖像。通過使用PeopleSansPeople和Detectron2 Keypoint R-CNN 變體可以實現基準合成數據訓練。
PeopleSansPeople將支持并加速研究合成數據對以人為中心的計算機視覺的作用性。這將解決研究人員在涉及以人作為目標的任務中使用具有域隨機化的合成數據,從而擴展了現有和新領域中模擬器功能的空間,如增強現實/虛擬現實、自動駕駛以及人體姿勢預估、動作識別和跟蹤等。對PeopleSansPeople數據的研究將涉及生成的合成數據,這些數據將模擬與真實(sim2real)傳輸學習聯系起來,并將解決合成數據和真實數據之間的域差。
PeopleSansPeople的發布
目前Unity發布了兩個版本的PeopleSansPeople:
首先是macOS和Linux的可執行二進制文件,可以用一個可變配置JSON文件生成大規模(1M+)數據集。其包括:
28個不同年齡和種族的3D人體模型,以及不同的服裝(擁有28個反照率、28個蒙版和28個法線的21952個獨特的服裝紋理);
39個動畫片段,具有完全隨機化的人形放置、大小和旋轉,以生成不同排列的人體;
完全參數化的照明設置(位置、顏色、角度和強度)和相機(位置、旋轉、視野、焦距)設置;
一組原始對象,用作具有可變紋理的干擾物和遮擋物;和一組1600幅自然圖像來自COCO無標簽集,充當對象的背景和紋理。
其次,Unity還發布了一個模板項目,通過幫助用戶創建自己版本的以人為中心的數據生成器,降低其社區的進入壁壘。用戶可以將他們自己獲得的3D資產帶入這個環境,并通過修改已經存在的域隨機化器或定義新的域隨機化器來進一步增強其功能。該環境具有上述二進制文件所描述的全部功能:
4個服裝顏色不同的示例3D人體模型;
8個示例動畫剪輯,具有完全隨機化的人形放置、大小和旋轉,以生成不同排列的人;和
一組529個來自Unity感知包充當對象的背景和紋理。
PeopleSansPeople域隨機化
PeopleSansPeople是一個參數數據生成器,它通過一個簡單的JSON配置文件公開了幾個變量參數。當然用戶也可以直接從Unity環境中更改這些配置。許多領域隨機化和環境設計都投入到創建完全參數化的人體模型中。有了這樣的參數集,用戶能夠為人體模型捕捉一些基本的內在和外在變化。通過使用Unity Shader Graph隨機化器來改變人體數據資產的服裝紋理,這為角色賦予了獨特的外觀,當然你還可以使用Unity的動畫隨機器來改變角色的姿勢,該工具具有一組不同的動畫,涵蓋了許多真實的人類動作和姿勢。
數據集統計分析
通過使用域隨機化,Unity隨機生成了500,000幅圖像的合成數據集以及上述提及的標簽。通過使用這些圖像中的490,000個用于訓練,10,000個用于驗證。我們將合成數據集統計數據與COCO?person數據集進行比較。合成數據集比COCO數據集多了一個數量級的實例,也多了一個數量級的帶有關鍵點注釋的實例。
在上圖中,顯示了三個數據集的邊界框占用熱圖。對于COCO數據集,由于有許多人像和風景圖像,我們觀察到長方形邊界框分布跟隨圖像的高度和寬度。我們發現大多數盒子靠近大多數圖像的中心,而較少向邊緣擴展。對于人體合成數據來說,盒子往往更好地占據整個圖像框架,因此迫使模型使用整個感受場。
最后,為了量化生成的圖像中的人體模型的姿態多樣性,我們從角色的末端生成了五個最具代表性關鍵點的姿態熱圖。我們觀察到1)PeopleSansPeople中人體的分布的姿勢包含了COCO中的姿勢分布;2)我們合成姿勢的分布比COCO更廣泛;以及3)在COCO中,大多數人都是面向前方的,導致點密度的“慣用手”不對稱,這在合成數據中得到了很好的改善。
PeopleSansPeople基準測試開箱即用
為了獲得一組模擬到真實遷移學習的基準結果,我們對各種合成和真實數據集的大小和組合進行了訓練,用于人員邊界框(bbox)和關鍵點檢測。我們使用平均精度(AP)作為模型性能的主要指標,在COCO人體驗證(person val2017)和測試集(test-dev2017)上報告我們的結果。
我們根據隨機初始化的權重以及ImageNet預先訓練的權重來訓練我們的模型。我們沒有在任何基準中執行任何模型或數據生成超參數。事實上,我們使用我們直觀選擇的默認參數范圍來生成數據集,并通過從這些范圍進行統一采樣來強制生成數據。因此,我們的數據生成非常簡單。我們在選項卡中顯示結果。我們觀察到,使用合成數據預訓練和真實數據微調,我們的模型比僅在真實數據上訓練或使用ImageNet預訓練然后在真實數據上微調的模型表現更好。這種效果在真實數據有限的少鏡頭遷移學習中更強。有了豐富的真實數據,我們仍然觀察到合成數據預訓練的優勢。
需要注意的是,這些結果旨在服務于對PeopleSansPeople數據進行基準測試目的。PeopleSansPeople自帶高度參數化的隨機器,將定制的隨機器集成到其中非常簡單。因此,我們預計PeopleSansPeople將能夠研究模型訓練循環中的超參數調整和數據生成,以優化這些數據的性能,從而解決零觸發、少觸發以及完全監督的任務。此外,由于合成數據帶有豐富的高質量標簽,它可以與帶有很少或沒有注釋的真實數據相結合,以實現弱監督訓練。
電話:010-50951355 傳真:010-50951352 郵箱:sales@www.gentlemenlisten.com ;點擊查看區域負責人電話
手機:13811546370 / 13720091697 / 13720096040 / 13811548270 /
13811981522 / 18600440988 /13810279720 /13581546145