国产成人精品一区二区在线观看_亚洲午夜av久久乱码_高清国产一区二区_国产黄色在线观看_精品视频久久_99免费在线视频

3D AI生成出新玩法了:只要45秒,單

網(wǎng)絡(luò) 分享 時(shí)間: 收藏本文

3D AI生成出新玩法了:只要45秒,單

機(jī)器之心專欄

機(jī)器之心編輯部

45 秒單張圖片變 3D,無(wú)需大量 3D 數(shù)據(jù)和逐物體優(yōu)化。

3D AI 生成最近發(fā)展得如火如荼,不少最新工作都能夠從一句話 / 一張圖生成高質(zhì)量的三維模型。然而從去年下半年的 和 到最新的 ,絕大多數(shù)工作都通過(guò)對(duì)每個(gè)物體進(jìn)行優(yōu)化的方式來(lái)生成 3D 模型。這種方式使得現(xiàn)有的 3D AI 生成方法都非常耗時(shí),譬如 的作者就曾在知乎上表示方法目前的主要局限之一便是生成時(shí)間太慢了!

“一般而言,使用 - 生成一張圖片在 PC 上只需要幾秒鐘,哪怕微調(diào) LoRA 也很快;然而,我們生成一個(gè) 3D 物體需要數(shù)個(gè)小時(shí),尤其是分辨率越高越慢。這主要是因?yàn)槲覀儽举|(zhì)上還是借助于隨機(jī)梯度下降來(lái)優(yōu)化 3D 表示(NeRF 或 Mesh)的參數(shù),這樣的優(yōu)化過(guò)程需要很多步的迭代,并且對(duì) GPU 的顯存也有一定要求。我們最終展示的效果是 512 分辨率的結(jié)果,這些結(jié)果的優(yōu)化確實(shí)非常耗時(shí),所以目前個(gè)人使用者還是很難在 PC 上直接使用我們的算法。”

高昂的推斷成本不僅使得研究者的實(shí)驗(yàn)迭代變慢,也阻礙了 3D AIGC 技術(shù)對(duì)于很多實(shí)時(shí)應(yīng)用的商業(yè)落地和推廣。

然而就在最近,來(lái)自 UCSD 等機(jī)構(gòu)的研究者發(fā)布了一項(xiàng)最新工作,One-2-3-45,它擺脫了逐物體優(yōu)化的生成范式,能夠在 45 秒內(nèi)從任意單張圖片 / 文本生成 3D 紋理網(wǎng)格,且在測(cè)試時(shí)無(wú)需針對(duì)每個(gè)物體進(jìn)行優(yōu)化。

能生成圖片的app_圖片生成api_可以生成圖片的ai

Page:

:

Code:

Demo:

單張圖片生成 3D

通過(guò)與現(xiàn)有的文生圖模型(如 DALL-E2)結(jié)合,One-2-3-45 也支持從任意文本生成 3D 模型。

文本生成 3D

論文一發(fā)布,就被推特大佬 AK 宣傳轉(zhuǎn)發(fā),并受到網(wǎng)友的廣泛關(guān)注。

圖片生成api_能生成圖片的app_可以生成圖片的ai

網(wǎng)友 Xin Kong 評(píng)論到:“這是最好的時(shí)代,也是最壞的時(shí)代。這可能是 3D 擴(kuò)散生成中的 NGP 時(shí)刻。30 分鐘 ->45 秒,無(wú)分?jǐn)?shù)蒸餾,2D 視圖到 3D 是必經(jīng)之路!”

可以生成圖片的ai_圖片生成api_能生成圖片的app

方法

由于 3D 數(shù)據(jù)的稀缺性,學(xué)術(shù)界最近的絕大多數(shù) 3D AI 生成工作都通過(guò)利用 2D 擴(kuò)散生成模型來(lái)指導(dǎo) 3D 表示(如 NeRF)的優(yōu)化,從而實(shí)現(xiàn) 3D 內(nèi)容生成。One-2-3-45 沒(méi)有遵循這個(gè)范式,而是先利用 2D 擴(kuò)散模型生成多視角圖像,然后希望利用這些多視角圖像來(lái)重建 3D 模型。

具體而言,One-2-3-45 利用了一個(gè)基于視角控制的 2D 擴(kuò)散生成模型,。該模型通過(guò)微調(diào) ,實(shí)現(xiàn)了輸入單張圖片和一個(gè)相機(jī)的相對(duì)位姿變換,便能夠預(yù)測(cè)該物體在變換后的視角下的對(duì)應(yīng)圖像的能力。

可以生成圖片的ai_圖片生成api_能生成圖片的app

通過(guò)借助這類 2D 擴(kuò)散生成模型,我們能夠從一張圖片預(yù)測(cè)生成對(duì)應(yīng)的多視角圖像。

能生成圖片的app_圖片生成api_可以生成圖片的ai

一個(gè)很自然的想法,便是將這些多視角圖像傳給經(jīng)典的基于 NeRF 的重建方法來(lái)生成 3D 模型。然而研究者發(fā)現(xiàn)這樣并不能生成高質(zhì)量的 3D 模型(如下圖所示)。

可以生成圖片的ai_圖片生成api_能生成圖片的app

這其實(shí)是因?yàn)榫W(wǎng)絡(luò)預(yù)測(cè)的多視角圖像具有潛在的不一致性。然而對(duì)于基于 NeRF 的優(yōu)化類重建方法,一些微小的不一致便已足以使得方法崩潰。

能生成圖片的app_可以生成圖片的ai_圖片生成api

如上圖所示,通過(guò)將預(yù)測(cè)的多視角圖像與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比,研究者發(fā)現(xiàn) 預(yù)測(cè)的多視角圖像雖然不具備像素級(jí)別的高精確度(PSNR 不高)。但整體輪廓(mIoU)以及語(yǔ)義 / 感知相似性(CLIP 相似度)都很高,尤其當(dāng)相機(jī)相對(duì)位姿變換較小時(shí)。這些結(jié)果說(shuō)明了用網(wǎng)絡(luò)預(yù)測(cè)的多視角圖像進(jìn)行三維重建的可能性。

在 One-2-3-45 中,研究者使用了基于 cost 的可泛化 NeRF 類的方法來(lái)實(shí)現(xiàn)三維重建。這類方法將多視角圖像作為輸入,在訓(xùn)練后能夠直接推斷 3D 內(nèi)容而無(wú)需額外優(yōu)化。由于這類方法通過(guò)從訓(xùn)練數(shù)據(jù)學(xué)習(xí)了有關(guān)多視角預(yù)測(cè)不一致性的先驗(yàn)知識(shí),他們更有希望能從不一致的多視角預(yù)測(cè)中生成 3D 模型。

圖片生成api_可以生成圖片的ai_能生成圖片的app

One-2-3-45 方法流程圖

具體來(lái)說(shuō),One-2-3-45 首先通過(guò)對(duì)多視角圖像抽取 2D 圖像特征,并通過(guò)相機(jī)位姿來(lái)構(gòu)建 3D cost 。然后 One-2-3-45 通過(guò) 3D 卷積神經(jīng)網(wǎng)絡(luò)來(lái)從 3D cost 推斷輸入多視角圖像對(duì)應(yīng)的潛在 3D 幾何,并最后通過(guò) MLP 來(lái)預(yù)測(cè)物體的 SDF 和顏色,進(jìn)行體積渲染。

通過(guò)結(jié)合 2D 擴(kuò)散生成模型和基于 cost 的可泛化 NeRF,One-2-3-45 能夠在一次前向傳播中生成 3D 模型。擺脫了耗時(shí)的逐物體 3D 優(yōu)化后,One-2-3-45 生成一個(gè)高質(zhì)量 3D 紋理網(wǎng)格的時(shí)間從數(shù)小時(shí)降到了 45 秒!

然而在實(shí)現(xiàn)這個(gè)想法的過(guò)程中,研究人員卻遇到了一些具體的挑戰(zhàn):

1. 現(xiàn)有的可泛化 NeRF 方法大都是將具有一致性的多視角圖像作為輸入(渲染自真實(shí)物體)。但如何將這類方法擴(kuò)展到不完全一致的多視角預(yù)測(cè)上呢?

2. 現(xiàn)有的可泛化 NeRF 方法很多都專注于前景區(qū)域的重建。但在 3D 生成的問(wèn)題中,我們希望得到 360 度的完整模型。

3. 由于 采用了球坐標(biāo)系來(lái)描述相對(duì)相機(jī)位姿。為了提供多視角圖像的相機(jī)位姿給重建模塊,我們需要得到輸入圖片對(duì)應(yīng)的相機(jī)俯仰角()。

為了解決這些挑戰(zhàn),研究者提出了一系列關(guān)鍵的訓(xùn)練策略(如分階段預(yù)測(cè)多視角圖像)和一個(gè)俯仰角預(yù)測(cè)模塊。詳情請(qǐng)參考原論文。

研究者還特別指出由于重建模塊主要依賴于局部的對(duì)應(yīng)關(guān)系(),因此其只需少量的數(shù)據(jù)進(jìn)行訓(xùn)練,并具有很強(qiáng)的可泛化性。

與現(xiàn)有 3D AI 生成方法的比較

研究者表示,得益于 “2D 多視角預(yù)測(cè) + 3D 可泛化重建” 的技術(shù)路線,One-2-3-45 與現(xiàn)有的 3D AI 生成方法相比,除了推斷時(shí)間顯著降低外,還在輸入的多樣性、輸出的幾何表示、結(jié)果的 3D 一致性、與輸入的相似性,以及所需的 3D 數(shù)據(jù)規(guī)模上,具有多方面的優(yōu)勢(shì)。

能生成圖片的app_可以生成圖片的ai_圖片生成api

具體來(lái)說(shuō),許多基于逐物體優(yōu)化的方法雖然能生成高質(zhì)量 3D 內(nèi)容,但目前只支持文字生成 3D(如 , 和 )。而 One-2-3-45 既支持文字生成 3D 也支持圖片生成 3D。下圖展示了 One-2-3-45 與現(xiàn)有的主要圖生 3D 的方法的對(duì)比。

與現(xiàn)有圖生 3D 方法的比較

可以看到一些基于 NeRF 優(yōu)化的方法(如 和 3D Fuse)雖然從新視角合成的角度上得到了還不錯(cuò)的結(jié)果,但 NeRF 所輸出的幾何質(zhì)量卻不盡人意。類似地,-E 的原生輸出是稀疏點(diǎn)云,在經(jīng)過(guò)后處理重建后仍易存在部分區(qū)域破碎缺失的問(wèn)題。而 One-2-3-45 通過(guò)預(yù)測(cè) SDF 來(lái)提取網(wǎng)格,輸出的幾何質(zhì)量要更具優(yōu)勢(shì)。

另外一個(gè)重要的點(diǎn)便是現(xiàn)有方法的輸出沒(méi)有完全遵循()輸入圖片的指示。比如對(duì)于第一列的背包,+SD 生成的背包只有一條背帶;Shap-E 生成的背包沒(méi)有背帶。對(duì)于第二列的單只滅火器,Shap-E 和 -E 都預(yù)測(cè)了兩個(gè)兩個(gè)連體的滅火器。對(duì)于第四列的凳子,可以看到只有 One-2-3-45 和 保留了輸入圖片的椅腿結(jié)構(gòu)。但需要注意的是, 生成的所有 3D 內(nèi)容在具體風(fēng)格和細(xì)節(jié)上均與輸入圖片有較大出入。

此外,研究者還指出基于逐物體優(yōu)化的方法通常會(huì)遇到 3D 一致性的挑戰(zhàn)。他們生成的 3D 模型通常會(huì)出現(xiàn)多面現(xiàn)象(或者 問(wèn)題)。比如在上圖中, 生成了一個(gè)雙面背包。相比之下,One-2-3-45 生成結(jié)果的 3D 一致性要好很多。

研究者還提到了 的 -E 和 Shap-E 在訓(xùn)練時(shí)用到了數(shù)百萬(wàn)級(jí)別的內(nèi)部 3D 數(shù)據(jù)。由于 3D 數(shù)據(jù)的稀缺性,這樣的訓(xùn)練數(shù)據(jù)規(guī)模目前對(duì)于很多研究者 / 機(jī)構(gòu)來(lái)說(shuō)還是比較嚴(yán)苛的條件。

與現(xiàn)有文生 3D 方法的比較

可以看到除了之前提過(guò)的問(wèn)題外,現(xiàn)有的文生 3D 方法對(duì)輸入文本的把握能力并不是很強(qiáng)。比如,對(duì)于輸入文本 “一棵空心的大樹(shù)”,“一只有綠腿的橙色凳子”,“一頂哈瓦那風(fēng)格菠蘿形狀的帽子” 以及 “一只木頭質(zhì)地的蘑菇” 等,現(xiàn)有方法都無(wú)法生成精確對(duì)應(yīng)的 3D 內(nèi)容。相比之下,One-2-3-45 所采納的在 2D 生成對(duì)應(yīng)圖片再提升到 3D 似乎是一條能夠?qū)斎胛谋居懈泳_控制的路線。

結(jié)語(yǔ)

One-2-3-45 提出了 “2D 多視角預(yù)測(cè) + 3D 可泛化重建” 這樣一項(xiàng)新穎的 3D AI 生成玩法,并在許多方面都展示出了其優(yōu)越性。雖然目前 One-2-3-45 的生成質(zhì)量可能還比不上部分基于逐物體優(yōu)化的文生 3D 模型,但這個(gè)新玩法的探索和提高空間可能是充滿潛力的。

? THE END

相關(guān)專題 生成視角模型圖像重建
周易 易經(jīng) 代理招生 二手車 網(wǎng)絡(luò)營(yíng)銷 旅游攻略 非物質(zhì)文化遺產(chǎn) 查字典 精雕圖 戲曲下載 抖音代運(yùn)營(yíng) 易學(xué)網(wǎng) 互聯(lián)網(wǎng)資訊 成語(yǔ) 詩(shī)詞 工商注冊(cè) 抖音帶貨 云南旅游網(wǎng) 網(wǎng)絡(luò)游戲 代理記賬 短視頻運(yùn)營(yíng) 在線題庫(kù) 國(guó)學(xué)網(wǎng) 抖音運(yùn)營(yíng) 雕龍客 雕塑 奇石 散文 常用文書(shū) 河北生活網(wǎng) 好書(shū)推薦 游戲攻略 心理測(cè)試 石家莊人才網(wǎng) 考研真題 漢語(yǔ)知識(shí) 心理咨詢 手游安卓版下載 興趣愛(ài)好 網(wǎng)絡(luò)知識(shí) 十大品牌排行榜 商標(biāo)交易 單機(jī)游戲下載 短視頻代運(yùn)營(yíng) 寶寶起名 范文網(wǎng) 電商設(shè)計(jì) 免費(fèi)發(fā)布信息 服裝服飾 律師咨詢 搜救犬 Chat GPT中文版 經(jīng)典范文 優(yōu)質(zhì)范文 工作總結(jié) 二手車估價(jià) 實(shí)用范文 石家莊點(diǎn)痣 養(yǎng)花 名酒回收 石家莊代理記賬 女士發(fā)型 搜搜作文 鋼琴入門(mén)指法教程 詞典 讀后感 玄機(jī)派 企業(yè)服務(wù) 法律咨詢 chatGPT國(guó)內(nèi)版 chatGPT官網(wǎng) 勵(lì)志名言 文玩 語(yǔ)料庫(kù) 游戲推薦 男士發(fā)型 高考作文 PS修圖 兒童文學(xué) 工作計(jì)劃 舟舟培訓(xùn) IT教程 手機(jī)游戲推薦排行榜 暖通,電地暖, 女性健康 苗木供應(yīng) ps素材庫(kù) 短視頻培訓(xùn) 優(yōu)秀個(gè)人博客 包裝網(wǎng) 創(chuàng)業(yè)賺錢 養(yǎng)生 民間借貸律師 綠色軟件 安卓手機(jī)游戲 手機(jī)軟件下載 手機(jī)游戲下載 單機(jī)游戲大全 石家莊論壇 網(wǎng)賺 職業(yè)培訓(xùn) 資格考試 成語(yǔ)大全 英語(yǔ)培訓(xùn) 藝術(shù)培訓(xùn) 少兒培訓(xùn) 苗木網(wǎng) 雕塑網(wǎng) 好玩的手機(jī)游戲推薦 漢語(yǔ)詞典 中國(guó)機(jī)械網(wǎng) 美文欣賞 紅樓夢(mèng) 道德經(jīng) 標(biāo)準(zhǔn)件 電地暖 鮮花 書(shū)包網(wǎng) 英語(yǔ)培訓(xùn)機(jī)構(gòu) 電商運(yùn)營(yíng)
主站蜘蛛池模板: 国产成人午夜 | 亚洲精品1 | 99视频在线免费观看 | 亚洲精品第一 | 中文字幕高清视频 | 国产精品视频入口 | а天堂中文官网 | 国产免费久久 | a欧美| 国产综合久久久久久鬼色 | 精品99久久 | 性视频黄色| 99国产精品99久久久久久 | а√天堂资源中文最新版地址 | 国产激情| 亚洲精品一二三 | www.亚洲| 亚洲伊人久久综合 | 成人日韩 | 国产一区二区三区在线 | 亚洲国产成人av好男人在线观看 | 精品久久久久国产免费 | 国产成人av在线播放 | 免费黄在线观看 | 国产视频久久久久久久 | www.成人在线视频 | 亚洲精品久久久久avwww潮水 | 四虎永久免费影视 | 一区二区三区在线播放 | 国产精品国产精品 | 精品欧美一区二区三区久久久 | 色www精品视频在线观看 | 亚洲大片免费观看 | 中文字幕二区 | 日韩精品在线视频 | 日韩av免费 | 欧美性一区二区三区 | 黄色片在线 | 精品亚洲一区二区 | 无码日韩精品一区二区免费 | 亚洲成人一区二区三区 |