<dd id="dhg9w"></dd>

      <em id="dhg9w"><object id="dhg9w"></object></em><rp id="dhg9w"><acronym id="dhg9w"></acronym></rp>

      <em id="dhg9w"><tr id="dhg9w"></tr></em>

      設置
      • 日夜間
        隨系統
        淺色
        深色
      • 主題色

      RTX 4090 筆記本 0.37 秒直出大片:英偉達聯手 MIT 清華祭出 Sana 架構,速度秒殺 FLUX

      新智元 2024/10/17 23:35:00 責編:問舟

      一臺 4090 筆記本,秒生 1K 質量高清圖。英偉達聯合 MIT 清華團隊提出的 Sana 架構,得益于核心架構創新,具備了驚人的圖像生成速度,而且最高能實現 4k 分辨率。

      一臺 16GB 的 4090 筆記本,僅需 0.37 秒,直接吐出 1024×1024 像素圖片。

      如此神速 AI 生圖工具,竟是出自英偉達 MIT 清華全華人團隊之筆!正如其名字一樣,Sana 能以驚人速度合成高分辨率、高質量,且具有強文本-圖像對齊能力的模型。

      而且,它還能高效生成高達 4096×4096 像素的圖像。

      項目主頁:https://nvlabs.github.io/ Sana/
      論文地址:https://arxiv.org/ abs / 2410.10629

      Sana 的核心設計包含了以下幾個要素:

      • 深度壓縮自編碼器(AE):傳統自編碼器只能將圖像壓縮 8 倍,全新 AE 可將圖像壓縮 32 倍,有效減少了潛在 token 的數量。

      • 線性 DiT(Diffusion Transformer):用「線性注意力」替換了 DiT 中所有的普通注意力,在高分辨率下更加高效,且不會犧牲質量。

      • 于僅解碼器模型的文本編碼器:用現代的僅解碼器 SLM 替換 T5 作為文本編碼器,并設計了復雜的人類指令,通過上下文學習來增強圖像-文本對齊。

      • 高效的訓練和采樣:提出 Flow-DPM-Solver 來減少采樣步驟,并通過高效的標題標注和選擇來加速收斂。

      基于以上的算法創新,相較于領先擴散模型 Flux-12B,Sana-0.6B 不僅參數小 12 倍,重要的是吞吐量飆升 100 倍。

      以后,低成本的內容創作,Sana 才堪稱這一領域的王者。

      效果一覽

      一只賽博貓,和一個帶有「SANA」字樣的霓虹燈牌。

      一位站在山頂上的巫師,在夜空中施展魔法,形成了由彩色能量組成的「NV」字樣。

      在人物的生成方面,Sana 對小女孩面部的描繪可以說是非常地細致了。

      下面來看個更復雜的:

      一艘海盜船被困在宇宙漩渦星云中,通過模擬宇宙海灘旋渦的特效引擎渲染,呈現出令人驚嘆的立體光效。場景中彌漫著壯麗的環境光和光污染,營造出電影般的氛圍。整幅作品采用新藝術風格,由藝術家 SenseiJaye 創作的插畫藝術,充滿精致細節。

      甚至,像下面這種超級復雜的提示,Sana 也能 get 到其中的關鍵信息,并生成相應的元素和風格。

      Prompt:a stunning and luxurious bedroom carved into a rocky mountainside seamlessly blending nature with modern design with a plush earth-toned bed textured stone walls circular fireplace massive uniquely shaped window framing snow-capped mountains dense forests, tranquil mountain retreat offering breathtaking views of alpine landscape wooden floors soft rugs rustic sophisticated charm, cozy tranquil peaceful relaxing perfect escape unwind connect with nature, soothing intimate elegance modern design raw beauty of nature harmonious blend captivating view enchanting inviting space, soft ambient lighting warm hues indirect lighting natural daylight balanced inviting glow

      順便,團隊還給經典梗圖,生成了一個卡通版變體(右)。

      設計細節

      Sana 的核心組件,已在開頭簡要給出介紹。接下來,將更進一步展開它們實現的細節。

      模型架構的細節,如下表所示。

      - 深度壓縮自編碼器

      研究人員引入的全新自編碼器(AE),大幅將縮放因子提高至 32 倍。

      過去,主流的 AE 將圖像的長度和寬度,只能壓縮 8 倍(AE-F8)。

      與 AE-F8 相比,AE-F32 輸出的潛在 token 數量減少了 16 倍,這對于高效訓練和生成超高分辨率圖像(如 4K 分辨率)至關重要。

      - 高效線性 DiT(Diffusion Transformer)

      原始 DiT 的自注意力計算復雜度為 O (N2),在處理高分辨率圖像時呈二次增長。

      線性 DiT 在此替換了傳統的二次注意力機制,將計算復雜度從 O (N2) 降低到 O (N)。

      與此同時,研究人員還提出了 Mix-FFN,可以在多層感知器(MLP)中使用 3×3 深度卷積,增強了 token 的局部信息。

      實驗結果顯示,線性注意力達到了與傳統注意力相當的結果,在 4K 圖像生成方面將延遲縮短了 1.7 倍。

      此外,Mix-FFN 無需位置編碼(NoPE)就能保持生成質量,成為首個不使用位置嵌入的 DiT。

      - 基于僅解碼器「小語言模型」的文本編碼器

      這里,研究人員使用了 Gemma(僅解碼器 LLM)作為文本編碼器,以增強對提示詞的理解和推理能力。

      盡管 T2I 生成模型多年來取得了顯著進展,但大多數現有模型仍依賴 CLIP 或 T5 進行文本編碼,這些模型往往缺乏強大的文本理解和指令跟隨能力。

      與 CLIP 或 T5 不同,Gemma 提供了更優的文本理解和指令跟隨能力,由此解訓練了不穩定的問題。

      他們還設計了復雜人類指令(CHI),來利用 Gemma 強大指令跟隨、上下文學習和推理能力,改善了圖像-文本對齊。

      在速度相近的情況下,Gemma-2B 模型比 T5-large 性能更好,與更大更慢的 T5-XXL 性能相當。

      - 高效訓練和推理策略

      另外,研究人員還提出了一套自動標注和訓練策略,以提高文本和圖像之間的一致性。

      首先,對于每張圖像,利用多個視覺語言模型(VLM)生成重新描述。盡管這些 VLM 的能力各不相同,但它們的互補優勢提高了描述的多樣性。

      此外,他們還提出了一種基于 clipscore 的訓練策略,根據概率動態選擇與圖像對應的多個描述中具有高 clip 分數的描述。

      實驗表明,這種方法改善了訓練收斂和文本-圖像對齊能力。

      此外,與廣泛使用的 Flow-Euler-Solver 相比,團隊提出的 Flow-DPM-Solver 將推理采樣步驟從 28-50 步顯著減少到 14-20 步,同時還能獲得更優的結果。

      整體性能

      如下表 1 中,將 Sana 與當前最先進的文本生成圖像擴散模型進行了比較。

      對于 512×512 分辨率:- Sana-0.6 的吞吐量比具有相似模型大小的 PixArt-Σ 快 5 倍- 在 FID、Clip Score、GenEval 和 DPG-Bench 等方面,Sana-0.6 顯著優于 PixArt-Σ

      對于 1024×1024 分辨率:- Sana 比大多數參數量少于 3B 的模型性能強得多- 在推理延遲方面表現尤為出色

      與最先進的大型模型 FLUX-dev 的比較:- 在 DPG-Bench 上,準確率相當- 在 GenEval 上,性能略低- 然而,Sana-0.6B 的吞吐量快 39 倍,Sana-1.6B 快 23 倍

      Sana-0.6 吞吐量,要比當前最先進 4096x4096 圖像生成方法 Flux,快 100 倍。

      而在 1024×1024 分辨率下,Sana 的吞吐量要快 40 倍。

      如下是,Sana-1.6B 與其他模型可視化性能比較。很顯然,Sana 模型生成速度更快,質量更高。

      終端設備部署

      為了增強邊緣部署,研究人員使用 8 位整數對模型進行量化。

      而且,他們還在 CUDA C++ 中實現了 W8A8 GEMM 內核,并采用內核融合技術來減少不必要的激活加載和存儲帶來的開銷,從而提高整體性能。

      如下表 5 所示,研究人員在消費級 4090 上部署優化前后模型的結果比較。

      在生成 1024x1024 圖像方面,優化后模型實現了 2.4 倍加速,僅用 0.37 秒就生成了同等高質量圖像。

      作者介紹

      Enze Xie(謝恩澤)

      共同一作 Enze Xie 是 NVIDIA Research 的高級研究科學家,隸屬于由麻省理工學院的 Song Han 教授領導的高效 AI 團隊。此前,曾在華為諾亞方舟實驗室(香港)AI 理論實驗室擔任高級研究員和生成式 AI 研究主管。

      他于 2022 年在香港大學計算機科學系獲得博士學位,導師是 Ping Luo 教授,聯合導師是 Wenping Wang 教授。并于朋友 Wenhai Wang 密切合作。

      在攻讀博士學習期間,他與阿德萊德大學的 Chunhua Shen 教授、加州理工學院的 Anima Anandkumar 教授以及多倫多大學的 Sanja Fidler 教授共事。同時,還與 Facebook 和 NVIDIA 等業界的多位研究人員進行了合作。

      他的研究方向是高效的 AIGC / LLM / VLM,并在實例級檢測和自監督 / 半監督 / 弱監督學習領域做了一些工作 —— 開發了多個 CV 領域非常知名的算法,以及一個 2000 多星的自監督學習框架 OpenSelfSup(現名為 mmselfsup)。

      - PolarMask(CVPR 2020 十大影響力論文排名第十)

      - PVT(ICCV 2021 十大影響力論文排名第二)

      - SegFormer(NeurIPS 2021 十大影響力論文排名第三)

      - BEVFormer(ECCV 2022 十大影響力論文排名第六)

      Junsong Chen

      共同一作 Junsong Chen 是 NVIDIA Research 的研究實習生,由 Enze Xie 博士和 Song Han 教授指導。同時,他也是大連理工大學 IIAU 實驗室的博士生,導師是 Huchuan Lu 教授。

      他的研究領域是生成式 AI 和機器學習的交叉,特別是深度學習及其應用的算法與系統協同設計。

      此前,他曾在香港大學擔任研究助理,由 Ping Luo 教授的指導。

      Song Han(韓松)

      Song Han 是 MIT 電氣工程與計算機科學系的副教授。此前,他在斯坦福大學獲得博士學位。

      他提出了包括剪枝和量化在內廣泛用于高效 AI 計算的「深度壓縮」技術,以及首次將權重稀疏性引入現代 AI 芯片的「高效推理引擎」——ISCA 50 年歷史上引用次數最多的前五篇論文之一。

      他開創了 TinyML 研究,將深度學習引入物聯網設備,實現邊緣學習。

      他的團隊在硬件感知神經架構搜索方面的工作使用戶能夠設計、優化、縮小和部署 AI 模型到資源受限的硬件設備,在多個 AI 頂會的低功耗計算機視覺比賽中獲得第一名。

      最近,團隊在大語言模型量化 / 加速(SmoothQuant、AWQ、StreamingLLM)方面的工作,有效提高了 LLM 推理的效率,并被 NVIDIA TensorRT-LLM 采用。

      Song Han 憑借著在「深度壓縮」方面的貢獻獲得了 ICLR 和 FPGA 的最佳論文獎,并被 MIT Technology Review 評選為「35 歲以下科技創新 35 人」。與此同時,他在「加速機器學習的高效算法和硬件」方面的研究,則獲得了 NSF CAREER 獎、IEEE「AIs 10 to Watch: The Future of AI」獎和斯隆研究獎學金。

      他是 DeePhi(被 AMD 收購)的聯合創始人,也是 OmniML(被 NVIDIA 收購)的聯合創始人。

      參考資料:

      • https://nvlabs.github.io/Sana/

      • https://www.linkedin.com/feed/update/urn:li:activity:7251843706310275072/

      廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

      相關文章

      關鍵詞:英偉達

      軟媒旗下網站: IT之家 最會買 - 返利返現優惠券 iPhone之家 Win7之家 Win10之家 Win11之家

      軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知

      天天免费看av片
      <dd id="dhg9w"></dd>

        <em id="dhg9w"><object id="dhg9w"></object></em><rp id="dhg9w"><acronym id="dhg9w"></acronym></rp>

        <em id="dhg9w"><tr id="dhg9w"></tr></em>