昆侖萬維攜前沿技術強勢來襲!8月11日起,SkyWork人工智慧技術刊登周拉開帷幕,連續五天不間斷刊登多模態人工智慧中心模型。首款登場的SkyReels-A3模型,基于創新技術架構,可實現任意時長的全模態音頻驅動數字人創作。其生成效果突破行業瓶頸,畫面連貫、動作當然,為數字內容創作帶來革新體驗。
昆侖萬維刊登S kyReelsA3 8月11日,昆侖萬 維科技股票有限企業(以下簡稱昆侖萬維)正式刊登SkyReels-A3模型 ,基于DiT(Diffusion Transformer)擴散模型+插幀模型執行延展+基于強化研習的動作改善+運鏡可控,其能實現任意時長的全模態音頻驅動數字人創作,讓個
性化、交互式內容的創作更高效與便捷。現階段,SkyReels-A3模型已正式上線。
昆侖萬維SkyWork 人工智慧技術刊登周 8月11日,昆侖萬維SkyWork 人工智慧技術刊登周正式啟動,8月11日至8月15日,昆侖萬維將每天刊登一款新模型,從生成模型(Skyreels)、世界模型,到生圖一體化模型、智能體(Agent)模型,再到人工智慧歌曲創作模型(Mureka),連續五天
刊登覆蓋多模態人工智慧中心場景的前沿模型。 SkyReels-A3模型:照片可根據語音對口型 作為音頻驅動(audio-driven)人像生成模型,SkyReels-A3就像給任意照片或裝上人工智慧聲帶。上傳一張人像圖片,再配段語音,照片里的人就能按這段語音開口說話或唱歌;
上傳一張人像圖片、配段語音,再給出文字Prompt(提示詞),照片里的人就能按照要求的狀態執行表演;SkyReels-A3還可以將原的音頻換掉,人物會自動對上全新的口型、表情和表演,畫面依舊連貫。
與此同時,基于對實際應用場景(如宣傳、現場直播帶貨等)的研究,昆侖萬維發現這些場景不只必須更長的一致性,在特定交互動作上的當然度和清晰度也有待加強。昆侖萬維構造了針對線上現場直播等場景的資料,對此類場景中的生成執行了特定改善。
此外,面對藝術美感要求更高的歌曲MV、影片片段或演講等場景,昆侖萬維構造了一種基于ControlNet結構的鏡片控制模塊,通過精細化鏡片參數的落敗入,實現幀級別精準運鏡控制。
具體來說,鏡片控制模塊 提取參考圖的深度,配合相機參數,渲染目的運鏡軌跡的參考,該參考隨后作為顯式體育先驗,引導模型逐幀復現精準的運鏡效果,生成帶有運鏡效果的數字人。
SkyReels-A3的性能通過普遍的實驗執行了驗證,包含現有最先進模型(開源和閉源)的定量和定性比較,充分表現了其在音頻驅動生成方面的能力。
