10月27日,美團 LongCat 團隊發布并開源視頻生成模型 LongCat-Video。團隊稱,該模型在統一架構下同時支持文本生成視頻(Text-to-Video)、圖像生成視頻(Image-to-Video)與視頻續寫等基礎任務,并在內部與公開基準(含 VBench)測試中取得開源范圍內的領先結果。
圖片
圖片
▲LongCat-Video視頻生成模型在文生、圖生視頻基礎任務上達到開源SOTA(資料圖)
技術報告顯示,LongCat-Video基于 Diffusion Transformer(DiT)架構,采用以“條件幀數量”區分任務的方式:文本生成視頻不輸入條件幀,圖像生成視頻輸入1幀參考圖,視頻續寫依托多幀前序內容,無需額外模型改造即可覆蓋三類任務。
為提升長時序生成能力,模型在預訓練階段引入原生的視頻續寫任務。團隊表示,模型可穩定生成分鐘級長視頻,并在跨幀時序一致性與物理運動合理性方面做了針對性優化,以減少色彩漂移、畫質衰減與動作斷裂等問題。
在效率方面,模型結合塊稀疏注意力(BSA)與條件 token 緩存機制,以降低長序列推理冗余;據稱在處理93幀及以上序列時,能夠在效率與生成質量間保持穩定平衡。針對高分辨率、高幀率場景,模型采用“二階段粗到精(C2F)+ BSA + 蒸餾”的組合策略,報告稱推理速度較基線提升至約10.1倍。
參數規模方面,LongCat-Video基座模型約136億參數。評測覆蓋文本對齊、圖像對齊、視覺質量、運動質量與整體質量等維度;團隊稱在文本對齊與運動連貫等指標上表現突出,并在公開基準 VBench 等測試中取得較好成績。
圖片
LongCat 團隊將此次發布定位為其“世界模型(World Model)”方向探索的一步,相關代碼與模型已對外開源。上述結論與性能表述均引自團隊技術報告與發布材料。