Copyright 2013-2025 今日媒體網 版權所有 京ICP備13154207號-1
11月27日下午消息,(40.700, -0.28, -0.68%)AI Lab與清華大學SATLab、西北工業大學聯合推出三項音視頻領域的多模態生成技術成果,相關研究成果將陸續在GitHub、HuggingFace等平臺開源。
本次發布的三項研究成果——音樂驅動的視頻生成模型YingVideo-MV、零樣本歌聲轉換模型YingMusic-SVC與歌聲合成模型YingMusic-Singer,展現了團隊在音視頻多模態生成技術上的最新成果。
據悉,YingVideo-MV模型實現“一段音樂加一張人物圖像”即可生成一個音樂視頻片段。該模型能夠對音樂進行節奏、情緒與內容結構的多模態分析,從而使鏡頭運動與音樂的高度同步,具備推、拉、搖、移等鏡頭語言,并通過長時序一致性機制,有效緩解了長視頻中常見的人物“畸變”與“跳幀”現象。
在音頻領域,YingMusic-SVC主打“真實歌曲可用”的零樣本歌聲轉換能力。它通過針對真實音樂場景的全面優化,有效抑制了伴奏、和聲與混響對歌聲轉換的干擾,顯著降低了破音與高音失真的風險,為高質量的音樂再創作提供了穩定的技術支撐。
而YingMusic-Singer歌聲合成模型則支持在給定旋律下輸入任意歌詞,即可生成發音清晰、旋律穩定的自然歌聲。該模型的主要特點在于能夠靈活適應不同長度的歌詞,并支持零樣本音色克隆,提升了AI演唱在創作過程中的靈活度與實用性,降低音樂創作的門檻。