Kling 2.6 迎來重大突破,整合了原生音訊生成。快來看看它如何同步聲音與畫面,創造出完全身歷其境的影片吧。
尚未有相關紀錄
產生失敗
過去,AI 影片生成最大的痛點就是聲畫不同步。雖然 Kling 的高畫質視覺效果讓人驚艷,但本質上,不過就是加強版的 GIF 而已。
如果你想要真正沉浸式的體驗,勢必要自己「拼裝」:這邊生成影片、那邊用語音合成工具製作 TTS,再東拼西湊找素材和音效,最後自己剪接。整個流程既繁瑣又難以融入情境。Kling 2.6 出來之後,這道障礙不只是被降低了,簡直是徹底移除!
Kling 2.6 的大更新就是直接生成原生音訊。這絕不是事後再套一層音軌上去,而是模型一次性統合產生畫面、旁白、音效,甚至是環境氛圍。
從技術角度來說,這也正面解決了以往「聲音難對齊」的老問題。以前對齊腳步聲跟角色動作,需要花超多人工修正。Kling 2.6 著重在聲畫協同,也就是說如果畫面上玻璃碎裂,模型自然會讓那個尖銳的破碎聲剛好響在正確的時間點。
「場景+動作+聲音」同步整合、模型真正理解語意,這才是專業級製作工具與玩具等級的最大分野。
如果你也是資深愛好者,應該知道模型輸出好不好,重點就在你怎麼下指令。Kling 2.6 跟以前最大不同,就在於你不能只描述畫面,也要引導聲音要怎麼出現。
參考模型設計,可以這樣寫提詞:
提示語 = 場景 + 元素(主體)+ 動作 + 音效 + 風格
常見的 AI 影片小毛病,就是「聲音配對不到角色」——也就是模型不清楚誰在說話。官方建議一個「視覺錨點」的技巧。
不要這樣寫:「[探員] 說『停下!』」
改成這種寫法:「[西裝探員] 用力拍桌。[西裝探員,憤怒大喊]:『真相在哪裡?』」
把對話綁定在明確動作上(比如拍桌),模型就會精準讓聲音來自對的角色,特別適合多角色對戲的場合。
模型可以辨識特定語法,來做聲音控制。如果你追求專業品質,強烈建議善用這些格式:
角色標籤: 請用明確標記,例如 [角色A] 和 [角色B]。複雜場景下請避免使用「他」或「她」這種代詞,以免模型混淆。
情緒標註: 語音講得越細,效果越好。[男子,低沉快語] 會比單寫 [男子] 更精準更自然。
Kling 2.6 真的很強,但還是要理性看待目前的侷限。
第一,語言限制。目前模型原生只支援中文和英文語音。如果輸入法文或西班牙文,系統會自動轉成英文朗讀。對於要做全球內容的人來說,這算是一個暫時的小瓶頸。
第二,解析度綁定。圖像轉影音流程下,生成影片的品質會受到輸入圖片解析度影響。模糊的圖片當然沒辦法被神奇升級成 4K 高畫質,輸入什麼等級就會輸出什麼等級,這點還是基本原則。
隨時一鍵切換標準、專業、旗艦三種模式,不論你是做短影音還是電影等級製作,都能完美對應。
Kling 可與其他 AI 工具無縫整合。你可以先生成圖片,再讓它動起來,最後在同一個介面直接編輯,一條龍搞定。
Somake 介面設計直覺清晰,無論新手老手都能輕鬆產出專業影片。
Kling 2.6 最大的更新,就是整合了原生音訊生成。不像之前只能產出無聲動態影片(所謂「加強版 GIF」),Kling 2.6 現在能直接在模型內部同時產生畫面、聲效跟語音,不用再靠其他工具合成音訊。
沒錯,Kling 2.6 最大的亮點就是聲畫語意對齊。模型會自動理解影片裡的動作和時序,像是角色講話時嘴型、動作敲擊時撞擊聲,都會自動同步,不需要自己後製修正。
可以,Kling 的設計就是要讓你無論自用還是商用都沒問題。不過,請務必參閱 授權條款 以了解詳細規範。