Kling 2.6 迎來重大突破,整合了原生音訊生成。快來看看它如何同步聲音與畫面,創造出完全身歷其境的影片吧。
尚未有相關紀錄
過去,生成式影片總是有個明顯的斷層。雖然大家都很驚豔 Kling 出色的高畫質影像,但說到底,那些影片本質上就像高級版的 GIF 而已。
如果你想要更有沈浸感,過去只能東湊西湊:這邊生影片、那邊搞 TTS,還要到處找音效,最後再自行拼湊。整個流程既繁瑣又破壞沈浸感。而 Kling 2.6 推出後,這道門檻不僅低了,感覺像直接消失了一樣。
Kling 2.6 最重要的新功能就是 原生音訊。這可不是隨便在影片上後製一層音效而已,而是模型一次性同步生成影像、旁白、音效與環境聲。
從技術層面來說,這直接解決了手動編輯時常見的「對不上」問題。過去,如果要讓腳步聲和畫面裡腳踩地板的動作同步,真的會讓人崩潰。Kling 2.6 聚焦於 聲畫協同,也就是系統能理解,當畫面上玻璃破裂時,尖銳的碎裂聲就應該正好在撞擊的那一幀響起。
這種「場景+動作+聲音」一次理解並整合的方式,才真的把這類工具,從玩具級推進到可用於製作的層級。
如果你是資深愛好者,一定知道生成結果和你的提示詞息息相關。Kling 2.6 玩得更深,寫提示詞時不只要描述畫面,還要指導聲音的細節。
根據模型架構,建議採用這個格式:
Prompt = 場景 + 元素(主體)+ 動作 + 音訊 + 風格
AI 影片常見的問題是「錯誤歸屬」——模型不清楚誰在講話。官方文件建議可以用我稱之為視覺錨點的方法。
不要只寫:「[特務] 說:‘停下!’」
應該這樣寫:「[穿黑西裝的特務] 重重拍桌。[穿黑西裝的特務,憤怒地吼叫]:‘真相在哪?’」
把對話綁定在實際動作(拍桌)上,能讓模型把聲音來源和畫面角色準確連結起來。這對多人對話場景尤其重要。
模型能解析特定語法來控制聲音。如果你想要專業級的結果,請遵循下列格式:
角色標記:使用清楚標籤如 [角色 A]、[角色 B],複雜場景下避免用「他」、「她」等代詞,以免模型搞混。
情緒標註:務必標明語氣屬性。像 [男,低沉嗓音,語速快],比單純 [男] 有更好的輸出效果。
雖然 2.6 是一大飛躍,我們還是要務實看待目前的限制。
第一是語言限制。目前模型原生支援中、英文語音。如果輸入法文、西班牙文,系統會自動翻成英文再生成語音。對國際創作者來說,這可能暫時卡卡的。
第二是解析度依賴。在 圖片轉影音 工作流中,輸出影片品質會嚴格受限於輸入圖片的解析度。模型無法讓模糊的 JPEG 一秒變 4K 大片,輸入品質=輸出品質永遠是不變的黃金定律。
可隨時在 Standard、Pro、Master 各模式間自由切換,從短影音到電影場景,各種創作都能精準駕馭。
Kling 能和其他 AI 工具無縫整合。創建圖片、動畫、編輯專案,都能在同一個工作流中完成。
Somake 的直覺介面,讓你不論是新手還是資深影片製作人,都能輕鬆生成想要的影片。
Kling 2.6 最大的更新,就是加入了原生音訊生成功能。和過去只能做「高級靜音影片」不同,現在 Kling 2.6 能直接在模型內產生同步的音效與語音,不再需要外部音訊工具補強。
沒錯!Kling 2.6 的重點功能之一就是「語意同步」。模型能理解影片產生的動作和節奏,像是說話時嘴型的對位、動作的音效,都會自動配合,不再需要你手動對時間軸。
可以!這個工具設計時就考慮到個人和商業用途。詳情請參閱 授權條款,以確保你的應用需求符合規定。