新華社記者 吳曉凌
位于舊金山的美國人工智能公司“開放人工智能研究中心”(OpenAI)近日推出能夠通過文本指令創建視頻的生成式人工智能模型Sora,這一突破鞏固了其在人工智能領域的領軍地位,但同時也加劇了對“深度偽造”等風險的擔憂。
“驚鴻一瞥”恐顛覆行業
這是OpenAI首次進軍人工智能視頻生成領域。據公司介紹,Sora使用Transformer架構,可根據文本指令創建近似現實且富有想象力的場景,生成多種風格、不同畫幅、最長為一分鐘的高清視頻。該模型還能夠根據靜態圖像生成視頻,或對現有視頻進行擴展或填充缺失的幀。
一些分析人士認為,Sora再次凸顯人工智能技術進步對現實生活和傳統行業的深遠影響。人工智能在視頻生成領域的巨大發展前景在為塑造影視產業新業態打開大門的同時,恐將顛覆現存影視產業。好萊塢去年遭遇了63年來首次編劇和演員全行業罷工,因為該行業的部分工作機會可能被人工智能取代。Sora橫空出世讓這一威脅變得更迫近和真切。其面世第二天,主營圖像處理、視頻制作軟件的奧多比公司(Adobe)股價應聲下跌超過7%。
雖不是第一家涉足文本轉視頻領域的公司,但Sora的推出使OpenAI在這一賽道取得領先,鞏固了其在生成式人工智能領域的領軍地位。第三方信息分析機構高德納咨詢公司的分析師錢德拉塞卡蘭表示:“在這個領域沒有一家公司比OpenAI更雄心勃勃,且這種雄心似乎有增無減。”
OpenAI稱,Sora對語言有著深刻的理解,不僅了解用戶文本提示,還了解所述事物在物理世界中的存在方式。“我們正在教授人工智能理解和模擬運動中的物理世界,目標是訓練模型幫助人們解決需要與現實世界交互的問題。”
“深度偽造”擔憂加劇
Sora發布可謂一石激起千層浪,但此次推出的更像是預覽版,公眾尚難以深入全面了解該模型的優缺點。OpenAI表示,目前僅主要向一些設計師和電影制作人等特定人群提供Sora訪問權限,以獲取有關改進該模型的反饋。公司不僅未公布訓練Sora模型的數據等基礎細節,更沒有確定向公眾發布的日期。
OpenAI承認,目前Sora生成視頻中可能包含不合邏輯的圖像,混淆左右等空間細節,難以準確模擬復雜場景的物理原理和因果關系實例等。例如,一個人咬了一口餅干,餅干上卻沒有咬痕。
不過,隨著算力增強、模型改進,人們可能會在短期內獲得更加完善、先進的視頻生成功能。
不少業內人士擔心,Sora將為“深度偽造”(Deepfake)技術推波助瀾。加利福尼亞大學伯克利分校信息學院副院長法里德就表示:“當新聞、圖像、音頻、視頻——任何事情都可以偽造時,那么在那個世界里,就沒有什么是真實的。”
針對造假顧慮,OpenAI稱在真正面向公眾推出產品時,將確保生成視頻包含來源元數據,并推出檢測視頻真偽的工具。OpenAI還承諾,在產品中使用Sora前將采取安全措施,包括由“錯誤信息、仇恨內容和偏見等領域的專家”對模型進行對抗性測試來評估危害或風險;核查并拒絕包含極端暴力、性內容、仇恨圖像、他人IP等文本輸入提示等。
即便如此,OpenAI也承認,盡管進行了廣泛的研究和測試,“我們仍無法預測人們將使用我們技術的所有有益方式和濫用我們技術的所有方式”。
AI狂飆下的監管難題
在科技領域顛覆式創新不斷涌現的情況下,如何實現擁抱技術進步和確保社會安全的平衡,越來越受到各界關注。
OpenAI表示,將與世界各地的政策制定者、教育工作者和藝術家合作,了解他們的擔憂,確定Sora的積極使用案例,并認為從現實世界的使用中學習是創建和發布越來越安全的人工智能系統的關鍵組成部分。
業內人士指出,在當下治理框架、管控措施都未跟上的情況下,僅靠企業恐無法提供社會所需的人工智能安全性和信任度。