AI音頻技術(shù)在體育廣播領(lǐng)域擁有巨大潛力/以及潛在風(fēng)險(xiǎn)
來源:AI音頻時(shí)代 編輯:ZZZ 2025-03-28 08:45:58 加入收藏 咨詢

所在單位: | * |
姓名: | * |
手機(jī): | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢內(nèi)容: | |
驗(yàn)證碼: |
|
人工智能(AI)在專業(yè)音頻領(lǐng)域的應(yīng)用,既可能成為自切片面包以來最偉大的發(fā)明,也可能像當(dāng)年的“千年蟲”問題一樣引發(fā)恐慌。甚至,它可能產(chǎn)生類似“奧本海默效應(yīng)”的雙刃劍效果:既可能拯救創(chuàng)造者,也可能毀滅他們,同時(shí)展現(xiàn)出既危險(xiǎn)又誘人的一面。
AI 設(shè)計(jì)的專業(yè)音頻應(yīng)用產(chǎn)品已經(jīng)產(chǎn)生了影響,例如 Respeecher 在電影和視頻中用于自動(dòng)對(duì)白替換(ADR)。在音樂、電視和現(xiàn)場活動(dòng)制作中,AI 被用于自動(dòng)混音,甚至直接創(chuàng)作音頻。在這一過程中,它也威脅到了那些越來越多依賴它的“碳基創(chuàng)作者”的就業(yè)。
然而,AI 在音頻應(yīng)用中的全部潛力,包括在廣播和體育直播制作中的應(yīng)用,仍然充滿不確定性。最近一篇關(guān)于 FOX 體育在超級(jí)碗制作中應(yīng)用 AI 的文章,標(biāo)題中高調(diào)提到了“AI”,但內(nèi)容卻只是模糊地提及了機(jī)器學(xué)習(xí)(被認(rèn)為是 AI 的一個(gè)子集)在未來不確定的應(yīng)用。AI 已經(jīng)成為了一種“模因”,盡管是一個(gè)價(jià)值數(shù)十億美元的模因。

SVG 采訪了幾位音頻專家,評(píng)估 AI 在體育廣播音頻中的潛在影響。以下是他們的觀點(diǎn)。
01
人類仍然不可或缺
Quintar 的 Tom Sahara 表示:“公司需要先進(jìn)行投資,AI 才能持續(xù)產(chǎn)生實(shí)際效果。”

Tom Sahara 是 Quintar(一家空間體驗(yàn)開發(fā)公司)的生產(chǎn)技術(shù)高級(jí)副總裁,曾任 Turner Sports 的副總裁。他看到了 AI 在音頻領(lǐng)域的雙面性。其優(yōu)勢包括通過監(jiān)控信號(hào)電平并以確定性和可預(yù)測的方式應(yīng)用電平管理,減輕 A1(音頻工程師)在比賽期間的注意力負(fù)擔(dān),或自動(dòng)混音輸入源以用于二級(jí)用途,如入耳式監(jiān)聽、翻譯和替代語言。它甚至可以通過整合來自外部和非音頻源的數(shù)據(jù)(如信號(hào)切換、路由器活動(dòng)、錄制設(shè)備狀態(tài)和 GPS)來改進(jìn)現(xiàn)有的自動(dòng)混音流程。

此外,自動(dòng)化的唇音同步和延遲調(diào)整可以按通道存儲(chǔ),并與時(shí)間、播放列表/剪輯 ID、物理位置(GPS)、路由器設(shè)置和其他元數(shù)據(jù)一起保存,從而無需重新編輯或構(gòu)建獨(dú)立的工作流程即可糾正同步錯(cuò)誤的視頻源。他還指出,支持 IP 的音頻設(shè)備將加速 AI/ML(人工智能/機(jī)器學(xué)習(xí))的發(fā)展,因?yàn)?A/D 轉(zhuǎn)換成本高昂且不易集成到傳統(tǒng)工作流程中。
然而,Sahara 也指出:“目前有許多管理、培訓(xùn)和支持需求尚未完全被理解,公司需要先進(jìn)行投資,AI 才能持續(xù)產(chǎn)生實(shí)際效果。例如,根據(jù)個(gè)人需求訓(xùn)練基于 AI 的混音和控制代理可能既昂貴又耗時(shí)。我們將不得不觀察類似 DeepSeek 的方法是否會(huì)影響這一點(diǎn)。此外,獲取大量訓(xùn)練樣本也很困難,可能會(huì)迅速超出預(yù)算和時(shí)間資源。”
更令人擔(dān)憂的是,他補(bǔ)充道:“視頻中的‘幻覺’(錯(cuò)誤)很容易被發(fā)現(xiàn),但音頻更加微妙,驗(yàn)證過程更加復(fù)雜。人類仍然需要參與其中。”
Calrec 的美國運(yùn)營副總裁 Chris Fichera 也看到了 AI 的雙面性。他提到,AI 能夠?qū)崟r(shí)處理音頻,管理解說員評(píng)論、觀眾噪音、效果和現(xiàn)場聲音,并自動(dòng)調(diào)整均衡器(EQ),基于實(shí)時(shí)數(shù)據(jù)創(chuàng)建沉浸式 3D 混音。但他也指出,在快節(jié)奏、不可預(yù)測的體育節(jié)目中,過度依賴自動(dòng)化功能可能存在風(fēng)險(xiǎn)。
不過,他指出,這些功能可能有助于緩解體育廣播領(lǐng)域經(jīng)驗(yàn)豐富的 A1 逐漸流失的問題,因?yàn)橥诵萑藬?shù)增加,從業(yè)者群體逐漸老齡化。“這對(duì)于經(jīng)驗(yàn)有限的 A1 來說非常有用,尤其是在進(jìn)行廣播節(jié)目制作時(shí)。”
02
樂觀的看法
AudioShake 的 Suzanne Kirkland 表示:“AI 工具將增強(qiáng)人類專業(yè)知識(shí),讓音頻專業(yè)人士能夠?qū)W⒂诠适聰⑹龊头劢z互動(dòng),而不是繁瑣的清理工作。”

Suzanne Kirkland 是 AudioShake 的企業(yè)客戶業(yè)務(wù)總監(jiān)。她認(rèn)為,在體育領(lǐng)域,AI 驅(qū)動(dòng)的工具如音源分離、自動(dòng)混音和語音克隆能夠提高工作效率并解鎖新的內(nèi)容機(jī)會(huì)。
“音源分離是 AudioShake 的核心技術(shù),它幫助聯(lián)賽和廣播公司應(yīng)對(duì)體育直播音頻的復(fù)雜性,” 她說,“在體育直播中,觀眾噪音、解說和現(xiàn)場聲音相互競爭。我們的對(duì)話隔離模型通過從嘈雜環(huán)境中隔離清晰的語音,提高了轉(zhuǎn)錄的準(zhǔn)確性,從而更精確地捕捉重疊的球員、教練和解說員的對(duì)話。這使得廣播公司能夠突出最重要的內(nèi)容,無論是場上的動(dòng)作還是場邊的動(dòng)態(tài)。”

“音樂移除是另一個(gè)改變游戲規(guī)則的技術(shù),幫助團(tuán)隊(duì)和廣播公司避免法律和變現(xiàn)問題,” 她繼續(xù)說道,“通過去除受版權(quán)保護(hù)的音樂,同時(shí)保留語音和環(huán)境聲音,我們的技術(shù)使內(nèi)容能夠更自由地在平臺(tái)上共享,而無需擔(dān)心下架或版權(quán)問題。”
然而,AI 并不是能夠單獨(dú)改變行業(yè)的“靈丹妙藥”。她強(qiáng)調(diào),AI 不會(huì)取代人類的專業(yè)知識(shí):“AI 工具將增強(qiáng)它,讓音頻專業(yè)人士能夠?qū)W⒂诠适聰⑹龊头劢z互動(dòng),而不是繁瑣的清理工作。AI 將幫助處理繁瑣的工作,讓那些了解粉絲及其喜好的人有機(jī)會(huì)專注于創(chuàng)造和利用精彩內(nèi)容。”
03
AI 已經(jīng)在發(fā)揮作用
Salsa Sound 的 Rob Oldfield 表示:“更先進(jìn)、更高效的算法,加上硬件加速,意味著實(shí)時(shí)應(yīng)用現(xiàn)在成為可能。”

Salsa Sound 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Rob Oldfield 指出,自 2017 年以來,他的公司一直在使用深度學(xué)習(xí)技術(shù)開發(fā)現(xiàn)場比賽子混音器。他承認(rèn),近年來 AI 的炒作可能有些過頭,盡管它在語音識(shí)別和降噪等領(lǐng)域已經(jīng)取得了成功。
盡管如此,他補(bǔ)充道,一些重大進(jìn)展使得算法的部署和開發(fā)變得更加容易,新的方法也擴(kuò)展了在實(shí)時(shí)音頻中可以實(shí)現(xiàn)的范疇。“歷史上,AI 在音頻中的應(yīng)用主要局限于非實(shí)時(shí)/離線應(yīng)用,”他解釋道,“但更先進(jìn)、更高效的算法,加上硬件加速,意味著實(shí)時(shí)應(yīng)用現(xiàn)在成為可能。”

他提到,AI 處理可能帶來的延遲問題,“一個(gè)很好的例子是自動(dòng)字幕生成、翻譯和語音替換,這些技術(shù)正在迅速為無障礙音頻解決方案帶來新的可能性,為觀眾提供多語言解說或音頻描述頻道,而這些在以前由于成本高昂和人力密集,難以大規(guī)模生產(chǎn)。”
Salsa Sound 目前的計(jì)劃包括進(jìn)一步開發(fā)自主混音/制作工具。這家總部位于英國的公司還正在推出一套自動(dòng)化質(zhì)量控制工具,利用機(jī)器學(xué)習(xí)監(jiān)聽特定音頻故障的特征或問題。這包括風(fēng)噪檢測、相位異常、爆音/雜音和其他偽影,以及音質(zhì)、語音清晰度和關(guān)鍵詞/語言檢測等功能。
“實(shí)時(shí)音頻 AI 已經(jīng)有很多可能性和實(shí)際應(yīng)用,” 他說,“但未來還會(huì)有更多。這是一個(gè)令人興奮的時(shí)代。”
04
小心你的愿望
NBC體育和奧運(yùn)會(huì)的Karl Malone:“我認(rèn)為目前廣播中的AI是‘自動(dòng)化智能’,只要有人領(lǐng)導(dǎo)它,而不是將其用作‘設(shè)置并忘記’。”

與大多數(shù)工程同行一樣,NBC體育和奧運(yùn)會(huì)的高級(jí)音頻工程總監(jiān)Karl Malone從實(shí)用而非理論的角度看待AI,專注于現(xiàn)在和不久的將來該技術(shù)及其子集(如機(jī)器學(xué)習(xí))能為廣播體育帶來什么,主要是以自動(dòng)化流程的形式。然而,像任何曾經(jīng)混音過節(jié)目的人一樣,他對(duì)潛在的缺點(diǎn)持謹(jǐn)慎態(tài)度。
“我認(rèn)為目前廣播中的AI是‘自動(dòng)化智能’而不是‘智能’,” 他說,并引用了Lawo的KICK音頻混音/球跟蹤技術(shù),該技術(shù)目前由德甲和FIFA用于足球比賽。“我支持將我們廣播音頻中的一些任務(wù)自動(dòng)化,只要有人負(fù)責(zé)制作音頻設(shè)計(jì)并領(lǐng)導(dǎo)它,而不是將其用作‘設(shè)置并忘記’,因?yàn)?lsquo;忘記’部分是我們可能遇到問題的地方。”

但自動(dòng)化流程可以帶來顯著的好處。例如,他建議,它可以用于在嘈雜的體育場館或官員的耳機(jī)中清理解說員麥克風(fēng)通道。
“而且,當(dāng)我們?yōu)橛^眾提供更個(gè)性化的音頻選項(xiàng)時(shí),比如賽車運(yùn)動(dòng),” 他繼續(xù)說,“我可以看到從A1控制臺(tái)自動(dòng)或智能混音音頻干音到與內(nèi)容匹配的演示中。例如,選擇一個(gè)車內(nèi)攝像頭,聽到該車的環(huán)境聲音,加上駕駛員和機(jī)組人員的通信,加上或減去節(jié)目評(píng)論。所有這些源都可以使用保持每個(gè)演示在混音質(zhì)量、LKFS等方面一致的參數(shù)進(jìn)行智能混音。”
目前,Malone將AI視為A1和聲音主管工具帶中的另一個(gè)工具,盡管它比自動(dòng)混音和動(dòng)態(tài)噪聲抑制更有能力。然而,未來可能更難預(yù)測,特別是當(dāng)消費(fèi)者對(duì)他們的廣播音頻有更多期望時(shí),以及媒體公司尋找更好地吸引他們的方式時(shí)。
“最終,產(chǎn)品的人工智能性質(zhì)將演變?yōu)槟軌蛞恢碌鼗煲粽麄€(gè)比賽場地,” 他預(yù)測。“但是,隨著更多內(nèi)容需要通過直接面向消費(fèi)者的模式播出,我們音頻社區(qū)將不得不開始定義我們感興趣的任何智能混音過程的參數(shù),然后以視頻為中心的行業(yè)公司開始發(fā)布所有新的閃亮AI音頻混音工具。”
換句話說,他警告說,圍繞AI和廣播聲音的炒作最終可能會(huì)損害它聲稱要增強(qiáng)的音頻質(zhì)量。
評(píng)論comment