世輝律師事務所王新銳:營銷領域安全合規應用大模型的四個建議
2023-12-11
2023年11月15日,由秒針營銷科學院發起,明略科技集團及旗下秒針系統承辦,以“‘大’有可為”為主題的2023第七屆營銷科學大會,于上海安莎國際會議中心圓滿落幕。本次大會中,營銷科學實踐者的精彩分享讓我們洞察到了未來營銷的無限可能,也讓我們對中國“大”市場、“大”需求、“大”模型、“大”生態、“大”責任的理解進一步加深。
世輝律師事務所權益合伙人王新銳律師受邀出席,以《大模型在營銷科學中的安全合規實踐與挑戰》為主題進行演講,結合今年以來在大模型領域的實際工作與思考,深入分析當前生成式AI的潛在安全風險、管理措施,并為廣大企業提供了營銷場景下大模型落地的參考建議。
以下為演講內容整理。
在從業的20多年以來,我一直在做支撐立法和監管的工作,在數據保護和大語言模型方面也有所涉獵。今年,我們發現營銷和大語言模型這兩塊業務有很多結合。那么企業如何做好安全、合規的策略呢?在探討這個問題之前,我想先從“什么是不安全”說起。
世輝律師事務所權益合伙人 王新銳
大語言模型的安全風險來源于法律、技術等不同層面,支撐監管的權威專家做過四點總結。
第一,強人機交互挑戰技術的可信可靠性。以前的人工智能技術無法實現與人的交互。例如,人臉識別閘機無法與人進行交互,能夠通過人臉識別就可以通過,無法通過人臉識別就沒辦法通過。相比之下,大語言模型的交互性更強。
第二,新信息呈現形式危及人類主體性。在人機共同工作的情況下,外界對人類主體性的識別難度在加深。
第三,語料強依賴性影響內容生成質量。大語言模型是用巨量語料進行預訓練,然后通過概率計算產生生成式的結果。預訓練階段語料的質量決定了輸出結果的質量。
第四,根基礎設施屬性帶來更大安全威脅。大語言模型未來會賦能千行百業,一旦底層模型產生風險,就會帶來風險擴散的問題。
生成式AI全流程監管思路
談到大模型的技術特點,我們可以用一個更簡單的描述:能力越大,責任越大。我們今天的會議主題是“大有可為”,相比于之前的判別式人工智能,大語言模型的能力提升,也帶來了新的風險管控問題。
我們國家在生成式人工智能方面是有立法脈絡的,早在2017年就已經有與當前技術相關的規定。如今,生成式人工智能依然適用于之前的法規。最新的法規是2023年7月出臺的《生成式人工智能服務管理暫行辦法》,與之前的《互聯網信息服務深度合成管理規定》《互聯網信息服務算法推薦管理規定》構成了一整套規則。
除此之外,相關的國家標準也正在起草中。針對生成式人工智能服務的安全問題,相關國家標準會對使用過程中的數據安全、消費者權益保護、內容安全提出更細化的要求。
站在監管者、立法者的角度,生成式人工智能的管理可以分成四個方面:
源頭管理:
如果大語言模型在源頭上存在偏見或不實的內容,輸出的結果也會存在風險,這意味著企業不能等到產品完全落地之后再去管理。目前很多國內公司會借鑒國外的開源模型做二次開發、調參和優化訓練,在選擇大模型時,企業需要先去了解它的底層語料、訓練數據是否存在問題,確保源頭合法合規。
過程管理:
結果管理:
渠道管理:
企業對生成式人工智能的管理手段,在一定程度上會影響到風險的責任分配,是由生成式人工智能服務提供者承擔責任,還是渠道、品牌,抑或是其他的使用者來承擔。
營銷場景應用大模型的挑戰
具體到營銷領域,企業在應用大模型的過程中會遇到哪些挑戰,又該如何應對?
今年我們接到大量在營銷場景下使用大語言模型的咨詢。在三四月份,我們剛開始接到一些需求的時候,企業對這件事的態度是重要但不緊急。但是,僅僅過了一周,企業的態度就變成了重要且緊急。我們看到各大品牌方、各個渠道都開始咨詢怎樣引入大語言模型、如何具體實施落地。
大語言模型的強項是可以“多快好省”地“無中生有”,而且非常具有話題性。與一幅人類拍攝的照片相比,從營銷的角度來講,企業更愿意使用AIGC生成的照片,因為可以吸引更多流量。
問題在于,大語言模型具有“以假亂真”和“似是而非”的特點。如果我們在營銷物料中使用“以假亂真”的內容,這些內容又被掐頭去尾,或者在不同的語境下傳播,就有造成混淆的風險。
最近陸續有一些大語言模型應用層產品通過了上線備案,可以面向公眾提供服務。與ToB的產品相比,直接面向C端用戶的產品,有較高的準入門檻。而且,兩者在后續的管控、安全措施上都會存在一定差異。
根據今年3月以來參與相關工作總結下來的經驗,我給大家提供一些大模型落地的參考建議。
第一,應在輸入和輸出環節加以管控,避免輸入個人信息、保密信息,避免產生和傳播違法不良信息。過去針對人工智能的技術管控,側重于管輸入端或者輸出端中的一頭。但是,由于大語言模型的強互動性、輸入輸出內容的復雜程度,以及多模態的特征,決定了企業在輸入和輸出端都要進行管控。如果大量個人信息、保密信息,或包含知識產權的信息,進入到大語言模型中,有可能存在泄密風險,對個人或企業產生不利影響。
第二,接入境外大語言模型用于營銷內容生產,需謹慎評估(因預訓練數據集產生的)內容安全風險。我們說的是謹慎評估,而不是一刀切。正如之前所說,生成式人工智能的技術風險包含了它作為基礎設施對語料的強依賴。境外大語言模型預訓練階段的數據可能和我們的價值觀、法律要求不盡一致。因此,在這種情況下生成的物料,可能存在一些風險。比如,我們對地圖的要求和國外對地圖的要求有所差異,如果境外大語言模型中包含地圖信息,就可能帶來一些風險。所以,并非哪個產品的技術領先,就一定是最優的方案。
第三,根據具體語境,明顯標注“由人工智能生成”或“由AI生成”。大語言模型具有以假亂真、似是而非的特點。有時明明是一個廣告,被人截取使用后就可能產生混淆,從而引發輿情和爭議。一旦產生輿情或爭議后,公司在營銷場景中使用大語言模型有可能會被叫停,或者要求公司提供說明。因此,企業需要預先對生產內容進行標識、標注。當然,一些可以明顯看出是人工智能與人類交互的場景,未標注的風險會相對低一些。
第四,特別關注和防范生成內容出現種族、民族、信仰、國別、地域、性別、年齡、職業等方面的歧視或偏見。被人歧視和被機器歧視的感受是不同的,國際社會對這件事的關注程度一直很高。人工智能產生的偏見和人的主觀偏見的區別在于,人工智能會把人類社會已經存在的偏見在算法中永久化或固化,可能會在大量數據訓練中繼續強化。因此,在預訓練階段,我們需要剔除帶有歧視或偏見的語料,從而避免歧視或偏見的放大。
當前,大語言模型的落地難點在于覆蓋各行各業時,如何界定風險,防范風險傳導。就我個人的實際觀察,在垂直行業的落地風險則相對可控。隨著人們對科技倫理關注度的提升,我們希望大語言模型的落地是符合大眾認知的,因為一旦出現風險,把整個機制講清楚非常困難。當公司利用大數據做精準營銷時,肯定不希望被別有用心的人用于非法目的。如果我們能夠從源頭上做好輸入信息的把控,就能有效控制在具體場景下應用的風險。
信息填寫