首頁|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 人工智能 >> 正文

AI大模型“爆發(fā)”須防范數(shù)據(jù)法律風(fēng)險(xiǎn)

2025年3月11日 10:03  澎湃新聞  作 者:孫伯龍

在科技飛速發(fā)展的當(dāng)下,AI大模型無疑是最耀眼的創(chuàng)新成果之一。它廣泛應(yīng)用于智能客服、智能寫作、自動(dòng)駕駛、醫(yī)療影像診斷等眾多領(lǐng)域,深度融入人們的生活與工作,為社會(huì)帶來了前所未有的便利與效益。

然而,繁榮背后潛藏危機(jī),AI大模型在訓(xùn)練和應(yīng)用過程中,面臨著一系列復(fù)雜的數(shù)據(jù)法律風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)不僅關(guān)乎個(gè)人隱私、企業(yè)核心利益,更對(duì)社會(huì)的安全穩(wěn)定和長(zhǎng)遠(yuǎn)發(fā)展構(gòu)成威脅。深入剖析并妥善應(yīng)對(duì)這些風(fēng)險(xiǎn),已成為推動(dòng)AI大模型技術(shù)長(zhǎng)遠(yuǎn)發(fā)展的關(guān)鍵所在。

一、AI大模型訓(xùn)練環(huán)節(jié)的數(shù)據(jù)法律風(fēng)險(xiǎn)

AI大模型訓(xùn)練需要海量數(shù)據(jù)(15.890, -0.14, -0.87%)的支撐,數(shù)據(jù)來源廣泛,涵蓋公開數(shù)據(jù)集、網(wǎng)絡(luò)爬取數(shù)據(jù)、用戶生成內(nèi)容等多個(gè)渠道。但這種多元的數(shù)據(jù)來源,也為AI大模型帶來了侵權(quán)風(fēng)險(xiǎn)、數(shù)據(jù)偏差風(fēng)險(xiǎn)以及信息泄露等法律風(fēng)險(xiǎn)。

AI大模型訓(xùn)練所依賴的數(shù)據(jù)量極為龐大,其中包含了大量受著作權(quán)保護(hù)的作品。在獲取和使用這些數(shù)據(jù)時(shí),開發(fā)者稍有疏忽,就可能陷入著作權(quán)侵權(quán)的困境。近年來,相關(guān)法律糾紛不斷涌現(xiàn)!都~約時(shí)報(bào)》起訴OpenAI公司,指控其非法復(fù)制數(shù)百萬篇文章用于ChatGPT大模型訓(xùn)練,索賠金額高達(dá)數(shù)十億美元;三位美國(guó)作者對(duì)Anthropic PBC發(fā)起訴訟,稱其未經(jīng)授權(quán)使用大量書籍訓(xùn)練Claude大模型;2023年美國(guó)作家協(xié)會(huì)起訴Meta非法使用書籍?dāng)?shù)據(jù)。這些案例充分表明,大模型訓(xùn)練中的著作權(quán)侵權(quán)問題已不容忽視。

與此同時(shí),大模型預(yù)訓(xùn)練數(shù)據(jù)中往往包含大量個(gè)人信息,未經(jīng)用戶同意收集和使用其數(shù)據(jù),也會(huì)違反個(gè)人信息保護(hù)相關(guān)規(guī)則。但是依據(jù)《個(gè)人信息保護(hù)法》,處理個(gè)人信息有著嚴(yán)格規(guī)范。大模型開發(fā)者獲取海量個(gè)人信息數(shù)據(jù)用于訓(xùn)練的成本極高,幾乎不可能獲得每位信息主體的同意。在當(dāng)前大模型的技術(shù)環(huán)境下,對(duì)于已公開的個(gè)人信息“合理范圍”的界定也極為模糊。以ChatGPT為例,其采用“機(jī)器學(xué)習(xí)即服務(wù)”(MLaaS)的運(yùn)營(yíng)模式,用戶輸入的數(shù)據(jù)信息會(huì)被開發(fā)者獲取,也意味著用戶的個(gè)人信息時(shí)刻處于風(fēng)險(xiǎn)之中。

訓(xùn)練數(shù)據(jù)質(zhì)量直接決定了AI大模型的性能和輸出結(jié)果,低質(zhì)量的數(shù)據(jù)可能導(dǎo)致模型產(chǎn)生錯(cuò)誤的預(yù)測(cè)和決策,甚至可能引發(fā)嚴(yán)重的安全事故。數(shù)據(jù)偏差風(fēng)險(xiǎn)主要體現(xiàn)在價(jià)值性偏差、時(shí)效性偏差和真實(shí)性偏差三個(gè)方面。若訓(xùn)練數(shù)據(jù)中存在歧視、暴力、情色等不良內(nèi)容,大模型學(xué)習(xí)后輸出的信息也可能帶有價(jià)值偏差。GPT類大模型訓(xùn)練時(shí)常用超大規(guī)模無人工標(biāo)注數(shù)據(jù),雖然擴(kuò)大了訓(xùn)練數(shù)據(jù)規(guī)模,但這些數(shù)據(jù)質(zhì)量參差不齊,包含大量?jī)r(jià)值偏差內(nèi)容。盡管開發(fā)者嘗試通過微調(diào)、基于人類反饋的強(qiáng)化學(xué)習(xí)等技術(shù)手段來減少此類風(fēng)險(xiǎn),但是由于大模型機(jī)器學(xué)習(xí)過程存在技術(shù)黑箱特性,這些方法難以徹底避免價(jià)值性偏差信息的輸出。

同時(shí),各類AI大模型的訓(xùn)練數(shù)據(jù)存在時(shí)效滯后問題,無法及時(shí)融入最新數(shù)據(jù)。這決定了大模型無法像搜索引擎那樣即時(shí)獲取最新的信息。比如ChatGPT剛推出時(shí),其基于的GPT-3.5預(yù)訓(xùn)練數(shù)據(jù)截至2021年12月,這就造成答案可能滯后或不準(zhǔn)確。即便部分模型提供聯(lián)網(wǎng)檢索功能,也未能從根本上解決訓(xùn)練數(shù)據(jù)時(shí)效性偏差的問題。

此外,AI大模型訓(xùn)練數(shù)據(jù)不夠,會(huì)導(dǎo)致輸出的信息與真實(shí)情況不符,也就是所謂的“幻覺”現(xiàn)象,例如利用一些AI大模型搜集法律案例,結(jié)果輸出一些并不存在的司法案例。特別是由于存在錯(cuò)誤數(shù)據(jù)信息注入、偏見強(qiáng)化、惡意內(nèi)容嵌入等問題,可能導(dǎo)致模型生成誤導(dǎo)性內(nèi)容,也會(huì)帶來難以估量的社會(huì)風(fēng)險(xiǎn)。例如,科大訊飛(51.850, -0.30, -0.58%)AI學(xué)習(xí)機(jī)就曾因內(nèi)容審核不嚴(yán)格,導(dǎo)致不當(dāng)內(nèi)容被用于數(shù)據(jù)訓(xùn)練,引發(fā)輿情事件致使市值蒸發(fā)百億元。

AI大模型訓(xùn)練過程涉及大量敏感數(shù)據(jù),如個(gè)人隱私數(shù)據(jù)、商業(yè)機(jī)密數(shù)據(jù)等,一旦這些數(shù)據(jù)在訓(xùn)練過程中泄露,將給個(gè)人和企業(yè)帶來巨大損失。數(shù)據(jù)泄露風(fēng)險(xiǎn)主要來源于數(shù)據(jù)存儲(chǔ)和傳輸過程中的安全漏洞,以及數(shù)據(jù)訪問和使用的權(quán)限管理不當(dāng)。用戶使用時(shí)輸入的數(shù)據(jù)可能被用于模型升級(jí)迭代,若這些數(shù)據(jù)包含商業(yè)秘密或個(gè)人隱私,無疑增加了用戶數(shù)據(jù)泄露的風(fēng)險(xiǎn)。例如,2023年韓國(guó)三星電子員工因違規(guī)使用ChatGPT,導(dǎo)致半導(dǎo)體機(jī)密資料外泄,給企業(yè)造成了嚴(yán)重的經(jīng)濟(jì)損失。此外,對(duì)GPT-2的研究發(fā)現(xiàn),能夠通過技術(shù)手段抽取其預(yù)訓(xùn)練時(shí)的訓(xùn)練數(shù)據(jù),還可通過特定提示詞誘導(dǎo)大模型輸出其他用戶輸入的外部數(shù)據(jù)。

二、AI大模型應(yīng)用場(chǎng)景中的數(shù)據(jù)風(fēng)險(xiǎn)類型

在AI大模型的實(shí)際應(yīng)用過程中,同樣存在著多種數(shù)據(jù)風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)不僅影響用戶體驗(yàn),還可能對(duì)社會(huì)秩序和公共利益造成損害。從知識(shí)產(chǎn)權(quán)角度看,AI生成的圖像或文本可能未經(jīng)授權(quán)使用了他人的作品或形象,就構(gòu)成侵權(quán)。例如,一些AI繪畫作品可能因借鑒了他人的創(chuàng)作元素而引發(fā)著作權(quán)糾紛。AI生成內(nèi)容若涉及對(duì)他人肖像權(quán)、名譽(yù)權(quán)的侵害,同樣會(huì)引發(fā)人格權(quán)法律糾紛。此外,AI生成的內(nèi)容還可能包含虛假信息、誤導(dǎo)性內(nèi)容或有害內(nèi)容,這些內(nèi)容可能對(duì)社會(huì)秩序和公共利益造成損害,擾亂正常的社會(huì)輿論環(huán)境。

AI大模型還存在被惡意利用的風(fēng)險(xiǎn)。其中,模型越獄(Jailbreaking)是較為突出的問題。模型越獄主要是用戶利用一些巧妙設(shè)計(jì)的指令,逃避AI大模型預(yù)先設(shè)置的安全防護(hù)規(guī)則,讓模型生成不符合倫理道德、違法內(nèi)容。一些用戶可能利用模型越獄技術(shù)獲取模型的敏感信息(如訓(xùn)練數(shù)據(jù)、模型參數(shù)等),或者是讓模型生成有害內(nèi)容(如惡意軟件代碼、煽動(dòng)性言論等);诖,耶魯大學(xué)計(jì)算機(jī)科學(xué)教授阿明·卡巴西指出,“大模型驅(qū)動(dòng)的機(jī)器人(20.800, -0.19, -0.91%)在現(xiàn)實(shí)世界中的越獄威脅將達(dá)到全新的高度”。不法分子如果繞過AI大模型的安全防護(hù),操控機(jī)器人執(zhí)行破壞性的任務(wù),比如控制自動(dòng)駕駛汽車撞向行人,或是將機(jī)器狗引導(dǎo)到敏感地點(diǎn)實(shí)施爆炸任務(wù),這將嚴(yán)重威脅人類社會(huì)的安全穩(wěn)定。

隨著AI大模型的廣泛應(yīng)用,大模型的網(wǎng)絡(luò)安全日益重要。2025年1月,DeepSeek連續(xù)遭遇HailBot和RapperBot僵尸網(wǎng)絡(luò)的TB級(jí)DDoS攻擊,導(dǎo)致大模型服務(wù)多次中斷,給用戶帶來極大不便。AI在數(shù)據(jù)授權(quán)方面,企業(yè)未對(duì)數(shù)據(jù)進(jìn)行合法授權(quán)的二次使用,可能構(gòu)成不正當(dāng)競(jìng)爭(zhēng)行為。因此,AI大模型的數(shù)據(jù)使用不合規(guī),不僅影響AI模型的性能,還可能涉及數(shù)據(jù)提供者、模型開發(fā)者和使用者之間的復(fù)雜法律責(zé)任問題。此外,在數(shù)據(jù)跨境傳輸方面,AIGC服務(wù)提供者將數(shù)據(jù)傳輸至境外時(shí),若不符合相關(guān)規(guī)定,會(huì)觸發(fā)數(shù)據(jù)出境合規(guī)義務(wù)要求。

三、應(yīng)對(duì)AI大模型數(shù)據(jù)法律風(fēng)險(xiǎn)的策略

面對(duì)AI大模型數(shù)據(jù)法律風(fēng)險(xiǎn),必須積極采取有效策略加以應(yīng)對(duì)。通過完善法律規(guī)制體系、運(yùn)用技術(shù)手段以及強(qiáng)化保障措施等多方面努力,為AI大模型的健康發(fā)展保駕護(hù)航。

第一,需要完善AI大模型數(shù)據(jù)法律規(guī)則體系。在著作權(quán)方面,可考慮將使用作品類數(shù)據(jù)進(jìn)行AI大模型預(yù)訓(xùn)練設(shè)定為著作權(quán)的合理使用方式之一,但要平衡好著作權(quán)人與開發(fā)者的利益。允許著作權(quán)人明確表示不同意作品用于AI大模型預(yù)訓(xùn)練,同時(shí)通過征收著作權(quán)補(bǔ)償金成立公益性基金會(huì),激勵(lì)文化藝術(shù)創(chuàng)作。

在個(gè)人信息保護(hù)方面,調(diào)整《個(gè)人信息保護(hù)法》相關(guān)規(guī)定。對(duì)于普通個(gè)人信息,設(shè)定“默示同意”規(guī)則,只要信息主體未特別聲明,默認(rèn)同意其普通個(gè)人信息被用于大模型預(yù)訓(xùn)練;對(duì)于敏感個(gè)人信息,堅(jiān)持“明示同意”規(guī)則。筆者建議,可將AI大模型開發(fā)者處理已公開個(gè)人信息的“合理范圍”,界定在不侵害信息主體人格權(quán)的底線之上。可以通過設(shè)定具體法律責(zé)任,督促大模型開發(fā)者防范數(shù)據(jù)偏差風(fēng)險(xiǎn)。對(duì)于AI大模型輸出價(jià)值偏差信息的情況,明確開發(fā)者應(yīng)承擔(dān)的行政法律責(zé)任,避免民事法律責(zé)任約束不足和刑事法律責(zé)任過重的問題。對(duì)于AI大模型數(shù)據(jù)泄露風(fēng)險(xiǎn),明確開發(fā)者在數(shù)據(jù)安全保護(hù)方面的義務(wù)和責(zé)任,對(duì)違規(guī)行為進(jìn)行嚴(yán)厲處罰。

第二,需要運(yùn)用多種技術(shù)手段,構(gòu)建AI大模型安全防護(hù)閉環(huán),提升數(shù)據(jù)安全性和準(zhǔn)確性。在AI大模型訓(xùn)練過程中,為了保持模型性能,有必要根據(jù)訓(xùn)練進(jìn)度自動(dòng)調(diào)整數(shù)據(jù)保護(hù)強(qiáng)度,既不讓隱私泄露又能保持模型準(zhǔn)確性。通過同態(tài)加密技術(shù)讓AI在加密數(shù)據(jù)上進(jìn)行計(jì)算,可以確保數(shù)據(jù)在計(jì)算過程中的安全性,并且在不影響數(shù)據(jù)分析準(zhǔn)確性的前提下,可以向查詢結(jié)果添加噪聲,或者是采用分布式協(xié)作讓萬千臺(tái)設(shè)備合作完成大模型訓(xùn)練,以全面提升AI大模型的數(shù)據(jù)保護(hù)能級(jí)。

在AI大模型應(yīng)用過程中,可以通過多模態(tài)交叉驗(yàn)證、知識(shí)圖譜、混合防御等技術(shù),加強(qiáng)數(shù)據(jù)驗(yàn)證和污染檢測(cè),不斷優(yōu)化模型數(shù)據(jù)防護(hù)系統(tǒng)。具體技術(shù)上,多模態(tài)交叉驗(yàn)證系統(tǒng)就像給AI配備了“火眼金睛”,能同時(shí)核對(duì)文字、圖片、視頻之間的關(guān)聯(lián)性,清除生成結(jié)果中的虛假描述。知識(shí)圖譜系統(tǒng)則相當(dāng)于內(nèi)置的“核查員”,每秒能比對(duì)數(shù)百萬條信息,確保AI不會(huì)生成出自相矛盾的內(nèi)容。混合防御更是讓AI大模型在具體應(yīng)用場(chǎng)景中擁有“自我凈化”能力,采用“基線對(duì)抗訓(xùn)練+實(shí)時(shí)動(dòng)態(tài)防護(hù)”的混合防御模式,可延長(zhǎng)大模型在真實(shí)復(fù)雜應(yīng)用場(chǎng)景中的安全生命周期。

第三,應(yīng)強(qiáng)化數(shù)據(jù)安全保障措施,建立數(shù)據(jù)監(jiān)測(cè)和預(yù)警機(jī)制。為防范AI大模型可能出現(xiàn)的越獄風(fēng)險(xiǎn)、侵權(quán)風(fēng)險(xiǎn),需要將AI技術(shù)與倫理和行為建模深入結(jié)合,在模型設(shè)計(jì)和開發(fā)階段,應(yīng)采用先進(jìn)的安全技術(shù)和算法,提高AI大模型的安全性;在AI大模型部署和應(yīng)用階段,應(yīng)進(jìn)行嚴(yán)格的安全測(cè)試和評(píng)估,持續(xù)進(jìn)化融合確保適應(yīng)不同場(chǎng)景的需求,找到數(shù)據(jù)保護(hù)和模型性能之間最佳的平衡點(diǎn)。

同時(shí),應(yīng)建立健全AI大模型安全管理制度,對(duì)企業(yè)員工展開數(shù)據(jù)合規(guī)培訓(xùn),提高員工的數(shù)據(jù)安全意識(shí)和合規(guī)操作技能。在AI大模型數(shù)據(jù)采集、存儲(chǔ)、使用、共享等各個(gè)環(huán)節(jié),通過解析模型內(nèi)部推導(dǎo)過程,實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)的使用和傳輸情況,及時(shí)發(fā)現(xiàn)和處理數(shù)據(jù)安全隱患,確保AI大模型服務(wù)的穩(wěn)定運(yùn)行。

總而言之,AI大模型是科技迭代更新的重要推動(dòng)者,應(yīng)用場(chǎng)景已經(jīng)擴(kuò)展到金融、醫(yī)療、制造等多個(gè)領(lǐng)域,但也伴隨著諸多數(shù)據(jù)法律風(fēng)險(xiǎn),以及還可能引發(fā)就業(yè)、人機(jī)矛盾等社會(huì)問題。為確保AI大模型的可持續(xù)發(fā)展,我們必須高度重視這些法律風(fēng)險(xiǎn),多舉措完善AI大模型的數(shù)據(jù)風(fēng)險(xiǎn)規(guī)制機(jī)制,進(jìn)一步實(shí)現(xiàn)智能化科技創(chuàng)新與社會(huì)公共利益的動(dòng)態(tài)平衡。

(作者孫伯龍為杭州師范大學(xué)副教授、財(cái)稅法研究中心主任,譯有澤維爾·奧伯森所著《對(duì)機(jī)器人征稅:如何使數(shù)字經(jīng)濟(jì)適應(yīng)AI?》)

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機(jī)行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
聚焦2025全國(guó)兩會(huì)
2025年世界移動(dòng)通信大會(huì)
低空經(jīng)濟(jì)2025:助力中國(guó)經(jīng)濟(jì)騰飛,成就高質(zhì)量發(fā)展
2024通信業(yè)年終盤點(diǎn)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像