必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟5G手機智能汽車智慧城市會展特約記者

合成數(shù)據(jù)走向實用:企業(yè) AI 隱私保護的新路徑

2026年1月27日 17:00CCTIME飛象網(wǎng)

Cloudera大中華區(qū)技術總監(jiān)劉隸放

隨著AI日益深入地融入企業(yè)日常運營,企業(yè)向模型輸入的數(shù)據(jù)量已達到前所未有的規(guī)模。大語言模型(LLMs)如今已廣泛應用于客戶支持、數(shù)據(jù)分析、開發(fā)者效率提升以及知識管理等場景。與此同時,AI智能體(AI Agent)則開辟了新的應用維度,支持系統(tǒng)能夠跨工具和工作流檢索信息、進行推理并執(zhí)行操作。

然而,這也給消費者帶來了一個令人不安的現(xiàn)實,用于提升AI性能的高價值數(shù)據(jù)往往也較為敏感。支持記錄、案例備注、交易歷史以及操作日志中,時常包含個人身份信息(personally identifiable information, PII)、受監(jiān)管屬性或專有業(yè)務背景。即便企業(yè)主觀上高度重視隱私保護,在快速構建和擴展AI應用的過程中,敏感字段仍然很容易混入訓練語料庫、評估數(shù)據(jù)集或提示詞庫中。

正因如此,合成數(shù)據(jù)(Synthetic Data)重新獲得了關注。簡單地說,合成數(shù)據(jù)是通過算法生成的數(shù)據(jù),其目的是在不復現(xiàn)真實記錄的前提下,反映真實數(shù)據(jù)集中的關鍵模式。理論上,它為加速AI開發(fā)提供了一條可行路徑,同時降低了接觸高度敏感信息的風險。但問題在于,合成數(shù)據(jù)究竟是減小了風險,還是僅僅轉移了風險?

在大語言模型與智能體時代,為什么隱私風險不斷上升?

傳統(tǒng)分析工作流往往具有更清晰的邊界。數(shù)據(jù)經(jīng)過整理、匯總、屏蔽處理,用于明確的用途。然而,基于大型語言模型的開發(fā)模糊了這些邊界。大量輸入數(shù)據(jù)缺乏結構化特征,敏感內(nèi)容常隱藏于看似普通的文本中,評估過程也越來越依賴規(guī)模龐大且類型多樣的測試數(shù)據(jù)集。而由于智能體能夠直接訪問數(shù)據(jù)系統(tǒng),其風險暴露面將進一步擴大。如果企業(yè)缺乏數(shù)據(jù)可見性,個人數(shù)據(jù)往往會以更不可預測的方式分散在這些系統(tǒng)中。

隨著企業(yè)不斷擴大AI項目的規(guī)模,它們需要大量數(shù)據(jù)用于監(jiān)督式微調(diào)、測試和迭代。然而,許多原本極具潛力的項目,往往因為無法安全地共享或使用這些數(shù)據(jù),在推進過程中被迫放緩。

合成數(shù)據(jù)是否是企業(yè)可依賴的替代方案?

遺憾的是,合成數(shù)據(jù)不是萬能的。如果生成結果質量欠佳,這類數(shù)據(jù)集可能會泄露敏感信息,例如保留了罕見屬性的組合,或在無意中與真實樣本過于相似。反之,如果合成數(shù)據(jù)過于“干凈”、過于通用或單一,基于這些數(shù)據(jù)訓練的模型雖能在受控測試中表現(xiàn)優(yōu)異,卻可能在真實環(huán)境中難以發(fā)揮作用。

更現(xiàn)實的看法是將合成數(shù)據(jù)視作一種降低風險的工具。在規(guī)范管理的前提下,它可以在支持模型開發(fā)與評估持續(xù)推進的同時,減少對個人敏感數(shù)據(jù)的依賴。合成數(shù)據(jù)還能解決一個常被忽視的實際問題,即便不考慮隱私因素,許多企業(yè)本身也缺乏足夠高質量、可標注的訓練數(shù)據(jù)。

如今,合成數(shù)據(jù)的生成已超越基礎表格測試數(shù)據(jù)集的范疇。企業(yè)能夠生成模擬真實工作流結構的合成指令數(shù)據(jù)、合成對話、合成事件工單及合成問答對,在不依賴原始記錄的情況下,復現(xiàn)真實業(yè)務流程的結構。這對于以下幾類AI開發(fā)需求尤為重要:

1.監(jiān)督式微調(diào)與領域適配

企業(yè)通常希望模型能在特定領域內(nèi)運行,使用企業(yè)內(nèi)部的術語體系、政策規(guī)則、產(chǎn)品目錄結構和升級邏輯。微調(diào)可以實現(xiàn)這一目標,但所需的訓練樣本往往高度敏感。合成數(shù)據(jù)集可以提供更安全的提示-響應樣本,既能反映真實意圖模式和任務格式,又能減少對實際客戶或員工數(shù)據(jù)的依賴。

2.AI模型的大規(guī)模評估

在企業(yè)AI項目中,評估往往是最常見的瓶頸之一。團隊需要在多種場景下測試模型表現(xiàn),包括常規(guī)問題、邊緣案例、故障模式以及合規(guī)敏感話題。合成任務生成技術可以比人工方式更快地構建廣泛、可重復的評估體系。如果方法得當,該技術不僅能在模型上線前提升對模型行為的信心,還能減少測試過程中對原始敏感數(shù)據(jù)的處理需求。

3.面向RAG與智能體的定制化數(shù)據(jù)整理

檢索增強生成(Retrieval-augmented generation,RAG)和智能體工作流高度依賴知識庫與測試提示的質量。合成數(shù)據(jù)能夠生成真實的查詢、變體及多輪交互場景,用于對檢索效果和工具調(diào)用行為進行壓力測試,從而降低使用真實敏感對話作為輸入的頻率。

Cloudera Synthetic Data Studio等工具正體現(xiàn)出一種趨勢,將合成數(shù)據(jù)生成作為AI生命周期中的一個可操作環(huán)節(jié),用于支持微調(diào)、對齊、蒸餾以及定制化數(shù)據(jù)構建等多種場景。

在實踐中,合成數(shù)據(jù)如何實現(xiàn)“隱私安全”?

要讓合成數(shù)據(jù)有效降低隱私風險,企業(yè)必須將其視為一項具備管控措施的系統(tǒng)性工作,而不是臨時應急方案。首先,企業(yè)需要明確數(shù)據(jù)集的用途,是用于訓練、評估、紅隊演練,還是系統(tǒng)測試。不同的目標將直接影響數(shù)據(jù)生成方式和質量標準。此外,企業(yè)還需遵循其他防護措施,例如:

●采用數(shù)據(jù)最小化原則,將粒度數(shù)據(jù)(GranularData)進行泛化處理,從而從源數(shù)據(jù)中移除不必要的敏感字段和異常值,并在生成開始前縮小處理范圍。

●評估合成數(shù)據(jù)是否保留了模型性能所需的模式,而不僅僅是“看起來真實”。

●檢查是否存在記憶風險,以及是否包含過于獨特、可被重建的樣本。

●記錄所生成的內(nèi)容、生成方法及預期用途。這對于治理和可追溯性至關重要,尤其在受監(jiān)管的環(huán)境中。

合成數(shù)據(jù)并不能完全取代真實數(shù)據(jù),也無法消除對治理的需求。在實踐中,讓合成數(shù)據(jù)既實用又安全,本身就是一項運營挑戰(zhàn)。內(nèi)部團隊需要一個能夠大規(guī)模生成合成數(shù)據(jù)集的環(huán)境,將其與微調(diào)或評估等特定的AI任務關聯(lián),并實施治理控制,確保輸出結果能在企業(yè)中被可靠地使用?傮w而言,合成數(shù)據(jù)在數(shù)據(jù)稀缺或失衡的環(huán)境中,用于構建傳統(tǒng)機器學習模型,依然具有非常重要的價值。

隨著企業(yè)擴大大型語言模型和智能體的部署規(guī)模,合成數(shù)據(jù)正成為一條切實可行的發(fā)展路徑,幫助企業(yè)有效降低對敏感個人數(shù)據(jù)的依賴。這凸顯了構建統(tǒng)一、受治理的數(shù)據(jù)與AI平臺的必要性,平臺應支持團隊將合成數(shù)據(jù)生成與驗證納入端到端AI生命周期中,從而在保障隱私安全的前提下,加速創(chuàng)新進程。

編 輯:魏德齡
飛象網(wǎng)版權及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有,未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權和其它問題,請在相關作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦閱讀

精彩視頻

精彩專題

關于我們廣告報價聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉載、摘編、復制、鏡像