人工智慧中新出現的隱私風險:語言模型中儲存的挑戰



來自Google DeepMind、華盛頓大學、加州大學柏克萊分校和其他機構的研究人員參與的一項開創性研究揭示了ChatGPT 等大型語言模型的一個令人驚訝的方面:它們能夠記住和複製所訓練的特定數據。這種被稱為「記憶」的現象引起了重大的隱私問題,特別是考慮到這些模型經常在大量且多樣化的文字資料(包括潛在的敏感資訊)上進行訓練。

了解可移動存儲

該研究重點關注“可挖掘存儲”,試圖確定外部實體是否可以在不事先了解訓練集的情況下提取從這些模型中學到的特定數據。這種記憶不只是一個理論上的問題;它也是一個問題。具有現實世界的隱私影響。

研究方法和結果

研究人員使用了一種新的方法,從各種模型產生擴展標記,並將它們與訓練資料集進行比較,以識別直接記憶的情況。他們為 ChatGPT 開發了一種獨特的方法,稱為“發散攻擊”,其中要求模型說一個詞,直到它反覆偏離儲存的資料。令人驚訝的是,包括 ChatGPT 在內的模型顯示出顯著的保留率,根據特定要求反省訓練資料區塊。

分歧攻擊和 ChatGPT

對於 ChatGPT 來說,分歧攻擊尤其具有啟發性。研究人員推動模型多次重複一個單詞,導致其偏離標準反應並輸出記憶數據。這種方法很實用,並且因其隱私影響而令人擔憂,因為它證明了提取潛在敏感資訊的能力。

該研究的驚人發現是,儲存的數據可能包括電子郵件地址和電話號碼等個人資訊。研究人員使用正規表示式和語言模型提示評估了 15,000 個類似個人識別資訊 (PII) 的子字串。大約 16.9% 的世代包含儲存的 PII,其中 85.8% 是實際的 PII,而不是幻覺內容。

對語言模型設計與使用的影響

這些結果對於語言模型的設計和應用具有重要意義。目前的技術,即使是 ChatGPT 中採用的技術,也可能不足以防止資料外洩。研究強調需要更強大的訓練重複資料刪除方法,並更深入地了解模型容量如何影響保留。

主要方法涉及從各種模型生成文本,並根據模型各自的訓練資料集檢查這些結果以進行儲存。後綴數組用於高效匹配,允許在大型文字語料庫中快速搜尋子字串。

模型越廣泛,儲存風險越大

模型的大小和記憶傾向之間出現了顯著的相關性。 GPT-Neo、LLaMA 和 ChatGPT 等較大的模型顯示輸出儲存的訓練資料的機率更高,這表明模型容量和儲存之間存在直接關係。

該研究強調了人工智慧開發的一個重要方面:確保強大的模型尊重用戶隱私。它開闢了新的研究和開發途徑,重點是改善人工智慧模型中的隱私保護,特別是隱私敏感應用程式中使用的模型。

隨著人工智慧的不斷發展,這項研究揭示了其發展的一個重要面向:在語言模型中加強隱私措施的必要性。人工智慧儲存和可能披露敏感資訊的能力的暴露需要立即採取行動,敦促開發人員和研究人員創建不僅強大而且還能保護用戶隱私的模型。這項研究標誌著我們在理解和減輕與人工智慧和機器學習技術相關的隱私風險方面邁出了重要一步。