Reddit 稱,Perplexity 在挖掘數據時被當場抓獲。

Reddit 起訴 Perplexity AI,稱其不顧先前警告不要複製該平台的內容,繼續使用 Reddit 內容來訓練其人工智慧模型。

隨著人工智慧系統越來越依賴公開的線上內容來訓練和產生回應,Reddit 等公司正試圖在「公共」資料和「專有」資料之間劃出一條明確的界線。

Reddit 駭客攻擊揭露涉嫌資料竊取

Reddit 已對價值 200 億美元的人工智慧公司 Perplexity提起訴訟,指控其透過其平台非法收集數據。根據週三提交給曼哈頓聯邦法院的文件,Reddit 聲稱 Perplexity 無視不得抓取其內容的指示,繼續使用 Reddit 數據產生人工智慧回應。

訴狀稱,Reddit 已明確禁止 Perplexity 收集其數據,但這家人工智慧公司的「答案引擎」仍繼續產生包含 Reddit 內容的搜尋結果。 「數據成長如此顯著,以至於一位外部觀察家猜測,這是由於 Perplexity 和 Reddit 之間簽署了授權協議,」訴訟中寫道。 “實際上,Perplexity 和 Reddit 之間並不存在任何許可。”

為了證明自己的懷疑,Reddit 設計了一個巧妙的數位測試。它創建了一個“虛擬”帖子,只有使用谷歌搜尋引擎才能找到。谷歌與 Reddit 簽訂了合法的內容許可協議,因此任何沒有該協議的公司都不應該訪問該帖子。

該公司將其描述為網路上的「標記發票」。如果 Perplexity 的系統重現了該隱藏貼文的內容,Reddit 就會發現它繞過了其安全措施,很可能是透過從Google搜尋結果(即 SERP)中提取資料來實現的。

幾個小時之內,這個看似私密的測試貼文開始出現在 Perplexity 人工智慧工具產生的回覆中。

訴訟中寫道:“Perplexity 獲取 Reddit 內容並將其用於其‘答案引擎’的唯一方式是,它和/或其共同被告抓取了 Google SERP。”

Reddit 起訴了三家資料抓取公司 Oxylabs UAB、AWM Proxy 和 SerpApi,指控它們幫助 Perplexity 未經授權存取 Reddit 貼文或向 Perplexity 出售 Reddit 資料。

Reddit 的指控已被駁斥

Perplexity 否認了 Reddit 的指控。該公司發言人 Jesse Dwyer 表示,Perplexity「不會容忍對透明度和公共利益的威脅」。該公司還在訴訟提起後的 Reddit 貼文中表示,「不會對內容進行 AI 模型訓練」。

訴訟中提到的其他公司的代表也發表了聲明。 SerpApi 的一位發言人表示,該公司打算在法庭上「積極為自己辯護」。 Oxylabs 的首席治理和戰略官 Denas Grybauskas 表示,公司對此感到“震驚和失望”,並補充說,Oxylabs“一直是並將繼續成為公共數據收集領域的先驅和行業領導者”。

今年8月,網路基礎設施公司Cloudflare透露,它曾進行過類似的測試,以驗證Perplexity是否遵守了網路爬蟲規則。 Cloudflare聲稱,它創建了一些帶有程式碼標記的頁面,指示Perplexity的機器人不要訪問這些頁面,但仍然發現這家人工智慧公司的爬蟲訪問了這些受限制的頁面。

Cloudflare 執行長 Matthew Prince 將 Perplexity 的行為與「北韓駭客」的行為進行了比較,並因此登上頭條新聞。

「一些看似『體面』的人工智慧公司現在的行為更像北韓駭客,」普林斯在 X 上寫道。 「是時候揭露、羞辱並強力封鎖他們了。」Reddit 的訴訟中引用了普林斯的言論作為其訴訟理由的一部分。

專屬加密貨幣交易社群中獲取免費席位,僅限 1,000 名會員。