著名人工智能公司 OpenAI 最近推出了其最新工具“GPTBot”,該工具專為網絡爬行目的而設計,可能為其 ChatGPT 模型未來迭代的改進鋪平道路。
在最近的一篇博客文章中,OpenAI 宣布推出 GPTBot,強調其增強即將推出的 ChatGPT 版本的潛力。該工具的主要功能圍繞網絡爬行,在這個過程中,機器人(通常稱為網絡蜘蛛)在廣闊的互聯網上對網站內容進行索引。這使得 Google 和 Bing 等搜索引擎可以在搜索結果中顯示相關網站。
OpenAI解釋說,GPTBot 旨在從各種網絡來源收集可公開訪問的信息。然而,它被編程為篩選出付費牆後面的內容、涉及個人身份信息的來源以及違反既定 OpenAI 政策的文本。有趣的是,網站所有者保留了通過在其服務器上的標准文件中放置“禁止”命令來阻止 GPTBot 掃描活動的能力。
這項新的網絡爬行活動是在 OpenAI 最近提交“GPT-5”商標申請之後進行的,“GPT-5”是現有 GPT-4 模型的預期繼承者。該申請於 7 月 18 日向美國專利商標局提交,涵蓋了術語“GPT-5”在各種基於人工智能的應用程序中的使用,包括文本和語音轉換、音頻到文本翻譯和語音識別。
OpenAI 設計下一個模型
然而,儘管人們對 GPT-5 充滿期待,但 OpenAI 創始人兼首席執行官 Sam Altman 警告稱,該公司距離啟動 GPT-5 系列還有很長的路要走。他強調在開始培訓過程之前需要進行廣泛的安全檢查。
與此同時,OpenAI 對其數據收集實踐的擔憂日益增加,尤其是與版權和同意問題相關的問題。 6 月,日本隱私監管機構就未經適當授權收集敏感數據向OpenAI發出警告。同樣,意大利也暫時禁止使用 ChatGPT,指控其違反了歐盟隱私法。這些案例凸顯了對數據隱私和人工智能技術日益嚴格的審查。
值得注意的是,OpenAI 最近面臨由 16 名原告提起的集體訴訟,他們聲稱該公司通過用戶與 ChatGPT 的互動獲取了私人信息。該訴訟還涉及微軟作為被告,訴訟認為,如果指控得到證實,兩家公司都可能被認定違反了《計算機欺詐和濫用法》,該法歷來適用於網絡抓取案件。
隨著 OpenAI 通過 GPTBot 進軍網絡爬行領域,它為改進其 AI 模型引入了新的可能性。然而,這些發展伴隨著法律和道德考慮,因為人工智能行業在創新、隱私和負責任地使用數據之間尋求微妙的平衡。