人工智能檢測工具無法發現作弊者



人工智能檢測工具無法發現作弊者

人工智能的複雜進步催生了大型語言模型 (LLM),例如 ChatGPT 和 Google 的 Bard。這些實體可以生成如此人性化的內容,從而挑戰真實性的概念。

當教育工作者和內容創作者聚集在一起強調法學碩士被濫用的可能性(從作弊到欺騙)時,人工智能檢測軟件聲稱它有解藥。但這些軟件解決方案的可靠性如何?

不可靠的AI檢測軟件

對於許多人來說,人工智能檢測工具為防止真相被侵蝕帶來了一線希望。他們承諾識別技巧,維護人類創造力的神聖性。

然而,馬里蘭大學的計算機科學家在尋求準確性的過程中對這一說法提出了挑戰。結果?給該行業敲響了清醒的警鐘。

馬里蘭大學助理教授 Soheil Feizi 透露了這些人工智能探測器的漏洞,稱它們在實際場景中並不可靠。簡單地解釋 LLM 生成的內容通常可以欺騙 Check For AI、Compilatio、Content at Scale、Crossplag、DetectGPT、Go Winston 和 GPT Zero 等使用的檢測技術。

“即使是我們擁有的最好的探測器,其準確度也會從 100% 下降到拋硬幣的隨機性。如果我們簡單地解釋一下法學碩士生成的東西,我們通常可以智取許多檢測技術,”飛子說。

人工智能相關問題
人工智能相關問題。資料來源: Statista

飛子認為,這種認識強調了第一類錯誤和第二類錯誤之間不可靠的二分法,第一類錯誤是人類文本被錯誤地標記為由人工智能生成,第二類錯誤是人工智能內容設法通過網絡而不被檢測到。

一個值得注意的案例成為頭條新聞,人工智能檢測軟件錯誤地將美國憲法歸類為人工智能生成的憲法。如此嚴重的錯誤不僅僅是技術故障,還可能損害聲譽,導致嚴重的社會道德影響。

閱讀更多: 聯合國報告強調人工智能興起造成的政治虛假信息的危險

飛子進一步闡明了這種情況,表明由於法學碩士的發展,區分人類內容和人工智能生成的內容可能很快就會變得困難。

“從理論上講,永遠不能可靠地說這句話是由人類或某種人工智能寫的,因為兩種類型的內容之間的分佈非常接近。當你想到像釋義者或欺騙者這樣的法學碩士和法學碩士攻擊者變得多麼複雜時,這一點尤其正確,”飛子說。

識別獨特的人文元素

然而,與任何科學論述一樣,也存在相反的敘述。馬里蘭大學計算機科學助理教授黃芙蓉的前景更加樂觀。

他假設,有足夠的數據表明人類內容的構成,兩者之間的區別仍然是可以實現的。當法學碩士通過大量文本檔案磨練他們的模仿能力時,黃認為,如果他們能夠訪問更大的學習樣本,檢測工具就會不斷發展

黃的團隊還專注於一種獨特的人為因素,這可能是一種可取之處。人類行為固有的多樣性,包括獨特的語法怪癖和詞語選擇,可能是關鍵。

“這就像生成型人工智能和揭示型人工智能之間的一場持續的軍備競賽。但我們希望這種動態關係能夠真正改善我們創建生成式法學碩士及其檢測器的方式,”黃說。

關於人工智能檢測有效性的爭論只是更大的人工智能爭論的一個方面。飛子和黃一致認為,徹底禁止 ChatGPT 等工具並不是解決方案。這些法學碩士在教育等領域具有巨大的潛力。

閱讀更多: 新研究表明 ChatGPT 變得越來越愚蠢

重點不應該是努力建立一個不太可能且 100% 萬無一失的系統,而應該強調強化現有系統以防範已知的漏洞。

對人工智能監管的需求不斷增長

未來的保障措施可能不僅僅依賴於文本分析。飛子提到集成二次驗證工具,例如與內容提交或行為模式分析相關的電話號碼身份驗證。

這些額外的層可以提高對人工智能錯誤檢測和內在偏見的防禦能力。

雖然人工智能可能充滿不確定性,但飛子和黃強調需要就法學碩士的道德使用進行公開對話。人們普遍認為,如果負責任地使用這些工具,可以給社會帶來重大利益,特別是在教育和打擊虛假信息方面。

閱讀更多: 這三位億萬富翁看好人工智能,看跌加密貨幣

依靠大型科技公司進行人工智能治理。
依靠大型科技公司進行人工智能治理。資料來源: Statista

然而,前方的旅程並非沒有挑戰。黃強調通過與政策制定者討論建立基本基本規則的重要性。

黃認為,隨著研究界不斷追求更好的檢測器和水印以遏制人工智能的濫用,自上而下的方法對於確保管理法學碩士的一致框架至關重要。

人工智能檢測工具未能檢測到作弊者的帖子首次出現在BeInCrypto上。