It’s happening: People are starting to talk like ChatGPT
令人不安的是,聊天機(jī)器人回答中過(guò)多出現(xiàn)的詞語(yǔ)在人類對(duì)話中出現(xiàn)得更多。
2025年8月20日美國(guó)東部時(shí)間上午6:30

(Chiqui Esteban/《華盛頓郵報(bào)》;Iuliia Morozova/iStock)
作者: Adam Aleksic
Adam Aleksic 是《 Algospeak:社交媒體如何改變語(yǔ)言的未來(lái)》一書的作者。
如果你使用 ChatGPT、Claude、Gemini 或其他人工智能聊天機(jī)器人,你很可能假設(shè)你們說(shuō)的是同一種語(yǔ)言。你輸入英語(yǔ),它輸出英語(yǔ)。很簡(jiǎn)單,對(duì)吧?但這其實(shí)是個(gè)誤解:實(shí)際上,你們說(shuō)的是不同的語(yǔ)言。
聊天機(jī)器人不像人類那樣處理文本,而是將你的提示轉(zhuǎn)換成一個(gè)嵌入——一組在“向量空間”中表示的數(shù)字,有點(diǎn)像地圖上的坐標(biāo)。但是,正如地圖是其領(lǐng)土的平面表示一樣,這種嵌入也是語(yǔ)言的平面表示;必然會(huì)丟失一定程度的人類差異和語(yǔ)境。
接下來(lái),聊天機(jī)器人會(huì)根據(jù)過(guò)去訓(xùn)練的回答方式,逐字預(yù)測(cè)回復(fù)內(nèi)容。這種預(yù)測(cè)會(huì)利用有偏差的訓(xùn)練數(shù)據(jù)(它從中學(xué)習(xí)的特定文本)和有偏差的強(qiáng)化學(xué)習(xí)(它收到的反饋)。最終,你聽到的看似英語(yǔ)的話語(yǔ),實(shí)際上是對(duì)真實(shí)人類語(yǔ)音的模擬。
令人不安的是,現(xiàn)在有數(shù)億人定期與聊天機(jī)器人互動(dòng),講英語(yǔ)的人開始像另一端的非人類交流者一樣說(shuō)話。
例如,ChatGPT 使用“delve”一詞的頻率高于人們?cè)跁鴮懟蛘f(shuō)話時(shí)通常使用的英語(yǔ)頻率。佛羅里達(dá)州立大學(xué)的研究人員 Tom S. Juzek 和 Zina B. Ward 發(fā)現(xiàn),這可能是由于人類反饋過(guò)程中的細(xì)微偏差和錯(cuò)誤隨著時(shí)間的推移而累積造成的。負(fù)責(zé)檢查大型語(yǔ)言模型 (LLM) 輸出的人工智能公司員工通常是來(lái)自尼日利亞和肯尼亞等國(guó)家的低薪工人,在這些國(guó)家,“delve”的使用頻率高于美式英語(yǔ)或英式英語(yǔ)。
因此,輕微的詞匯過(guò)度表達(dá)可能在模型中得到了強(qiáng)化——有時(shí)甚至比工人自己的使用頻率還要高。由于工作時(shí)間緊迫和緊張的條件,檢查員在瀏覽樣本文本時(shí)可能忽略了“delve”的頻率,從而導(dǎo)致進(jìn)一步的放大。(其他一些例子包括 “intricate,” “commendable” and “meticulous.”。)
如今,這種過(guò)度使用正在滲透到全球文化中。自2022年底ChatGPT推出以來(lái)的兩年里,隨著研究人員開始尋求人工智能的論文幫助,“delve”在學(xué)術(shù)出版領(lǐng)域的出現(xiàn)頻率增加了十倍。隨著科學(xué)家和作家們對(duì)這一現(xiàn)象的認(rèn)識(shí)不斷加深,他們開始采取措施,讓自己“聽起來(lái)不那么像人工智能”。其實(shí),我以前很喜歡用“delve”這個(gè)詞,但現(xiàn)在我盡量避免使用它了。
但大多數(shù)人可能并不知道聊天機(jī)器人對(duì)某些詞匯存在偏見(jiàn)。用戶認(rèn)為 ChatGPT 是在用“正常”英語(yǔ)說(shuō)話,因?yàn)檫@是該工具用戶界面的暗示。他們還認(rèn)為,自己遇到的日常文本也是正常英語(yǔ),即使這些文本也可能是人工智能生成的。隨著時(shí)間的推移,他們?cè)絹?lái)越容易將這種表述與現(xiàn)實(shí)混淆。
事實(shí)上, 《科學(xué)美國(guó)人》上個(gè)月發(fā)表的一項(xiàng)研究發(fā)現(xiàn),人們?cè)谧园l(fā)的口頭對(duì)話中開始更多地使用“delve”(深入)這個(gè)詞。這不再是人工智能的功勞了;我們開始內(nèi)化它的偏見(jiàn),并自我重復(fù)。我說(shuō)“我們”,是因?yàn)榧词故欠磳?duì)“delve”的人也難逃其咎。我們或許可以避免使用最著名的ChatGPT贈(zèng)品,但如今太多詞匯的出現(xiàn)頻率異常,我們不可能完全避免。我們是否也應(yīng)該停止使用聊天機(jī)器人過(guò)度使用的“inquiry”(詢問(wèn))或“surpass”(超越)?太多了,難以追蹤。
隨著人工智能文本、我們無(wú)法識(shí)別的人工智能文本以及真實(shí)人類語(yǔ)音之間的循環(huán)越來(lái)越快,我們無(wú)意中套用LLM詞匯的可能性只會(huì)越來(lái)越大。心理語(yǔ)言學(xué)普遍認(rèn)為,一個(gè)單詞出現(xiàn)的頻率會(huì)影響它在人們心理詞典(即口語(yǔ)對(duì)話中可能使用的選項(xiàng)的“詞典”)中的可用性。本質(zhì)上,我們看到一個(gè)單詞出現(xiàn)的頻率越高,我們就越能本能地去使用它。
我們大腦語(yǔ)言映射的演化是正常的,但現(xiàn)在我們正處于一個(gè)反饋循環(huán)中,我們的“地圖”正在與聊天機(jī)器人的“地圖”融合。兩者都與實(shí)際情況不同——人類說(shuō)話方式千差萬(wàn)別——但這種混淆使得我們更難判斷什么是真正的人類語(yǔ)言,什么是人工生成的語(yǔ)言。隨著這種區(qū)別變得越來(lái)越難以辨別,我們將不斷模糊現(xiàn)實(shí)的界限,并周期性地利用這種模糊來(lái)構(gòu)建我們新的現(xiàn)實(shí)。隨著人工智能模型繼續(xù)接受自身輸出和受人工智能影響的人類寫作的訓(xùn)練,LLM語(yǔ)言的普及只會(huì)愈演愈烈。
從語(yǔ)言學(xué)角度來(lái)看,這并沒(méi)有什么錯(cuò)。“深入研究”(delve)這個(gè)詞對(duì)大腦的影響并不比它的同義詞更嚴(yán)重。但語(yǔ)言預(yù)示著更深刻的社會(huì)變革。還有許多其他更為隱蔽的誤解也被編碼進(jìn)了LLM的體系中。種族偏見(jiàn)、性別偏見(jiàn)和政治偏見(jiàn)——所有這些偏見(jiàn)都可能像語(yǔ)言偏見(jiàn)一樣被灌輸?shù)侥P椭校@些偏見(jiàn)更難被準(zhǔn)確衡量。我們需要記住,這些并非中立的工具:它們擁有潛移默化地重塑我們思維的力量。