(开首:DeepTech深科技)
(开首:MIT TR)
四年前,当 Kenneth Wehr 启动接受格陵兰语维基百科时,他的第一项举措是删掉险些所有内容。他认为,这是它独一的生活契机。
现年 26 岁的 Wehr 并非来自格陵兰——他在德国长大,但在十几岁时打听过这座动作丹麦自治领的岛屿后,便对它深机密迷。他曾消耗数年时分,用我方的母语撰写对于多样冷门主题的维基百科条款。
为了格陵兰语,他以至最终搬到哥本哈根专门学习。这门说话的使用者约有 57,000 东谈主,主如果因纽特原住民,他们漫步在北极圈内几十个偏远的村落里。
格陵兰语维基百科节略在 2003 年,即英文网站推出几年后上线。在 Wehr 近 20 年后接办时,已额外百名维基百科孝敬者参与其中,共同撰写了约 1,500 篇著述,总字数超过数万。这似乎有劲地说明注解了众包模式的顺利,恰是这种模式使维基百科成为在线信息的首选开首,标明它即便在最不可能的边缘也能生根发芽。
然而,问题只消一个:格陵兰语维基百科仅仅一个幻象。
险些每一篇著述都出自那些根蒂不会说这门说话的东谈主之手。如今在丹麦教会格陵兰语的 Wehr 推测,概况只消一两位格陵兰东谈主也曾孝敬过内容。但更让他忧心的是另一件事:他防御到,跟着时分的推移,越来越多由机器翻译生成的著述被平直复制粘贴到维基百科上。这些著述充斥着初级纰谬——从语法造作到毫无真义的词汇,再到更严重的失实信息,举例一个词条宣称加拿大只消 41 名住户。其他页面或然以至包含一串就地字母,这是机器在找不到合适的格陵兰语词汇时跋扈拼集的浪漫。
“对于那些发布者来说,这些内容概况看起来像是格陵兰语,但他们我方根蒂无从判断,” Wehr 懊恼谈。
“这些句子要么实足欠亨,要么有赫然纰谬,”他补充说。“AI 翻译在处理格陵兰语方面进展得格外恶运。”
Wehr 所描述的窘境并非格陵兰语版块所专有。
维基百科是继《圣经》之后最宏大的多说话样式:它领有超过 340 种说话版块,另有 400 种更小众的说话版块正在开导和测试中。跟着 AI 时候的普及,许多这类袖珍说话版块已被自动翻译的内容所归并。举例,据《麻省理工科技评述》估量,在四个非洲说话的维基百科版块中,有 40% 到 60% 的著述是未经校对的机器翻译内容。而在对因纽特语(一种与格陵兰语驾驭、在加拿大使用的原住民说话)的维基百科版块进行审查后,《麻省理工科技评述》估量,超过三分之二包含多个句子的页面都部分接纳了这种款式创建。
这正启动激励一个毒手的问题。从谷歌翻译到 ChatGPT,AI 系统通过抓取互联网上的海量文原本学习“说”一门新说话。对于那些使用者较少的说话来说,维基百科或然是其最大的在线说话数据库。因此,这些页面上的任何语法或其他纰谬,都可能浑浊 AI 赖以学习的“水源”。这会导致模子在翻译这些说话时尤其容易出错,从而形成一种说话学的恶性轮回:东谈主们链接使用这些器具添加更多劣质翻译的维基百科页面,而 AI 模子则链接从这些劣质页面中学习。这是一个复杂的问题,但不错归结为一个纯粹的观念:垃圾进,垃圾出 (Garbage in, garbage out)。
“这些模子是建设在原始数据之上的,” Kevin Scannell 说谈。他曾是圣路易斯大学的算计机科学教会,当今专注于为濒危说话开导软件。“它们会试图从零启动学习一门说话的一切。莫得其他输入,莫得语法书,莫得辞书,输入的只消文本。”
对于这个问题的严重进度,刻下还莫得真实的数据,部分原因是许多 AI 锻真金不怕火数据是隐蔽的,而且该领域仍在快速发展。但早在 2020 年,据估量,在用于翻译非洲数百万东谈主口所使用的说话(包括马达加斯加语、约鲁巴语和绍纳语)的 AI 模子中,维基百科提供了超过一半的锻真金不怕火数据。2022 年,一个德国商讨团队在观看可通过网罗抓取获取的数据时发现,对于 27 种资源匮乏的说话,维基百科是独一易于获取的在线说话数据开首。
在维基百科内容质地低劣的情况下,这可能会产生严重成果——它可能会将地球上最脆弱的说话推向峭壁,因为后代将启动对它们失去信心。
“维基百科的状态将反应在这些说话的 AI 模子中,” 挪威特罗姆瑟大学的算计说话学家 Trond Trosterud 说。多年来,他一直在就劣质维基百科版块可能带来的危害发出告诫。“我很难遐想这会莫得成果。虽然,维基百科的地位越主导,情况就会越糟。”
负背负地使用
自出身之初,自动化就已融入维基百科。机器技艺守护着平台的运作:它们建设损坏的团结、修正时事纰谬,以至改良拼写。还有一支机器东谈主雄兵,它们通过将河流、城市或动物的称呼填入固定句式,来生成疏忽的条款。总体而言,它们使平台变得更好。
但AI 是另一趟事。任何东谈主只需几次点击,就能用它形成巨大的疏忽。
比拟许多其他网站,维基百科在搪塞 AI 期间的到来方面作念得更好。它莫得像外交媒体那样被 AI 机器东谈主或虚伪信息所归并,并在很猛进度上保留了早期互联网期间的隧谈性。维基百科开放、免费,任何东谈主都不错使用、裁剪和援用,它由它所服务的社群来运营,公开透明且易于使用。但社群驱动的平台,其命悬一线取决于社群的范畴。英语维基百科取得了巨大顺利,而格陵兰语版块则走向雕零。
“咱们需要优秀的维基百科孝敬者。这少量东谈主们习以为常,但这并非理所虽然,” Amir Aharoni 说谈,他是维基百科说话委员会的志愿者成员,该委员会负责监督说话版块的开设与关闭。“如果你负背负地使用机器翻译,它不错是高效且有用的。不幸的是,你不可指望所有东谈主都这样作念。”
Trosterud 商讨了袖珍维基百科版块用户的行径,他泄露,AI 赋能了一个他称之为“维基百科劫持者”的子群体。这些用户的范围很广——从生动的青少年创建对于我方家乡或怜爱的 YouTuber 的页面,到善意的维基百科东谈主,他们认为通过创建少数族裔说话的著述是在以某种款式“匡助”这些社群。
“如今他们的问题在于,他们手捏谷歌翻译这个火器,” Trosterud 说。他补充谈,这让他们能够炮制出比以往任何时候都更长、更以伪乱确凿内容:“往常,他们的火器只消辞书。”
这履行上将疏忽行径工业化了——受影响最严重的是那些脆弱的说话,因为 AI 对它们的翻译平素最不可靠。原因有许多,但一个过错身分是在线可用的源文本数目相对较少。或然,模子难以识别一种说话,因为它与其他说话相似;或然而是因为某些说话,包括格陵兰语和大多数好意思洲原住民说话,其结构本性使其不适用于大多数机器翻译系统的责任款式。(Wehr 指出,格陵兰语是一种粘着语,即通过在词根上附加前缀和后缀来构词。因此,许多词汇具有极强的语境特异性,能够抒发在其他说话中需要用一通盘句子才能说明的复杂观念。)
谷歌在三年前大范畴彭胀其翻译服务前发布的一项商讨发现,资源匮乏型说话的翻译系统质地广博低于资源实足型说话。商讨东谈主员发现,他们的模子时时会纰谬翻译跨说话的基真名词,包括动物和颜料的称呼。(谷歌在给《麻省理工科技评述》的一份声明中写谈,它“戮力于为其补助的所有 249 种说话达到高质地尺度”,并“通过严格测试和立异其系统,尽头是针对那些网罗公开文本资源有限的说话”。)
维基百科自己提供了一个名为“内容翻译”(Content Translate) 的内置裁剪器具,允许用户将著述从一种说话自动翻译到另一种说话——其初志是通过保留原文的参考文件和复杂的时事来省俭时分。但它依赖于外部机器翻译系统,因此也深受其他机器翻译器具的弊端所困扰——维基媒体基金会泄露,这是一个难以搞定的问题。是否允许使用该器具由每个说话版块的社群自行决定,一些社群已决定禁用。值得防御的是,英语维基百科已基本退却使用该器具,宣称约 95% 使用“内容翻译”创建的著述未达到可接受尺度,需要大都额外修改。不外,至少不错马虎判断该技艺是否被使用过,因为它会在维基百科的后端添加一个标签。
其他的 AI 技艺则更难监控。尽管如斯,我采访过的许多维基百科裁剪都泄露,一朝他们的说话被添加到主流在线翻译器具中,他们就会防御到质地低劣、很可能是机器翻译的页面数目相应激增。
一些使用 AI 翻译内容的维基百科孝敬者偶尔会承认他们并不会说指标说话。他们可能认为我方是在为小语种社群提供可供修改的“草稿”,这内容上是在效仿那些在更活跃的维基百科版块中行之有用的模式。
然而,一朝充满纰谬的页面在小语种中被创建出来,平素是不会有一支浩大的、懂这门说话的群众队列来随时准备立异它们的。这些版块的读者很少,或然以至莫得一个固定的裁剪。
20 多岁的加拿大教师 Yuet Man Lee 泄露,他曾使用谷歌翻译和 ChatGPT 的羼杂器具,将他为英语维基百科写的几篇著述翻译成因纽特语,他认为这能为一个小社群作念出孝敬是件善事。他说,他在其中一篇著述中加了备注,说明这仅仅一个鄙俗的翻译。“我其时没想过会有东谈主防御到这篇著述,”他解释说。“如果你在那些小众的维基百科上发布内容——大多数时候根蒂没东谈主会看。”
但与此同期,他也泄露,他仍然认为“也许有东谈主会看到并修正它”——他补充说,他曾想过 AI 系统生成的因纽特语翻译在语法上是否正确。自他创建那篇著述以来,莫得任何东谈主动过它。
在温哥华教会社会科学的 Lee 十年前启动在英语维基百科上裁剪条款。他说,熟习更活跃的维基百科的用户可能会堕入一种他称之为“大维基百科式自尊”的心态:当他们尝试为小版块作念孝敬时,他们会想虽然地认为别东谈主会来修正他们的纰谬。或然这确执行得通。Lee 说,他之前曾为鞑靼语(一种主要在俄罗斯由数百万东谈主使用的说话)维基百科孝敬过几篇著述,其中至少有一篇其后被修正了。但比拟之下,因纽特语维基百科则是一派“穷苦的荒野”。
他强调我方的初志是好的:他想为一个加拿大原住民说话的维基百科加多更多著述。“我当今认为这可能是一个坏主意。我莫得洽商到我可能在促成一个递归轮回,”他说。“我仅仅出于酷爱和好玩,想把内容发布出去,而莫得厚爱念念考成果。”
“透顶,实足莫得改日”
维基百科是一个由联想目的驱动的样式。裁剪责任可能花消有害,需要消耗数周时分与匿名的、身份不解的东谈主争论,但奉献者们参预了大都无偿工作,因为他们戮力于一项更奥妙的行状。恰是这种奉献精神,驱动着我采访过的许多小语种裁剪。他们都顾虑,如果垃圾内容链接出当今他们的页面上,成果将不胜设计。
26 岁的农业规划师 Abdulkadir Abdulkadir 在尼日利亚北部一条艰苦的公路边,通过一通讯号不稳的电话与我交谈。他说他每天花三个小时,用他的母语富尔富尔德语(一种主要由萨赫勒地区的牧民和农民使用的说话)处理维基百科条款。“但责任量太大了,”他说。
Abdulkadir 认为,富尔富尔德语维基百科过错需要正常运作。他一直建议将其动作偏远村落农民为数未几的在线资源之一,为他们提供对于哪些种子或作物最相宜他们郊野的信息,何况是用他们能相识的说话。“如果你给他们一篇机器翻译的著述,” Abdulkadir 告诉我,“那很可能会‘马虎地伤害他们’,因为信息很可能莫得被正确翻译。”
举例,谷歌翻译骄气富尔富尔德语中“一月”的真义是“六月”,而 ChatGPT 则说是“八月”或“九月”。这些技艺还泄露,富尔富尔德语中“成绩”的真义是“发热”或“安康”等其他可能性。
Abdulkadir 说,他最近被动修正了一篇对于豇豆的著述,这是一种在非洲大部分地区至关过错的经济作物,因为他发现那篇著述险些无法阅读。
Abdulkadir 泄露,如果有东谈主想在富尔富尔德语维基百科上创建页面,他们应该手动翻译。不然,“任何读你著述的东谈主都无法获取最基本的常识,”他申饬这些维基百科孝敬者。尽管如斯,他估量仍有节略 60% 的著述是未经校对的机器翻译。Abdulkadir 告诉我,除非 AI 系统的学习和部署款式发生要紧改换,不然富尔富尔德语的远景堪忧。“敦朴说,情况会很恶运,”他说。“透顶,实足莫得改日。”
在尼日利亚的另一端,Lucy Iwuala 为伊博语(一种在该国东南部额外百万东谈主使用的说话)维基百科作念孝敬。“伤害还是形成了,”她告诉我,同期绽放了最近创建的两篇著述。两篇都是通过维基百科的“内容翻译”器具自动翻译的,内部纰谬百出,她说读下去会让她头疼。“有些术语以至根蒂没被翻译,照旧英语,”她指出。她认出创建这些页面的用户名是一个惯犯。“这个东谈主以至用了伊博语里不存在的字母,”她说。
三年前,出于对伊博语正被英语取代的担忧,Iwuala 启动按期为维基百科作念孝敬。这种担忧在许多活跃于小语种版块的东谈主中很常见。“这是我的文化,这是我的身份,”她告诉我。“这才是中枢:确保你不会被抹去。”
如今动作又名英语和伊博语之间的专科翻译,Iwuala 说,形成最大疏忽的用户是那些短少训戒的东谈主,他们将 AI 翻译视为快速提高伊博语维基百科影响力的款式。她发现我方平素要在她组织的线上裁剪松,或通过电子邮件向多样出错的裁剪解释,浪漫可能碰巧违抗,这会遣散用户:“你会感到悔过,然后不想再打听这个方位。你只会放手它,然后回到英语维基百科。”
夏威夷大学的夏威夷语助理教会 Noah Haʻalilio Solomon 也抒发了通常的担忧。他论述说,夏威夷语维基百科上某些页面约有 35% 的词语是无法相识的。“如果这等于将要存在于网罗上的夏威夷语,那它带来的坏处将宽阔于克己,”他说。
几十年前曾一度面临毕命的夏威夷语,在原住民步履家和学者的发愤下,正在资历一场复兴。在维基百科这样一个世俗使用的平台上看到如斯粗劣的夏威夷语,令 Haʻalilio Solomon 感到不安。
“这很疼痛,因为它让咱们想起咱们的文化和说话曾无数次被盗用,”他说。“咱们为了说话复兴,一直在粗重地朝上攀高。这绝非易事,而这种知足会加多额外的禁闭。东谈主们会认为这等于夏威夷语的准确呈现。”
所有这些维基百科纰谬所带来的成果可能很快就会贯通。毫无疑问还是继承了这些页面动作锻真金不怕火数据的 AI 翻译器,当今正被用于制作充斥纰谬的 AI 生成竹帛,这些竹帛面向多样说话的学习者,如因纽特语和克里语(加拿大原住民说话),以及曼岛语(马恩岛上的一种袖珍凯尔特说话)。其中许多竹帛已在亚马逊上架销售。“那实足是瞎掰八谈,” 蒙特利尔魁北克大学的说话学家 Richard Compton 在评价一册他审阅过的、堪称是因纽特语初学手册的出书物时说。
AI 非但莫得让少数族裔说话变得更容易斗争,反而正在为这些说话的学生和使用者创造一个收敛扩大的雷区。“这简直是打脸,” Compton 说。他顾虑,在加拿大那些为了将传统传承下去而与腻烦进行了艰苦斗争的社群中,但愿学习说话的年青一代可能会求援于像 ChatGPT 这样的在线器具或亚马逊上的短语手册,浪漫只会让事情变得更糟。“这是诓骗,”他说。
与时分竞走
凭据皆集国教科文组织 (UNESCO) 的数据,每两周就有一种说话被晓示毕命。但是,运营维基百科的维基媒体基金会是否有义务保护其平台上的说话,这是一个悬而未决的问题。当我与该基金会的高等总监 Runa Bhattacharjee 交谈时,她说,决定什么样的内容应该存在于他们的维基百科上,取决于各个社群我方。“最终,背负如着实于社群,他们需要确保莫得疏忽行径或不但愿的步履,不管是通过机器翻译照旧其他款式,”她说。Bhattacharjee 补充说,平素只消在收到具体投诉后,才会洽商关闭一个版块。
但如果莫得活跃的社群,一个版块又如何能被建设,以至如何能有东谈主建议投诉呢?
Bhattacharjee 解释说,维基媒体基金会在这种情况下演出的扮装是选藏维基百科平台,以防有东谈主前来复兴它:“咱们提供的是一个让他们成长和发展的空间。这等于咱们的定位。”
伊纳里萨米语,一种仅在芬兰北部一个偏远社群使用的说话,是东谈主们如何善用维基百科的典范。四十年前,这门说话正走向毕命;其时只消四个孩子会说。他们的父母创建了伊纳里萨米说话协会,动作补助说话的终末发愤。这些发愤顺利了。如今,已额外百名使用者,多所学校使用伊纳里萨米语动作教学序论,维基百科上更有 6,400 篇著述,每一篇都由流利的使用者进行过审校。
这个顺利案例突显了维基百科如实不错为小而刚硬的社群提供一个独特的器具,以促进他们说话的传承。“咱们不存眷数目,咱们存眷质地,” 伊纳里-萨米说话协会的成员 Fabrizio Brecciaroli 说。“咱们正规划将维基百科用作书面说话的府上库。咱们需要为年青一代提供不错使用的器具。让他们能够以数字化的款式使用伊纳里萨米语,这很过错。”
这一举措格外顺利,以至于维基百科已被整合到伊纳里萨米语学校的课程中,Brecciaroli 补充谈。他会接到教会打来的电话,请求他撰写从龙卷风到萨米民间别传等多样主题的纯粹页面。维基百科以至提供了一种将新词引入伊纳里萨米语的款式。“咱们老是在创造新词,” Brecciaroli 说。“年青东谈主需要用它来磋议体育、政事和电子游戏。如果他们不细则若何说,当今他们会去查维基百科。”
维基百科是一项宏伟的才气实验。伊纳里萨米语的例子标明,只消赐与最猛进度的关注,它在小语种中也能顺利。“最终指标是确保伊纳里萨米语能够存活下去,” Brecciaroli 说。“伊纳里萨米语莫得谷歌翻译,这概况是件善事。”
这概况是确凿——尽管像 ChatGPT 这样的大型说话模子不错将短语翻译成传统机器翻译器具不补助的说话。Brecciaroli 告诉我,ChatGPT 在伊纳里萨米语方面的进展并不好,但其质地因你建议的要求而异;如果你用该说话发问,谜底会充满芬兰语词汇以至它我方发明的词。但如果你用英语、芬兰语或意大利语发问,然后要求它用伊纳里萨米语回答,它的进展会更好。
有鉴于此,尽可能多地创作高质地的在线内容,成为了一场与时分的竞走。“ChatGPT 只需要大都的词汇,” Brecciaroli 说。“如果咱们收敛输入好的材料,那么朝夕咱们会得到好的输出。这等于但愿。” 这个想法得到了多位说话学家的补助——即有可能完了“垃圾进,垃圾出”的轮回。(OpenAI 莫得复兴置评请求。)
尽管如斯,举座问题很可能会赓续恶化,因为许多说话不像伊纳里萨米语那样运道——它们的 AI 翻译器很可能会在越来越多 AI 垃圾的基础上进行锻真金不怕火。不幸的是,Wehr 对他可爱的格陵兰语的改日似乎远莫得那么乐不雅。
自从删除了格陵兰语维基百科的大部老实容后,他花了好几年时分试图招募使用者来匡助他复兴它。他登上了格陵兰的媒体,也在外交媒体上发出了敕令。但他莫得得到太多复兴,他说这令东谈主凉了半截。
“格陵兰没东谈主对此感兴致,也没东谈主欢快孝敬,”他说。“这实足没故真义,是以它应该被关闭。”
旧年年底,他启动恳求,要求维基百科说话委员会关闭格陵兰语版块。在数十名维基百科官僚之间张开了数月的热烈狡辩;一些东谈主似乎对一个名义上看起来健康的版块竟会堕入如斯多的问题感到惊诧。
然后,本月早些时候,Wehr 的提议被接受了:格陵兰语维基百科将被关闭,所有剩余的著述将被移至维基百科孵化器,那儿是新说话版块进行测试和构建的方位。说话委员会引述的原因之一是 AI 器具的使用,这些器具“频繁产生可能误会该说话的无真义内容”。
但一切可能还是太迟了——格陵兰语的纰谬似乎还是固化在机器翻译器中。如果你让谷歌翻译或 ChatGPT 作念一件像用尺度的格陵兰语数到 10 这样纯粹的事,两个技艺都无法作念到。
原文团结:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/kaiyun官方网站