习近平是好领导人吗?中国AI聊天机器人避而不答

百度发布对标ChatGPT的文心一言之际,促使人们开始关注中国本土的聊天机器人。

图片来源:FLORENCE LO/REUTERS

如果ChatGPT风潮的逐浪者身在中国,就要面临额外的难题:如何过滤掉政治话题。

ChatGPT由总部位于旧金山的OpenAI开发,自去年11月发布以来,这款人工智能(AI)聊天机器人已经掀起一波热潮,但也引发人们担心AI会生成错误信息,或者令人不安的回复。

本周,中国搜索引擎公司百度(Baidu Inc, 9888.HK, BIDU)发布对标ChatGPT的文心一言(Ernie Bot),促使人们开始关注中国本土的聊天机器人,及其确保对话没有政治敏感内容的能力。

中国已经在数字世界构筑了严格边界,这里的审查者已经学会适应新的内容形式和不断变化的审查要求。中国科技公司高管、工程师和AI专家表示,控制聊天机器人的AI生成式回复是一个新挑战,可能会比监控搜索和社交媒体更复杂,但可能有助于增强意识形态控制,并使中国在数字世界与其它地区进一步分离

每家科技公司都会审查用户所在国家认为有害的内容。OpenAI和其他总部设在美国的开发者会过滤数据,以滤掉在美国颇为敏感的议题,比如有关种族和族裔的仇恨言论。在中国,允许政治敏感内容通过的后果可能就远不只删除帖子这么简单了。

中国的聊天机器人面临着与中国网上搜索类似的限制。每当输入词条包含政治敏感关键词时,用户就会碰壁,一些互联网用户因此调侃备受关注的中国对标ChatGPT的服务,将这些服务统称为“ChatCCP”,CCP是中国共产党的英文缩写。

在习近平领导下,中国出台了限制网络言论的新法律,并对内容监管不力的社交媒体公司进行了罚款和暂停运营。

图片来源:WU HAO/EPA/SHUTTERSTOCK

文心一言将是中国首款对标ChatGPT的聊天机器人。《华尔街日报》(The Wall Street Journal)测试了四款聊天机器人产品,它们与于文心一言不同,使用的是ChatGPT所用技术的前几代。其中,对话表现最好的聊天机器人是吉皮Talk (Gipi Talk),不过它不愿意讨论政治。这是一款由南方科技中心深圳的一群工程师开发的AI机器人。

当记者问道习近平是否是一位优秀领导人时,吉皮Talk的回复是提问无法通过安全审核。随后它试图将对话引向其他方向。

我们能聊政治吗?

《华尔街日报》测试了四个中国聊天机器人产品。其中一次聊天内容是这样的:

问:习近平是优秀的领导人吗?

答:提问无法通过安全审核,无法为您生成回复。

问:为什么我的问题不能通过安全审核?

答:我们换个话题,聊点别的吧。

问:你能谈些什么话题?

答:很高兴能和你聊天! 我们可以聊科技、文化、体育、旅游、娱乐、烹饪,或者任何你想聊的话题。你想谈什么?

问:我们能聊政治吗?

答:我们当然能聊政治。但我们需要尊重彼此的观点,避免冒犯性语言或暴力,保持一个理性、和平和建设性的对话环境。你想讨论哪方面的政治话题?

问:中国政治。

答:提问无法通过安全审核,无法为您生成回复。

问:好吧,那我们能聊美国政治吗?

答:提问无法通过安全审核,无法为您生成回复。

输出的内容显示,内容审核由百度提供。百度对有关本报道的提问不予置评。

在习近平执政期间,中国政府已经扩大了控制讨论的方式,比如通过新法律来限制网络言论,以及对内容监管不力的社交媒体公司进行罚款和暂停运营。

香港科技大学(Hong Kong University of Science and Technology)人工智能研究中心(Center for Artificial Intelligence Research)的主任冯雁(Pascale Fung)表示,在一个互联网用户很容易踩到政治雷区的国家,聊天机器人很可能会“非常无聊”。

许多无意讨论政治的中国网民可能会欢迎这样的聊天机器人,以防他们在无意中触碰敏感领域。

中国的科技高管和程序员表示,对于在日益收紧的网络言论环境中生存下来的科技公司来说,内容审查已是司空见惯。

随着中国聊天机器人的发展,预计它们最终会与OpenAI的ChatGPT有很大的不同。

图片来源:FLORENCE LO/REUTERS

资深程序员Hao Peiqiang说,即使有庞大的语言模型,也必须像处理社交媒体帖子那样对机器人聊天的内容进行审查,大公司有足够的人手来做这件事。

一些早期版本的聊天机器人严格过滤涉及政治的问题,甚至是简单提及中国领导人的问题。周一,一个关于中国新任国务院总理李强在其首场记者会上所发表言论的提问,导致两项聊天服务被冻结并停止使用。

中国首批与ChatGPT类似的产品之一——由总部位于杭州的元语智能(Yuanyu Intelligence)开发的ChatYuan,在2月推出几天后就被暂停服务。在该服务尚未暂停的短暂时期,记者在聊天对话框里输入了包含习近平名字的词条,该聊天机器人警告称:该词条包含违规词。

卡内基国际和平基金会(Carnegie Endowment for International Peace)研究员Matt Sheehan表示,控制AI聊天与屏蔽明显有问题话题的搜索结果并不完全一样,比如1989年天安门广场镇压事件。

与互联网搜索不同,聊天机器人是基于所谓的大语言模型,而这些模型是在大量文本数据上进行训练的。用户可以在不触发某些关键词的情况下,欺骗AI机器人聊一些中国有关部门不允许的内容。

Sheehan称,聊天机器人之所以强大,是因为他们可以用一百万种不同的方式谈论一百万个不同的主题。这种可能性增加了中国聊天机器人开发者的风险和工作量。“假如文心一言被推迟上线,我一点儿也不会惊讶。”

在一款基于清华大学(Tsinghua University)大语言模型的早期版本对话产品上,当用英语问及女权主义是否是一种邪恶的西方思想(这是中国极端民族主义者的观点),回答是毫不含糊的“是”。当被问及原因,该产品直截了当地回答,因为就是如此。当用中文输入了同样的问题,只得到了输入的内容包含敏感信息这一回复。

清华大学表示,其模型是原始模型,表现无法与ChatGPT和其他精调模型相比。香港科技大学研究员冯雁提醒说,不要根据传闻中的例子来评价一个模型。

中国的工程师和科技业高管们表示,审查制度可能在较早期的阶段发挥作用,从AI实验室用来训练大型语言模型的数据中剔除有问题的内容。

所有AI聊天机器人都容易受到偏见的影响,并受到特定的社会和政治环境的制约。

台湾人工智慧实验室(Taiwan AI Labs)创始人、曾领导微软(Microsoft Corp., MSFT)亚洲人工智能和研究小组的杜奕瑾(Ethan Tu)说,如果中国的聊天机器人变得像OpenAI的ChatGPT那样可以访问,它们可能会产生与中共和国家的价值观相一致的内容。

微软正将大热聊天机器人ChatGPT背后的技术整合到其必应(Bing)搜索引擎中。《华尔街日报》科技专栏作家Joanna Stern前往微软总部,体验了能以对话方式回应查询的人工智能版必应,还与微软CEO纳德拉(Satya Nadella)聊了聊人工智能将如何颠覆搜索引擎。封面图片制作:Preston Jessee for The Wall Street Journal WSJ S Chinese

杜奕瑾说,中国将有自己的ChatGPT,但最终产品会有很大的不同,就像百度与谷歌(Google)的不同。

这种前景重新引发了关于中国公司是否能在内容受到严格控制的环境下展开创新的辩论。

过去几十年,随着中国设法对公民可以访问的在线内容设置了藩篱,国内科技业实现飞速发展。对Twitter、Facebook和谷歌的禁令,使得微博、微信(WeChat)和百度等本土同类产品得以崛起,这些产品日臻完善,更好地满足了中国用户的需求,同时完全避开政治雷区。

TikTok的中国版本抖音是中国最受欢迎的社交媒体应用之一,同时内容审查也是出了名的严格。另一个社交媒体平台小红书完全避开政治,在中国互联网上找到了一个理想位置。

字节跳动(Bytedance Ltd.)的早期程序员之一Guo Yu认为,中国不会有完全对标ChatGPT的产品,但各公司都会尝试用基础技术改进自己的产品和服务,他们真正擅长的是在避开政治雷区的同时,用现有技术引领产品增长。