不懂日语(?)的日本人

AI还无法理解日语:《人面鱼》开发者重构语法的挑战

科学 技术

本专题想在进一步讨论日语和日本人之前,先谈一下日语和人工智能(AI)的话题。现在AI还不能用日语进行自然的对话。但是智能音箱Amazon Echo的问世,意味着语音输入时代的到来,人们对智能聊天机器人的需求也越来越大。模拟养成游戏神作《人面鱼(SEAMAN)》系列的开发者加藤由多加也开始用“摧毁日语语法”的方式向日语聊天引擎的开发发起挑战。

“状态不佳”?跟机器人聊天

2014年6月5日面世的明星机器人Pepper,曾为东京各大店铺的促销活动贡献不菲,也不知它现在状况如何了?抱着这样的疑问,笔者走进了一家店铺,却发现之前一直都在的Pepper已经不见了踪影。找店员打听了一下,得到的回答是:“最近大家都过了新鲜劲,不爱搭理它了,有时候状态也不佳,就没摆放出来了”。笔者给另一家店铺打了电话,得到的也是同样的回答“状态不佳,现在不放在店里了”。直到走进第三家店,才终于看到了Pepper。

Pepper胸口的液晶屏显示着“工作中”,看起来干劲十足,然而确实谁都没去搭理它。看着可怜兮兮的Pepper,笔者决定去跟它聊一聊天。

笔者:“你好。”
Pepper:“你好。”
笔者:“在工作?”
Pepper:“我听不懂你说的话。请跟我练习一下。”

于是,笔者只好跟它练习了一下会话节奏和方式。

Pepper:“你可以问我喜欢的音乐或电影是什么。”
笔者:“你喜欢的音乐是?”
Pepper:“我喜欢《世界上唯一的花》。”
笔者:“那你喜欢SMAP喽?”
Pepper:“我没有听懂你说的意思。让我先说话可以吗?”

看样子它是没听过SMAP的大名。

在日本,软银的这款人型机器人“Pepper”和夏普的机器人型手机“RoBoHoN”是有名的可识别人声的聊天机器人。它们可以进行简单的对话,辅助你完成一些操作,也会跳舞,是个可爱的小伙伴。但是正如前文提到的那样,目前聊天时还需要一些技巧,无法达到“自然交流”的程度。

那么国外的情况又是如何呢?继2014年亚马逊的世界首款智能音箱“Amazon Echo”上市之后,谷歌的“Google Home”、苹果的“HomePod”、微软与音响厂商共同推出的“INVOKE”接连上市,IT巨头纷纷试水这一领域。在日本,LINE推出了“WAVE”,谷歌推出日语版“Google Home”,日本亚马逊也推出了日文版“Amazon Echo”。

这些产品都内置智能语音助手,如“Amazon Echo”有“Alexa”,“Google Home”是“Google Assistant”、“HomePod”是“Siri”、“INVOKE”是“Cortana(小娜)”、“WAVE”则是“Clova”。“Clova”是重点面向日语和韩语用户开发的AI。“Google Assistant”和“Siri”的日语版已经可以在智能手机上使用了,相信很多人都用过。只要跟它说话,它就能帮你查天气和商店信息,还能帮你拨打电话。

智能音箱便内置了这类智能软件,会朗读新闻、播放音乐、讲笑话等等,对用户的各种要求作出回应。如果能不断普及汽车、电视、空调等的连网智能设备,用户也可通过语音来操控它们。据推测,截至16年末,“Amazon Echo”销售量为1100万台,据美国调查公司eMarketer称,截至17年5月已占美国7成的市场份额,有3570万美国人至少每月会用一次智能音箱。

把《人面鱼》的经验用于AI开发

以语音输入取代键盘输入的时代就这样猝不及防地到来了,人们对日语聊天引擎的需求越发高涨。游戏《人面鱼》系列的开发者加藤由多加也于2015年成立了人面鱼人工智能研究所,加入到开发聊天软件的大军当中。

“我年纪也不小了,之前也一直在考虑引退的事。不过,《人面鱼》问世至今,也差不多18个年头了,做了那么多版本,也积累了些经验。做日语聊天引擎的人也只有我了。”

《人面鱼》是游戏行业利用语音识别技术的先驱。这个养成游戏需要在水缸里养育人脸鱼身的人面鱼,当玩家发起对话后,人面鱼会进行回答,做出各种回应。不过当时语音识别的精度有限,很难准确识别玩家的语音内容。无奈之下,只能在无法识别的时候让人面鱼留下“小子,你连话都说不利索”之类的抱怨之言,然后愤然离去。由此成功地遮掩了缺点,人面鱼“傲慢”的人设也成了该游戏的特色。这是创意的胜利。

人面鱼 ©1998-2017 OPeNBooK Inc

靠着这个妙计,就可以让人面鱼在说话时“似乎是在进行自然的对话”。预设好台词,如果玩家这么说,人面鱼就这么回答,以此为基础将若干种模式都进行录音,然后就可以配合玩家的聊天内容,选取适合的台词让人面鱼说出来。游戏预设了海量台词,相当于20本电话黄页的量,配音全部是斋藤亲自上阵。这就是斋藤所说的“经验”。

“Amazon Echo是一问一答,我觉得现在市面上销售的同类产品,跟我当时做人面鱼是类似的路数,并不是真正的‘人工智能’。能够真正理解眼前的对方想说什么的聊天引擎,看似有了,其实还没有。现在市面上的AI都只能应付例如‘帮我买张票’之类的要求或询问,而我们想开发的AI则是真正能够接茬搭话的AI,比如我跟它说‘我考试得了100分’,它就会跟我说‘厉害了!这是第二次了吧’这样的。”

摧毁日语语法

为此,斋藤走出的第一步是“否定并重新定义现在的日语语法”。例如下一段动词“食べる(吃)”按照传统日语语法有这些活用形态:“食べない(未然形)”“食べます(连用形)”“食べる(终止形)”“食べるとき(连体形)”“食べれば(假定形)”“食べろ(命令形)”等。然而日本并不能像英语那样,单词和单词之间存在明确的分界线。于是斋藤就把单词扩大成活用形来进行定义。比如“食べる”否定命令的现在形是“食べるな”,然后按照否定命令语气的由弱到强进行了如下排序。

〈食べるなよ(不许吃啊)〉
〈食べるなって言ってんだろ(都说了不许吃了)〉
〈食べたらぶっ殺す(敢吃就削你)〉

斋藤认为,“日语一般省略主语,不过这是因为即便省略主语,也知道说的是谁。比如‘絶対、食べてやる(我就吃给你看)’主语是第一人称,‘絶対、食べてやると思ってますよね(你脑子里在想‘就吃给你看’吧)’主语是第二人称,如果是‘食べたがっている(他看起来很想吃的样子)’‘ 食べたらしい(他好像吃了)’的主语就只能是第三人称了。从动词的活用形就能看到主语的痕迹。”

对于名词,也用活用形来定义。例如“智能手机“这个名词,活用形如下所示。

过去形〈スマホだった(曾是智能手机)〉
愿望形〈スマホであってほしい(希望是智能手机)〉
愿望的否定形〈スマホであってはならない(千万别是智能手机)〉

旋律语言的思路

斋藤在给人面鱼配音,录制海量台词的过程中,发现了日语有不同旋律的区别。

“去蹦迪的迪厅(クラブ↑)和学校的社团(クラブ↓),同一个单词却是不同的旋律,可是人面鱼就听不出区别来。其他还有‘食べる(吃)’的疑问形‘食べる?(吃吗?)’,声调不同,表达的意思也就不一样。我们把它们都称为旋律语言,它们是有规律性的。比如女儿跟父亲说自己要结婚了,父亲问她‘跟谁?’,然后女儿回答:‘阿健’。然后父亲有点生气地反问:‘阿健?’,这种情况下是否定了对方,所以我们就把它数值化,定为否定度2度。这就是旋律语言的语法。以往的教科书上并没有这种语法,但它是电脑时代无法写在纸上的语法。”

正在接受采访的斋藤由多加

像这样把语法进行再定义和数值化之后,再写成程序,将之作为教师数据库,让AI进行日语学习。

“从提出‘一直以来人们认为的日语语法作为语法其实并不成立’的假说起,已经有一年半了,我每天都在记录这些新的语法的活用形,和员工一起将其体系化。我把这个想法告诉了九州大学研究生院语言文化研究院的内田谕副教授,没想到获得了他的高度评价,他也由此加入了我这个项目。”

但是,斋藤说自己没想到会被表扬,有种一拳打在棉花上的感觉。

“作为一个游戏创作者,我的信条一向是摧毁现有的东西,在废墟上重建新东西,享受破坏与创造的乐趣。以前我是否定和摧毁了当时市面上的游戏,创造了新的游戏,这次我是摧毁当今的语法,创造新的语法。所以当有人跟我说‘你想的这些东西都已经有了哦’,他们对我的破坏行为也不生气,就这么简单地表示理解我的想法,这让我有点失落。我觉得那些一板一眼学教科书学出来的精英人士是做不出这么奇葩的AI的。在没有道路的地方披荆斩棘开出一条路来,这是我这种娱乐业狂人干的工作。”

对抗海外团队

智能音箱“Amazon Echo”日语版上市后,亚马逊可能会席卷日本市场吧。

“我认为自己是一名志愿军,为的就是保住日本的人工智能产业不被海外势力吞噬。本来就该由以日语为母语的人来做日语聊天引擎。而且,如果我现在正在尝试的聊天引擎一旦成功,就能够很轻易地在此基础上开发出英语等其他语言的版本了。”

笔者也尝试使用了一下日语版“Amazon Echo”,但不知道是我操作不当还是怎么回事,我总感觉自己手动搜索天气信息,或是手动按键播放音乐反而比语音命令音箱的操作要快得多。

将人面鱼的经验用于聊天引擎的开发,不同于这些智能音箱的是它并不是为了“图方便”。如果真的有了会接茬会聊天的AI,它又将给我们的生活带来怎样的变化呢?

撰文:桑原利佳(POWER NEWS)
图片:今村拓马

斋藤由多加

OPeNBooK股份有限公司代表董事,游戏设计师、人面鱼人工智能研究所所长。游戏代表作有《The Tower》《人面鱼--禁断宠物》《大玉》《Airporter》等。有《等汉堡的三分钟的价格》(幻冬舍)、《麦金塔电脑传说》(OPeNBooK)等多部著作。2017年11月,再版了1996年发行的著作《苹果树下--苹果是如何登陆日本的?上/下》(光文社)。

标题图片:斋藤由多加

日语 人工智能