蹬组词是一个困扰谷歌20年的技术难题,表面上看,这个问题十分简单:将蹬组词翻译为英文,大多数翻译工具都会把其翻译成“dēng zǔ cí”作为一个整体。但实际上,蹬、组、词三个汉字之间并没有任何联系,它们分别代表着“step on”、“group”和“word”三个英文单词。谷歌研究员介绍,之前大多数机器翻译算法都是以单词为中心,词语组合是借助于语境的。但蹬组词是一种构词習慣,缺乏上下文关系,因而被算法难以处理。
经过长时间研究,谷歌研究员发现借鉴新技术,特别是大数据量机器学习方法可以作为翻译蹬组词的办法。他们开发了一种人工神经网络,在大量的蹬组词样本中学习他们之间的关系。这种网络会将词的含义和搭配关系全面考虑,从而使机器对蹬、组、词三个单词之间的关系进行更为准确的处理,幸运的是结果也非常出色。现在,用户可以尝试使用谷歌翻译,输入“蹬组词”,会出现“Step Group Word”这个词组。虽然这个问题看起来不起眼,但它却是nlp技术实际应用中一个真正的难题。