NLP 历史上最大的媒体误导：成语难倒了电脑

NLP 最早的实践是机器翻译，在电脑的神秘光环下，被认为是模拟或挑战人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话，为媒体误导之最：

说的是有记者测试机器翻译系统，想到用这么一个出自圣经的成语：

The spirit is willing, but the flesh is weak (心有余而力不足)

翻译成俄语后再翻译回英语就是：

The whiskey is alright, but the meat is rotten（威士忌没有问题，但肉却腐烂了）

这大概是媒体上流传最广的笑话了。很多年来，这个经典笑话不断被添油加醋地重复着，成为NLP的标准笑柄。

然而，自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测，这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”，似乎暴露了机器的愚蠢，殊不知这样的“错误”是系统最容易 debug 的：补全词典即可。因为成语 by definition 是可列举的（listable），补全成语的办法可以用人工，也可以从语料库中自动习得，无论何种方式，都是 tractable 的任务。语言学告诉我们，成语的特点在于其不具有语义的可分解性（no/little semantic compositianlity），必须作为整体来记忆（存贮），这就决定了它的非开放性（可列举）。其二是对于机器“理解”（实际是一种“人工智能”）的误解，以为人理解有困难的部分也必然是机器理解的难点，殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事，需要历史知识才可以真正理解其含义，而机器是没有背景知识的，由此便断言，成语是NLP的瓶颈。

事实是，对于 NLP，可以说，识别了就是理解了，而识别可枚举的表达法不过是记忆而已，说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解能力/机制。

引用成语的本质是记忆，凡记忆电脑是大拿，人脑是豆腐。

当然要大词库，无论何种方式建立，只要想做就可以做，因此不是问题。所谓自然语言“理解”（NLU），就是把 open expressions 分解成词典单位（包括成语）的关系组合（术语叫 semantic compositionality）。凡事到了词典层，理解就终结了。无论semantic representation 如何摆弄，那都是系统内部的事情（system internal），与理解的本质无关。

灵玖软件,大数据搜索与挖掘技术服务商灵玖软件专注于大数据搜索与挖掘的技术创新与服务，提供大数据搜索、大数据挖掘与大数据应用解决方案，以应对大数据的管理、处理、分析并从大数据中获知识与智慧。灵玖软件：www.lingjoin.com 大数据论坛：www.bigdatabbs.com

562761013 1楼•13 年前作者