词与分词连写

时间:2022-04-13 19:38:10 教育新闻 我要投稿
  • 相关推荐

词与分词连写

汉字 文本 的 词 与 分词 连写 问题 

中文 具有 不 实行 分词 连写 的 传统。这 说明,在 通常 情况 下,中文 具有 不 分词 连写 也 不会 妨碍 书面 交流 的 能力。但 这 并不是 绝对的,中文 中 词 的 界线 有时 确实 因为 没有 分词 连写 而 显得 有些 模糊,甚至 会 造成 误解。 

中文 为什么 可以 不 分词 连写 呢?我 认为,这 是 由于 汉字的 字符 集 很 大,就算 常用的 国标 一 级 汉字 也有 3008 个。而 日常 常用的 词 也就是 那么 五、六 千 个,因此 字 与 字 之间 可能 形成 词 的 组合 的 可能性 很 小,因而 词 在 汉字 文本 中 比较 容易 被 人 筛选 出来,从而 一般 不会 影响 人们 对 文本 的 理解。 例如 下面 这个 句子: 

为实现中国的语文现代化而奋斗! 

人们 会 毫不费力地 把 它 理解 为: 

为 实现 中国 的 语文 现代化 而 奋斗! 

而 不 会 把 它 理解 为: 

为实 现中 国的语 文现 代化而奋 斗! 

但是,让 我们 再来 看一看 Philip Zhang[1] 常常 举 的 一 个 例子: 

韩廷顿首先到台湾国中学作报告。 

你 会 怎样 理解 这 个 句子 呢?如果 没有 词 连写 和 间隔 的 功能 存在,这 个 句子 可以 有 多 种 读法: 

韩廷 顿首 先 到 台湾国 中学 作 报告。 

韩廷 顿首 先 到 台湾 国中 学 作报告。 

韩廷顿 首先 到 台湾国 中学 作 报告。 

韩廷顿 首先 到 台湾 国中 学 作报告。 

从 语法 上 来说,这些 句子 都 是 正确的!为什么 会 这样 呢?这里 所 发生 的 就是 因 中文 不 实行 分词 连写 而 造成 的 词 界线 模糊 和 歧义 现象。当然,这 种 现象 在 日常 文字 生活 中 并不 十分 常见。 

如果 对于 我们 人类 来说,中文 是不是 分词 连写 都 关系 不大 的话,然而 对于 计算机 理解 自然 语言 来说 这种 区别 就 非常 大 了。 

我们的 计算机 专家 费了 九牛二虎 之 力,绞尽脑汁,都 还是 不 能 让 计算机 令人满意地 为 汉字 文本 做 自动 分词。他们 动用了 巨型的 词库,想出了 种种 人工 智能 方法,结果 还是 令 他们 难堪。我 不 知道 为什么 中国人 会 如此 “冷酷”地 对待 计算机,如此 “滥用” 我们的 计算机 专家,竟然 拿 我们 人类 之 所长 来 “虐待” 计算机。因为 毕竟,分词 对于 我们 来说 简直 是 小事 一 桩,顺手 加 一 个 空格 的 事,而 对于 一般的 计算机 来说 却 会 耗尽 它的 内存(巨型 词库),让 它 左右 为难(歧义 现象)。如果 计算机 有 灵,它 会 让 我们 算算 这 道 题:23223432534534345。“还 没有 算出来 呀,你们 真苯!”,计算机 会 说。 

冯 志伟 教授[2] 在 《绝妙的 空格》 一 文 中 “举 双 手 赞成” 米阿仑 关于 在 中文 中 用 空格 进行 分词 的 建议。这 就是 针对 中文 的 计算机 处理 而 言 的。 

综上所述,对于 汉字 文本 是否 需要 进行 分词 连写 的 问题,是不是 可以 这样 认为: 如果 我们 不 需要 计算机 处理 汉字 文本 则 我们 没有 太 大的 必要 进行 分词 连写,反之 我们 则 需要 进行 分词 连写。然而,应用 计算机 是 大势所趋,所以 我们 还是 分词 连写 明智 一些。多 敲 一 下 键盘,多 用 一 点 纸张,所 换来 的 是 “解放” 我们 宝贵的 计算机 资源,“解放” 我们 更加 宝贵的 计算机 专家,还 可 让 人们 养成 分词 的 习惯, 养成 清楚地 表达 自己的 思想 的 习惯,也 可 我们 最终 实现 汉语 拼音化 做 准备,真是 何乐 而 不为 呢? 

汉拼文 的 分词 连写 问题(待写) 

注: 

[1] Philip Zhang,“一不是一”,《语文与信息》第十期(1998年12月) 

[2] 冯志伟,“绝妙的空格”,《语文与信息》第十五期(2000年5月)