美文网首页中文和汉字
从中文分词开始

从中文分词开始

作者: 谢子德 | 来源:发表于2013-11-05 23:07 被阅读198次

如果 中文 词语 之间 也 用 空格 分开,会不会 理解 起来 更好 更快 呢?对于 机器 来说 肯定 是的?

机器在识别像中文这样的自然语言时,第一步就是分词。然后根据每个词意思来理解整句。

那么人脑理解中文时是不是也要先分词呢,理解英文这样自带分词的语言时呢,跳过分词这个步骤了?那么中文母语者和英文母语者的大脑处理语言的过程就不一样了。

人脑可能会有一个语言库,里面会分级,比如有句子库、词库、字库,偏旁部首库,笔画库。常用的句子会有一个直接匹配,直接整句被解码。如果整句没有准确匹配或者模糊匹配,可能会分词,然后到词库一级去匹配,这一级也匹配不到,那么可能是一个新词,再到字库里去匹配,再分析这个新词可能是什么含义。

英文对应的会有句库,词库,词根词缀库,字母库。这样与中文对比是不是少了一级,中文的笔画对应英文字母,中文偏旁部首对应英文的词根词缀,中文的字和词是对应英文的词。(补:英文还有词组,但是中文的词不能对应。)

会不会使用中文的人,句库的句子数量要高于英文使用者。因为对于整句匹配来说,英文中分词的空格就是无意义的,但是占用了空间,中文的空间效率要高。但是中文整句匹配不成功时,要进行分词,英文不用,此时英文的时间效率又高。

机器做自然语言处理时,也需要对应的语料库。并且,如果机器的存储能力高于人类,以至于大部分语言内容都可以在句库一级直接匹配,以大数据的逻辑,是不是机器的理解能力会超过人类呢。这其中可能也会有空间换时间的问题,但是机器最起码可能会赶上人类。

还有一个关键的问题是创造力。即便机器储存一个比人脑更全的句库,如果没有创造力的话还是无法与人类匹敌。

创造本身是有逻辑的,还是偶然的呢?还是逻辑与偶然结合的呢?

有的人可能会相信直觉,认为那是灵机一动,来自于灵感,而不是来自于外部刺激与内部经验的结合。

一个理性的人,会认为创造力是有逻辑可寻的,是有原因的。受别人的影响而不自知,却当成是自己的灵感,是很愚蠢的事。这世界上根本就不存在灵感这回事。

这到底是不是一个因果逻辑的世界,是不是所有的事情都有其原因呢?

还是说,宏观上是一个逻辑的世界,微观上都是偶然的。又或者,微观上是有原因可寻的,宏观上是偶然的。

再或,是逻辑与偶然的结合。

相关文章

  • “结巴”中文分词:做最好的 Python中文分词组件

    “结巴”中文分词:做最好的 Python中文分词组件 1 jieba中文分词简介: 中文分词是中文NLP的第一步,...

  • 第3章 中文分词技术

    本章要点: 中文分词的概念与分类 常用分词的技术介绍 开源中文分词工具-Jieba简介 实战分词之高频词提取 中文...

  • 从中文分词开始

    如果 中文 词语 之间 也 用 空格 分开,会不会 理解 起来 更好 更快 呢?对于 机器 来说 肯定 是的? 机...

  • 配置Hanlp自然语言处理进阶

    中文分词 中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持jav...

  • 分词系统评测

    1.11款开放中文分词引擎大比拼 2.常用的开源中文分词工具 3.11大Java开源中文分词器的使用方法和分词效果...

  • python笔记 | 舆情分析如何做?

    中文分词原理及分词工具介绍 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切...

  • 中文分词

    用过的中文分词有jieba,hanlp,word,grid,standford.nlp。 从分词原理的直接到间接说...

  • 中文分词工具及中文语料资源

    关键词: 中文分词;分词;自然语言处理;中文语料 最近要做中文自然语言处理相关任务,牵涉到使用中文分词工具和相关算...

  • 结巴中文分词的用法

    jieba “结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to...

  • python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to...

网友评论

    本文标题:从中文分词开始

    本文链接:https://www.haomeiwen.com/subject/oayqtttx.html