分词是什么(什么是NLP里的分词)

分词是什么(什么是NLP里的分词)

分词是 NLP 的基础任务,将句子,段落分解为字词单位,方便后续的处理的分析。

1481百科网小编在本文中将介绍分词的原因,中英文分词的3个区别,中文分词的3大难点,分词的3种典型方法。最后将介绍中文分词和英文分词常用的工具。

什么是分词?

分词是 自然语言理解 – NLP 的重要步骤。

分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

分词是什么(什么是NLP里的分词)

为什么要分词?

1.将复杂问题转化为数学问题

在 机器学习的文章 中讲过,机器学习之所以看上去可以解决很多复杂的问题,是因为它把这些问题都转化为了数学问题。

而 NLP 也是相同的思路,文本都是一些「非结构化数据」,我们需要先将这些数据转化为「结构化数据」,结构化数据就可以转化为数学问题了,而分词就是转化的第一步。

分词是什么(什么是NLP里的分词)

2.词是一个比较合适的粒度

词是表达完整含义的最小单位。

字的粒度太小,无法表达完整含义,比如”鼠“可以是”老鼠“,也可以是”鼠标“。

而句子的粒度太大,承载的信息量多,很难复用。比如”传统方法要分词,一个重要原因是传统方法对远距离依赖的建模能力较弱。”

分词是什么(什么是NLP里的分词)

3. 深度学习时代,部分任务中也可以「分字」

深度学习时代,随着数据量和算力的爆炸式增长,很多传统的方法被颠覆。

分词一直是 NLP 的基础,但是现在也不一定了,感兴趣的可以看看这篇论文:《Is Word Segmentation Necessary for Deep Learning of Chinese Representations?》。

分词是什么(什么是NLP里的分词)

不过在一些特定任务中,分词还是必要的。如:关键词提取、命名实体识别等。

中英文分词的3个典型区别

分词是什么(什么是NLP里的分词)

区别1:分词方式不同,中文更难

英文有天然的空格作为分隔符,但是中文没有。所以如何切分是一个难点,再加上中文里一词多意的情况非常多,导致很容易出现歧义。下文中难点部分会详细说明。

区别2:英文单词有多种形态

英文单词存在丰富的变形变换。为了应对这些复杂的变换,英文NLP相比中文存在一些独特的处理步骤,我们称为词形还原(Lemmatization)和词干提取(Stemming)。中文则不需要

词性还原:does,done,doing,did 需要通过词性还原恢复成 do。

词干提取:cities,children,teeth 这些词,需要转换为 city,child,tooth”这些基本形态

区别3:中文分词需要考虑粒度问题

例如「中国科学技术大学」就有很多种分法:

  • 中国科学技术大学
  • 中国 科学技术 大学
  • 中国 科学 技术 大学

粒度越大,表达的意思就越准确,但是也会导致召回比较少。所以中文需要不同的场景和要求选择不同的粒度。这个在英文中是没有的。

中文分词的3大难点

分词是什么(什么是NLP里的分词)

难点 1:没有统一的标准

目前中文分词没有统一的标准,也没有公认的规范。不同的公司和组织各有各的方法和规则。

难点 2:歧义词如何切分

例如「兵乓球拍卖完了」就有2种分词方式表达了2种不同的含义:

  • 乒乓球 拍卖 完了
  • 乒乓 球拍 卖 完了

难点 3:新词的识别

信息爆炸的时代,三天两头就会冒出来一堆新词,如何快速的识别出这些新词是一大难点。比如当年「蓝瘦香菇」大火,就需要快速识别。

3种典型的分词方法

分词是什么(什么是NLP里的分词)

分词的方法大致分为 3 类:

  1. 基于词典匹配
  2. 基于统计
  3. 基于深度学习

给予词典匹配的分词方式

优点:速度快、成本低

缺点:适应性不强,不同领域效果差异大

基本思想是基于词典匹配,将待分词的中文文本根据一定规则切分和调整,然后跟词典中的词语进行匹配,匹配成功则按照词典的词分词,匹配失败通过调整或者重新选择,如此反复循环即可。代表方法有基于正向最大匹配和基于逆向最大匹配及双向匹配法。

基于统计的分词方法

优点:适应性较强

缺点:成本较高,速度较慢

这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。

基于深度学习

优点:准确率高、适应性强

缺点:成本高,速度慢

例如有人员尝试使用双向LSTM+CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型,据报道其分词器字符准确率可高达97.5%。

常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。

中文分词工具

下面排名根据 GitHub 上的 star 数排名:

  1. Hanlp
  2. Stanford 分词
  3. ansj 分词器
  4. 哈工大 LTP
  5. KCWS分词器
  6. jieba
  7. IK
  8. 清华大学THULAC
  9. ICTCLAS

英文分词工具

  1. Keras
  2. Spacy
  3. Gensim
  4. NLTK

总结

分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

分词的原因:

  1. 将复杂问题转化为数学问题
  2. 词是一个比较合适的粒度
  3. 深度学习时代,部分任务中也可以「分字」

中英文分词的3个典型区别:

  1. 分词方式不同,中文更难
  2. 英文单词有多种形态,需要词性还原和词干提取
  3. 中文分词需要考虑粒度问题

中文分词的3大难点

  1. 没有统一的标准
  2. 歧义词如何切分
  3. 新词的识别

3个典型的分词方式:

  1. 基于词典匹配
  2. 基于统计
  3. 基于深度学习

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1543321114@qq.com 举报,一经查实,本站将立刻删除。转载请注明出处:https://www.1481.net/m/22290.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年4月10日 上午9:37
下一篇 2023年4月10日 上午10:22

相关推荐

  • 名牌国产机械键盘(盘点六大国产机械键盘)

    随着国产外设的兴起,国产机械键盘也逐渐,走进我们的视野并且广受好评。1481百科网给大家介绍6个机械键盘的国货之光。 北京 01 / Varmilo阿米洛 国产自主轴的代表品牌,其静电容轴的产品灵敏度高、耐磨损、使用寿命很长,键帽更是处于业内第一梯队,适合喜欢原汁原味机械键盘的人群。 樱花机械键盘静电容 广东 02 / DURGOD杜伽 中端市场的后起之秀,...

    2023年2月20日 趣味百科
    55100
  • 中国各省人口排名 (中国那个省的人口最多呢)

    1481百科网整理分享:根据第七次全国人口普查结果,2021年5月11日,国家统计局网站将2020年11月1日零时我国大陆31个省、自治区、直辖市的常住人口有关数据予以公布。与2010年第六次全国人口普查相比,各省份常住人口排名有所变化。 前5名中,广东省、山东省、河南省仍牢牢占据前3,但原本第4位的四川已被江苏反超,滑落至第5位。 另外,在第六次人口普查中...

    2023年3月15日
    60400
  • cfa一级二级三级的区别(考过CFA一级和三级的考生实际年薪是怎样的)

    1481百科网整理分享:持有CFA证书就可以月薪十万,年薪百万,这快要变成CFA持证人特有的标签了。CFA只通过一级就可以年薪30万吗?通过三级就可以年薪百万吗?真实的情况是什么样的呢? 也经常有同学问:CFA一级过了能做什么?考完一级如果不继续考了,那么CFA一级的candidate含金量如何? 01 考过CFA一级的价值 考过CFA一级即占优势的岗位有(...

    2023年3月19日 趣味百科
    63300
  • 自由职业者是什么意思(自由职业者究竟是什么意思呢)

    1481百科网整理分享:灵活就业已经成为我国劳动者就业的新常态了,据人社部门统计我国灵活就业人员数量已经超过了两亿人,占全部就业人员数量的四分之一以上。 灵活就业人员,一般也称为自由职业者。主要指的是从事职业灵活多变,主要以劳务服务为主,没有固定的用工单位的个人。比如说我们小区周边的家政、维修,自由从业的撰稿人、设计师、法律服务者、模特、歌手、自媒体人员等等...

    2023年3月11日
    3.7K00
  • 乌龟怎么放生(龟可以放生吗)

    放生这一行为,近年来似乎一直都是热度不减啊。偶尔还能从新闻上看到场面宏大的放生仪式。我国汉地的放生活动古已有之,都体现了古人保护生命,爱护自然的精神。但持续而广泛的放生习俗还是由佛教传入我国的。 放生的初衷是好的,为了让动物们回到大自然的怀抱,维持生态链的稳定,物种平衡。这是最理想的状态了,但是事实上是如此吗?相信大家都应该有所了解吧,这些年的放生问题。 很...

    2023年6月2日 趣味百科
    50700

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

QQ:1543321114

在线咨询: QQ交谈

邮件:1543321114@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息