主页 > 谷歌SEO > 【下载】百度分词技术和算法详解

【下载】百度分词技术和算法详解

一、什么是中文分词?

 

百度分词技术就是百度针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。

 

中文分词指的是将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,所谓分词就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词,词是最小的、能独立活动的、有意义的语言成分。

 

我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。

 

中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

 

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词?哪些不是词?但如何让计算机也能理解?其处理过程就是分词算法。

 

计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库,中文信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位,当汉字由句转化为词之后,才能使得句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理具有可行性,可以说,分词是机器语言学的基础。
 

 

二、搜索引擎中文分词技术

 

搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。

 

分词例子:我/是/一个/学生


三、搜索引擎分词技术简述

 

1.基于字符串匹配的分词方法

 

按照一定的策略将待分析的汉字串与一个极其词库中的词条进行匹配。

 

常用分词的方法:

 

正向最大匹配法(由左到右的方向)

 

分词测试例子:我/有意/见/分歧

 

反向最大匹配法(由右到左的方向)

 

分词测试例子:我/有/意见/分歧

 

据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反

 

向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。

 

2.基于统计的分词方法

 

相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。

 

3.基于理解的分词方法

 

在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。

 

百度分词技术经典详解下载地址:  下载解压以后只能点击只读才能看的
 

原标题:【下载】百度分词技术和算法详解


发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

56谷歌SEO优化致力于提供最专业的谷歌SEO优化,外贸SEO推广及外贸建站服务。通过Google优化提升网站搜索排名,打破谷歌推广高价门槛,让你能够以最低的成本做好谷歌优化,提高Google排名。

Copyright 2015—2018 网站地图|网站地图txt