下载鸥 > 网站下载 > 开发教程 > Python

结巴分词的全模式、精确模式和搜索引擎模式用法与实例

345 2021-05-20 10:00:01

收藏
结巴分词的全模式、精确模式和搜索引擎模式用法与实例
结巴分词支持3种模式:全模式、精确模式和搜索引擎模式,不同的模式效果会有差异。

结巴分词的全模式、精确模式和搜索引擎模式用法与实例

三种模式

1.jieba.lcut(sentence):返回的是一个列表
seg_list = jieba.lcut("我来到北北京清华大学")
print(type(seg_list))
print(seg_list)

结巴分词的全模式、精确模式和搜索引擎模式用法与实例


2.jieba.cut(sentence, cut_all=False):返回的是一个迭代器,cut_all默认为False(精确模式),True(全模式)

seg_list = jieba.cut("我来到北北京清华大学", cut_all=True) # 结巴分词用于中文分词
print("Full Mode:", "/ ".join(seg_list)) #全模式:将语句所有可以组合的词分出来
seg_list = jieba.cut("我来到北北京清华大学", cut_all=False)
print("Default Mode:", "/ ".join(seg_list)) # 精确模式:将语句划分开
seg_list = jieba.cut("他来到了了网网易易杭研大大厦")
print(", ".join(seg_list))

结巴分词的全模式、精确模式和搜索引擎模式用法与实例


3.jieba.cut_for_search(sentence):返回一个迭代器

jieba.lcut_for_search(sentence):返回一个集合

搜索引擎模式:在精确模式的基础上,对长词在此划分,

seg_list = jieba.cut_for_search("我来到北北京清华大学")
print(type(seg_list))
print(", ".join(seg_list))
seg_list = jieba.lcut_for_search("我来到北北京清华大学")
print(type(seg_list))
print(seg_list)

结巴分词的全模式、精确模式和搜索引擎模式用法与实例
 

 

分词顺序

分词无论是全模式还是搜索引擎模式都是不会改变语句顺序的,即使语句中一些不相邻的字可以组成一个词,结巴分词并不会把他们划分为一个词。

本文地址:https://xzo.com.cn/develop/python/969.html

有帮助,很赞!

信息来源:cdsn
导出教程 下载word版教程
发表评论 共有条评论
关于Python

Python免费、开源、简单,且含有海量的库。其功能也十分强大,不仅可以做网站、做爬虫、还可以做大数据、做人脸识别,等等等等。如果是新手入门,我们建议是首选Python。

推荐Python开发教程
Python中文分词器准确度与性能测试(jieba、FoolNLTK、HanLP、THULAC、nlpir、ltp)
Python中文分词器准确度与性能测试(jieba、FoolNLTK、HanLP、THULAC、nlpir、ltp)

国内知名度比较高的Python中文分词有哈工大LTP、中科院计算所NLPIR、清华大...

0 531
结巴分词的全模式、精确模式和搜索引擎模式用法与实例
结巴分词的全模式、精确模式和搜索引擎模式用法与实例

结巴分词支持3种模式:全模式、精确模式和搜索引擎模式,不同的模式效果会有差...

0 344
python多线程的概念与好处
python多线程的概念与好处

但凡对电脑知识了解多一点的朋友可能就听说过进程,而如果对蜘蛛爬虫有了解,那...

0 392
怎样用python爬虫爬取百度搜索图片
怎样用python爬虫爬取百度搜索图片

python爬虫爬取百度图片是很多人python爬虫入门后一个重要的练手项目。一方...

40 350
python爬虫怎样入门?
python爬虫怎样入门?

爬虫软件很多,支持爬虫功能的语言也很多,而用python做爬虫,辅以包罗万象的pyth...

0 397
推荐插件
帝国cms联想词搜索高级搜索插件下载
帝国cms联想词搜索高级搜索插件下载

帝国CMS自带的搜索功能虽然强大,但也有很强的局限性 -- 必须关键词完全匹配...

0 621
帝国CMS内网用户静态站点文章访客统计插件
帝国CMS内网用户静态站点文章访客统计插件

本插件适用于内网用户,可查看单篇文章访问者ip地址。如果添加访问者ip组,可查...

0 459
帝国cms百度AI黑白图像上色api接口对接插件
帝国cms百度AI黑白图像上色api接口对接插件

百度开放了系列AI功能api如图像上色、图像去雾、图像修复、无损放大、清晰...

0 327
帝国cms在线考试系统模板插件
帝国cms在线考试系统模板插件

一直没看到好用的帝国cms在线考试插件,所以自己开发了一款。在线考试插件用...

0 1171
帝国cms百度文字识别ocr接口对接插件
帝国cms百度文字识别ocr接口对接插件

许多网站会做一些小功能小插件给客户使用以增强用户黏性,比如图片转文字,这种...

0 371
帝国cms网站会员登录与退出历史记录日志插件
帝国cms网站会员登录与退出历史记录日志插件

帝国cms默认只有上次登录时间与ip,没有一个记录清单,所以今天,我们分享这个帝...

0 284
帝国cms自动给正文关键词添加tag内链
帝国cms自动给正文关键词添加tag内链

帝国cms有自带的给关键词添加内链功能,但需要手动添加关键词,容易出现疏漏和...

0 676
帝国cms纳米数据接口(足球比赛中最新数据)
帝国cms纳米数据接口(足球比赛中最新数据)

帝国cms 对接纳米数据(www.nami.com)接口,本接口主要接收、整理足球比赛实时数...

0 178
客服QQ:341553759
扫码咨询 常见问题 >
官方交流群:90432500
点击加入