下载鸥 > 网站下载 > 开发教程 > Python

结巴分词的全模式、精确模式和搜索引擎模式用法与实例

0 382 2021-05-20 10:00:01

收藏

本文目录

1. 三种模式
2. 分词顺序

结巴分词支持3种模式：全模式、精确模式和搜索引擎模式，不同的模式效果会有差异。

结巴分词的全模式、精确模式和搜索引擎模式用法与实例

结巴分词的全模式、精确模式和搜索引擎模式用法与实例

三种模式

1.jieba.lcut(sentence)：返回的是一个列表

seg_list = jieba.lcut("我来到北北京清华大学")
print(type(seg_list))
print(seg_list)

结巴分词的全模式、精确模式和搜索引擎模式用法与实例

2.jieba.cut(sentence, cut_all=False)：返回的是一个迭代器，cut_all默认为False(精确模式)，True(全模式)

seg_list = jieba.cut("我来到北北京清华大学", cut_all=True) # 结巴分词用于中文分词
print("Full Mode:", "/ ".join(seg_list)) #全模式：将语句所有可以组合的词分出来
seg_list = jieba.cut("我来到北北京清华大学", cut_all=False)
print("Default Mode:", "/ ".join(seg_list)) # 精确模式：将语句划分开
seg_list = jieba.cut("他来到了了网网易易杭研大大厦")
print(", ".join(seg_list))

结巴分词的全模式、精确模式和搜索引擎模式用法与实例

3.jieba.cut_for_search(sentence)：返回一个迭代器

jieba.lcut_for_search(sentence)：返回一个集合

搜索引擎模式：在精确模式的基础上，对长词在此划分，

seg_list = jieba.cut_for_search("我来到北北京清华大学")
print(type(seg_list))
print(", ".join(seg_list))
seg_list = jieba.lcut_for_search("我来到北北京清华大学")
print(type(seg_list))
print(seg_list)

结巴分词的全模式、精确模式和搜索引擎模式用法与实例

分词顺序

分词无论是全模式还是搜索引擎模式都是不会改变语句顺序的，即使语句中一些不相邻的字可以组成一个词，结巴分词并不会把他们划分为一个词。

本文地址：https://xzo.com.cn/develop/python/969.html

有帮助，很赞！

信息来源：cdsn

业务合作

如果您认可我们的分享，有意与我们合作开展帝国cms网站建设与开发业务或插件定制，请联系右侧在线客服。我们能给您的，就是高质量的模板与售后。

版权声明

标注了信息来源为下载鸥的文章皆为原创，如果是转载的优质文章，我们也都标注了出处。如果您喜欢我们的文章，请按照下载鸥所标注的文章出处进行标注，谢谢您的配合。

信息标签

廖雪峰Python3 Django刘江 anaconda创建、删除、退出环境等常用命令 python爬虫怎样入门？ Python中文分词器准确度与性能测试（jieba、FoolNLTK、HanLP、THULAC、nlpir、ltp） python多线程的概念与好处 python简单实现对桌面进行实时捕捉画面菜鸟php教程 Django重置管理员密码结巴分词的全模式、精确模式和搜索引擎模式用法与实例怎么在anaconda中卸载环境 Anaconda虚拟环境中怎么安装git？ Django报错巨坑TypeError: NoneType object is not callable Python项目里的:.2f是什么意思？怎样用python爬虫爬取百度搜索图片 Python和php谁会先被淘汰？ Python常用命令汇总（从创建到上线） conda pip 阿里云镜像与清华镜像

导出教程下载word版教程

关于Python

Python免费、开源、简单，且含有海量的库。其功能也十分强大，不仅可以做网站、做爬虫、还可以做大数据、做人脸识别，等等等等。如果是新手入门，我们建议是首选Python。

Python中文分词器准确度与性能测试（jieba、FoolNLTK、HanLP、THULAC、nlpir、ltp）

Python中文分词器准确度与性能测试（jieba、FoolNLTK、HanLP、THULAC、nlpir、ltp）

python爬虫怎样入门？

python爬虫怎样入门？

python多线程的概念与好处

python多线程的概念与好处

推荐Python开发教程

Python中文分词器准确度与性能测试（jieba、FoolNLTK、HanLP、THULAC、nlpir、ltp） 国内知名度比较高的Python中文分词有哈工大LTP、中科院计算所NLPIR、清华大...: 0 640

结巴分词的全模式、精确模式和搜索引擎模式用法与实例 结巴分词支持3种模式：全模式、精确模式和搜索引擎模式，不同的模式效果会有差...: 0 381

python多线程的概念与好处 但凡对电脑知识了解多一点的朋友可能就听说过进程，而如果对蜘蛛爬虫有了解，那...: 0 432

怎样用python爬虫爬取百度搜索图片 python爬虫爬取百度图片是很多人python爬虫入门后一个重要的练手项目。一方...: 40 386

python爬虫怎样入门？ 爬虫软件很多，支持爬虫功能的语言也很多，而用python做爬虫，辅以包罗万象的pyth...: 0 435

推荐插件

帝国cms网站会员登录与退出历史记录日志插件 帝国cms默认只有上次登录时间与ip，没有一个记录清单，所以今天，我们分享这个帝...: 0 374

帝国cms访问统计ip地址链接与封禁插件下载 下载鸥开发了这款帝国cms封禁ip插件，自动记录访问情况，让我们可以更快的识别...: 0 968

帝国cms批量添加后台用户插件 使用帝国cms的企业用户、新闻资讯类站点的用户很多，此类站点很多时候需要有...: 0 697

帝国cms智能自动审核按星期几审核指定栏目带推送插件 采集站的必备资源是自动审核，要做到日收录也离不开定时发布。而本插件的自动...: 0 1228

帝国cms联想词搜索高级搜索插件下载 帝国CMS自带的搜索功能虽然强大，但也有很强的局限性 -- 必须关键词完全匹配...: 0 695

帝国cms百度AI图像无损放大api接口对接插件 通过本插件，可以实现帝国cms网站对接百度云api实现图像无损放大的功能。经过...: 0 410

帝国cms在线考试系统模板插件 一直没看到好用的帝国cms在线考试插件，所以自己开发了一款。在线考试插件用...: 0 1248

帝国cms自动给正文关键词添加tag内链 帝国cms有自带的给关键词添加内链功能，但需要手动添加关键词，容易出现疏漏和...: 0 798

模板源码每日更新 14小时在线用户第一优质教程

下载鸥素材| 在线日志分析| 建站导航| 关于我们| 用户协议| 版权声明| 帮助中心| 标签地图| 栏目地图| 网站地图| 最新信息

Copyright © 2021 下载鸥 xzo.com.cn 版权所有

客服QQ:341553759

扫码咨询常见问题 >

官方交流群:90432500

点击加入

下载鸥官方群加群

下载鸥美工兼职加群下载鸥UI设计加群

点击查看更多