热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python中文分词统计,python

今天的任务是对txt文本进行分词,有幸了解到结巴中文分词,其愿景是做最好的Python中文分词组件。jieba支持三种分词模式:*精确模式,试图将句子最精确地切开,适合文本分析;*


今天的任务是对txt文本进行分词,幸运地了解到“结巴”的中文分词,其愿景是打造最好的Python中文分词组件。 感兴趣的人请点击这里。


jieba支持三种分词模式。


*正确模式,最准确地切分句子,适合文本分析;


*全模式,扫描句子中所有单词,速度非常快,但无法解决歧义;


*搜索引擎模式基于精确模式,对长词进行重新划分,提高召回率,适用于搜索引擎分词。


主要使用以下算法。


基于Trie树结构实现高效的单词图像扫描,生成由文中汉字所有可能单词情况组成的有向无环图(DAG )


*利用动态规划寻找最大概率路径,找到了基于词数的最大分割组合


*对于未登录词,采用了基于汉字成语能力的HMM模型,使用了Viterbi算法


以下是我做的一个小尝试,将txt文本分词,计数取得的分词,最后将结果写入result.txt。 代码如下。


---编码3360 utf-----8-------------------------------------------- - ----------------------------------------- -环境:以


importjiebaimportsys


重新加载(sys ) )。


sys.setdefaultencoding(UTF8 ) (deffenci ) argv ) :


filename=argv[1]


f=open (文件名称,' r ' ) ) ) ) ) )。


file_list=f.read (


f.close () )


seg_list=Jieba.cut(file_list,cut_all=True ) )。


TF={ } forseginseg _ list : # print seg


seg=''.join(seg.split ) ) ) if ) seg!='' and seg!='\n' and seg!='\n\n'(:ifsegintf:


tf[seg]=1


else:


TF[seg]=1f=open(result.txt ),w ) ) for item intf : #打印item


f.write(item''str ) TF[item]((n ' ) )


f.close (if _ name _ _==' _ _ main _ ' : fenci (sys.argv ) ) ) ) ) ) ) ) )


参考资料:


1 .结巴中文分词: https://github.com/fxsjy/jieba


2.demoofjieba:http://jiebademo.ap01.AWS.af.cm /


推荐阅读
  • 展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
author-avatar
痴情被撕碎的阳光
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有