热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

情感分析模型,情感分析

训练数据集:有157637条,主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)训练集数据存在重复:去重后有150875训练集分布:正面

训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)

训练集数据存在重复:去重后有150875

训练集分布:正面:负面:中性  占比为:

                     训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:

类别定义样本数簇个数 大簇超过3000个样本34701 中等簇大于1000小于3000137758 小簇大于100小于100076051 305 微小簇大于32小于10031986565 超小簇大于1小于32313813514 单点等于114741474 

从表格可以看出大量数据是样本是在超小簇里或者单点里,可能会导致欠拟合。

 

测试数据集:有51944个样本,正面:负面:中性占比为:

最好单模型单通道textcnn:

维度正面负面中性正面8346942668负面15561533458 中性1099138528586

 

维度精确率召回率f1正面0.86940.75140.8061负面0.80620.63000.7073中性0.82350.92010.8691

总体准确率(accuracy):0.8295

可以看出准确率方面:负面、中性低于 0.85, 召回率方面:正面、负面低于0.85, 特别是负面召回不足。

从51944条测试数据中分别抽取正面-正面,正面-负面,正面-中性;负面-正面,负面-中性,负面-负面; 中性-正面,中性-负面,中性-中性各100条数据,共900条数据,结论如下

pos_neg

badcase类别  说明 示例 数量混合型 对不同评论对象有不同情感利好 人 瘦 滚蛋66对比型 回复 蜜桃 噢 尼 女的 比 男的 好看 多了9推理型  已 看 电影 虽然 有点 烂尾 总体来说 不错 哦3难以判断  听说 明天 又要 千股 跌停 好激动 好紧张2    

pos_neu

badcase类别说明 示例  数量混合型 他 俩 在一起 简直 完美 但是 单打独斗 时候 都 不行7否定句 新年 新气象 爱 柳岩 无 遗憾2句子太短   牛逼 13句子太长 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至 少 万家 五万名 股东 来 个 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至少 万家 五万名 股东 来 个 开门红 14泛化能力差   收购 纽交所 股权 应是 大 利 好!48

neg_pos

badcase类别 说明 示例数量否定句 回复 布达佩斯 跨年 确实 没 辣么 精彩8反否句 恭喜 西旅 与 赛 石 合作 失败 3反问 为什么 我想要 这么 简单 却 无法 满足 为什么 幸福 和 快乐 总和 我 隔 得 这么 遥远6太长 行 大家 别 质问 老 安 老 安比 你们 对 撕 家 更 上心 他 当然 会 做出 对 撕 家 最好的 决定 小 走了 这 也许 是 命中注定 但是 撕 家 还在 呀 我们   可以 继续爱 他们 一家32
推荐阅读
  • IOS开发之短信发送与拨打电话的方法详解
    本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式,一种是使用系统底层发送,虽然无法自定义短信内容和返回原应用,但是简单方便;另一种是使用第三方框架发送,需要导入MessageUI头文件,并遵守MFMessageComposeViewControllerDelegate协议,可以实现自定义短信内容和返回原应用的功能。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • C语言注释工具及快捷键,删除C语言注释工具的实现思路
    本文介绍了C语言中注释的两种方式以及注释的作用,提供了删除C语言注释的工具实现思路,并分享了C语言中注释的快捷键操作方法。 ... [详细]
  • 去掉空格的方法——Python工程师招聘标准与实践
    本文介绍了去掉空格的方法,并结合2019独角兽企业招聘Python工程师的标准与实践进行讨论。同时提供了一个转载链接,链接内容为更多相关信息。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • switch语句的一些用法及注意事项
    本文介绍了使用switch语句时的一些用法和注意事项,包括如何实现"fall through"、default语句的作用、在case语句中定义变量时可能出现的问题以及解决方法。同时也提到了C#严格控制switch分支不允许贯穿的规定。通过本文的介绍,读者可以更好地理解和使用switch语句。 ... [详细]
  • 本文介绍了一种解析GRE报文长度的方法,通过分析GRE报文头中的标志位来计算报文长度。具体实现步骤包括获取GRE报文头指针、提取标志位、计算报文长度等。该方法可以帮助用户准确地获取GRE报文的长度信息。 ... [详细]
  • Go Cobra命令行工具入门教程
    本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中,如Kubernetes、Hugo和Github CLI等。通过使用Cobra,我们可以快速创建命令行工具,适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]
  • 开发笔记:实验7的文件读写操作
    本文介绍了使用C++的ofstream和ifstream类进行文件读写操作的方法,包括创建文件、写入文件和读取文件的过程。同时还介绍了如何判断文件是否成功打开和关闭文件的方法。通过本文的学习,读者可以了解如何在C++中进行文件读写操作。 ... [详细]
  • 本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出,并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码,并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作,但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]
  • 本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量,或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频,只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量,只有使用JAVA编写Android客户端才能实现压缩。此外,作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因,并提供了解决方法。最后,作者还介绍了一个用于处理图片的类,可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]
  • 本文讨论了如何在codeigniter中识别来自angularjs的请求,并提供了两种方法的代码示例。作者尝试了$this->input->is_ajax_request()和自定义函数is_ajax(),但都没有成功。最后,作者展示了一个ajax请求的示例代码。 ... [详细]
  • 本文讨论了编写可保护的代码的重要性,包括提高代码的可读性、可调试性和直观性。同时介绍了优化代码的方法,如代码格式化、解释函数和提炼函数等。还提到了一些常见的坏代码味道,如不规范的命名、重复代码、过长的函数和参数列表等。最后,介绍了如何处理数据泥团和进行函数重构,以提高代码质量和可维护性。 ... [详细]
  • 本文介绍了Oracle存储过程的基本语法和写法示例,同时还介绍了已命名的系统异常的产生原因。 ... [详细]
author-avatar
手机用户2502913123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有