在子二次时间中删除"几乎重复"的字符串

 吴佳云怡婷志贤 发布于 2023-02-04 16:27

我正在尝试在真实的数据集(酒店评论)上进行机器学习.不幸的是,它受到垃圾邮件的困扰,垃圾邮件的形式几乎完全相同,这对我来说非常重要.

我想基于编辑距离或类似的东西从数据集中删除"几乎重复",并且由于数据集大小> 100K,因此算法必须是数据集大小的次级二次.现在我只能想到标记过于频繁重复的单个句子或短语,然后删除所有带有它们的评论,但很容易看出这种策略如何适得其反.有一个更好的常见算法吗?

撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有