NLP中的英文单词分词?

 U友50096560_359 发布于 2023-02-09 08:19

我是NLP域的新手,但我目前的研究需要从URL地址进行一些文本解析(或称为关键字提取),例如假URL,

http://ads.goole.com/appid/heads

我的解析有两个约束,

    第一个"广告"和最后一个"头"应该是不同的,因为"头部"中的"广告"意味着更多的后缀而不是广告.

    "appid"可以解析为两部分; 这就是'app'和'id',它们都在互联网中具有语义含义.

我尝试过Stanford NLP工具包和Google搜索引擎.前者尝试用语法对每个单词进行分类,这意味着我的期望.谷歌引擎显示更多关于"appid"的智能,它给了我关于"app id"的建议.

我不能在Google搜索中查看搜索历史记录的引用,因此它给了我"app id",因为有很多人搜索过这些单词.我可以获得一些离线行方法来执行类似的解析吗?

更新:请跳过正则表达式建议,因为即使是简单的URL,也可能有未知数量的单词组合,例如"appid".

谢谢,

贾敏

1 个回答
  • 而不是标记化,它真正想要做的事情称为分词.例如,这是一种了解航天的能力的方法.

    我还没有完成整个教程,但这应该让你开始.他们甚至将网址作为潜在的用例.

    http://jeremykun.com/2012/01/15/word-segmentation/

    2023-02-09 08:25 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有