我是NLP域的新手,但我目前的研究需要从URL地址进行一些文本解析(或称为关键字提取),例如假URL,
http://ads.goole.com/appid/heads
我的解析有两个约束,
第一个"广告"和最后一个"头"应该是不同的,因为"头部"中的"广告"意味着更多的后缀而不是广告.
"appid"可以解析为两部分; 这就是'app'和'id',它们都在互联网中具有语义含义.
我尝试过Stanford NLP工具包和Google搜索引擎.前者尝试用语法对每个单词进行分类,这意味着我的期望.谷歌引擎显示更多关于"appid"的智能,它给了我关于"app id"的建议.
我不能在Google搜索中查看搜索历史记录的引用,因此它给了我"app id",因为有很多人搜索过这些单词.我可以获得一些离线行方法来执行类似的解析吗?
更新:请跳过正则表达式建议,因为即使是简单的URL,也可能有未知数量的单词组合,例如"appid".
谢谢,
贾敏
而不是标记化,它真正想要做的事情称为分词.例如,这是一种了解航天的能力的方法.
我还没有完成整个教程,但这应该让你开始.他们甚至将网址作为潜在的用例.
http://jeremykun.com/2012/01/15/word-segmentation/