我致力于分类一些评论(段落)由多个句子组成.我通过libSVM在Weka中使用词袋功能对它们进行了分类.但是,我有另一个想法,我不知道如何实现:
我认为在评论中为每个句子创建基于语法和浅层语义的特征是值得尝试的.但是,由于段落的句子大小不同,我找不到任何顺序编码这些功能的方法.我想将这些特征保持在一个顺序中的原因是句子特征的顺序可以为分类提供更好的线索.例如,如果我有两个实例P1(有3个句子)和P2(2个句子),我会有一个这样的空格(假设每个句子有一个二进制特征作为a或b):
P1 - > abb/classX P2 - > ba/classY
所以,我的问题是我是否可以在特征空间中实现不同特征尺寸的分类?如果是的话,我可以在Weka,scikit-learn或Mallet中使用任何类型的分类器吗?我将不胜感激任何回应.
谢谢
无论实现如何,具有标准内核(线性,多边形,RBF)的SVM都需要固定长度的特征向量.您可以通过编码为布尔值来编码这些特征向量中的任何信息; 例如,收集语料库中出现的所有语法/语义特征,然后引入表示"在本文档中出现此类特征"的布尔值.如果重要的是捕获这些特征出现在多个句子中的事实,计算它们并使用将频率放在特征向量中(但一定要按文档长度标准化频率,因为SVM不是尺度不变的).