我需要一些帮助来解决R中agrep包的具体参数.
就成本而言,所有,插入,删除和取代均具有"取代的最大数量/分数"整数或分数输入参数.
我已阅读有关它的文档,但我仍然无法弄清楚一些细节:
"cost = 1"和"all = 1"有什么区别?
如何解释小数,例如"cost = 0.1","inserts = 0.9","all = 0.25"等?
我理解Levenshtein距离的基础知识,但它如何应用于成本或所有参数?
对不起,如果这是相当基本的,但就像我说的,我读过的文档有点令人困惑.
提前致谢
不是100%肯定,但这是我的理解:
在max.distance
,cost
并且all
是可以互换的,如果你不指定一个costs
参数(这是一个参数); 如果你这样做,那么cost
将根据costs
你指定的插入/删除/替换的加权(按照)成本进行all
限制,而将限制这些操作的原始计数
分数表示pattern
您希望允许作为插入/删除/替换的参数中的字符数的一小部分(即10个字符模式上的0.1将允许1个更改).如果你指定costs
,那么它是模式*max(costs
)max.distance{insertions/deletions/substitutions}
中字符数的分数,尽管可能的分数是字符数*对应的costs
值.
我同意文档不尽可能完整.我通过构建简单的测试示例并弄乱它们来发现上述内容.您应该能够为自己做同样的确认,特别是最后一部分(即是否costs
影响分数测量max.distance{insertions/deletions/substitutions}
),我还没有测试过.