作者:小甜甜龌龊的华丽 | 来源:互联网 | 2023-02-01 14:03
我正在使用tidytext
包R
进行n-gram分析.
由于我分析推文,我想保留@和#来捕获提及,转发和主题标签.但是,unnest_tokens
函数会自动删除所有标点符号并将文本转换为小写.
我发现unnest_tokens
有一个使用正则表达式的选项token='regex'
,所以我可以自定义它清理文本的方式.但是,它只适用于单字分析,并且不适用于n-gram,因为我需要定义token='ngrams'
进行n-gram分析.
有没有办法阻止unnest_tokens
在n-gram分析中将文本转换为小写?