R无效的多字节字符串1

 萧逸 发布于 2022-12-13 08:30

我是R软件的新手

现在,使用"tm"包研究文本挖掘"

我有一个关于将文本映射到小写的问题

sms_raw<-read.csv(............)
sms_corpus<-Corpus(VectorSource(sms_raw$text)) 
sms_corpus<-Corpus(VectorSource(sms_raw$text))  
tm_map(sms_corpus,content_transformer(tolower))   
error:invalid multubytes string 1

我以为我的csv文件可能不是utf-8所以我恢复为utf-8但它没有用.

我的操作系统是win8.1

有人解决这个问题请告诉我.

1 个回答
  • 我通过编码功能很容易解决的错误

    在我的文件列中,文本名称包含多字节字符

    所以我输入

    sms_raw$text <- iconv(enc2utf8(sms_raw$text),sub="byte")
    

    此命令将"text"列(多字节)转换为utf8格式

    2022-12-13 08:36 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有