在R中重新编码变量,似乎是我最大的头痛。您使用哪些功能、包和流程来确保最佳结果
我在互联网上发现了很少有用的例子,这些例子提供了一个一刀切的解决方案来重新编码,我很想看看你们这些家伙和女孩在用什么
注意:这可能是一个社区wiki主题
重新编码可能意味着很多事情,而且从根本上说是复杂的
可以使用levels功能更改系数的级别:
>#改变因子的水平
&燃气轮机;级别(退伍军人$celltype)<;-c(“s”、“sc”、“a”、“l”)
转换连续变量仅涉及向量化函数的应用:
>;mtcars$mpg.log<;-日志(mtcars$mpg)
对于装箱连续数据,请查看cut和cut2(在hmisc包中)。例如:
>#以相同的样本大小分成4组
&燃气轮机;mtcars[[mpg.tr']]<;-cut2(mtcars['mpg']],g=4)
&燃气轮机#使4组具有相等的料仓宽度
&燃气轮机;mtcars[[mpg.tr2']]<;-切割(mtcars[['mpg']],4,包括。最低=真)
对于将连续变量或因子变量重新编码为分类变量,car软件包中有recode,演绎器软件包中有recode.variables
>;mtcars[c(“mpg.tr2”)]<;-记录变量(mtcars[c(“mpg”)],“Lo:14->;‘low’;14:24->;‘mid’;else->;‘high’”)
如果您正在寻找GUI,Deverter将使用Transform和Recode对话框实现重新编码:
http://www.deducer.org/pmwiki/pmwiki.php?n=Main.TransformVariables
http://www.deducer.org/pmwiki/pmwiki.php?n=Main.RecodeVariables