美文网首页
R语言——因子

R语言——因子

作者: 不止关心粮食和蔬菜 | 来源:发表于2020-04-27 17:26 被阅读0次

变量课归结为名义型、有序型或连续型变量。

名义型变量是美哟顺序之分的类别变量。有序型变量表示一种顺序关系,而非数量关系。连续型变量可以呈现为某个范围内的任意值,并同事表示了顺序和数量。

类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子决定了数据的分析方式以及如何进行诗句呈现。

函数(factor)以一个整数向量的形式存储类别值,整数的取值范围是[1...k](其中k是名义型变量中唯一值的个数)同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。

要表示有序型变量,需要为函数factor()指定参数order=TRUE。

对于字符型向量,因子的水平默认依字母顺序创建。但按字母顺粗排序的因子很少能让人满意,可通过指定levels选项来默认覆盖默认排序。

数值型变量可以用levels和lables参数来编码成因子。

因子的使用示例

首先,以向量形式输入数据,然后将diabetes和status分别制定为普通因子和有序型因子。最后,将数据合并为一个数据框。函数str(object)可提供R中某个对象的信息,它清楚的显示diabetes是一个因子,而status是一个有序型因子,以及此数据框在内部是如何进行编码的。

函数summary()会区别对待各个变量,它显示了连续性变量age的最小值、最大值、均值和各四分位数【四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。与中位数不同的是,四分位数位置的确定方法有几种,每种方法得到的结果会有一定差异,但差异不会很大,该解释来源于百度百科】,并显示了类别型变量diabetes和status的频数值。

相关文章

  • R 语言-因子

    1、变量分类: (1)连续型变量(2)名义型变量(3)有序型变量在 R 中,名义型变量和有序型变量称为因子(fac...

  • R语言 因子

    因子是用于对数据进行分类并将其存储为级别的数据对象。 它们可以存储字符串和整数。 它们在具有有限数量的唯一值的列中...

  • R语言——因子

    变量课归结为名义型、有序型或连续型变量。 名义型变量是美哟顺序之分的类别变量。有序型变量表示一种顺序关系,而非数量...

  • R语言基础--数据类型-总结

    R语言基础--数据类型-总结 1、R语言基础--数据类型之向量 2、R语言基础--数据类型之因子 3、R语言基础-...

  • R语言因子2021.2.1

    因子 在R语言中,变量可以分为名义型变量,有序型变量和连续型变量。其中数值型数据更容易是连续型变量,字符串型数据更...

  • 2018-04-19 PCA

    R语言主成分和因子分析篇 - CSDN博客 R语言做PCA的指导,很好 关于 R 中 princomp 和 prc...

  • R语言里面的因子

    R语言中的因子确实不好理解,很多人都这么觉得。在R语言中,因子(factor)表示的是一个符号、一个编号或者一个等...

  • 【R语言】因子在临床分组中的应用

    前面给大家简单介绍了 ☞【R语言】R中的因子(factor)[https://link.zhihu.com/?ta...

  • R 学习笔记(5) -- 因子和表

    因子 因子 (factor) 是 R 语言中许多强大运算的基础,包括许多针对表格数据的运算。因子的设计思想来源于统...

  • R语言入门2:数据结构-3

    6. 因子(farcor) 在R语言中,因子是用来处理分类数据的,分类数据又可以分为有序和无序。我们可以把因子简单...

网友评论

      本文标题:R语言——因子

      本文链接:https://www.haomeiwen.com/subject/qwquwhtx.html