美文网首页机器学习与数据挖掘
回归的一些面试问题(持续整理中)

回归的一些面试问题(持续整理中)

作者: 3b899188980c | 来源:发表于2018-04-11 09:41 被阅读79次

1、线性回归中的正规方程(normal equation)的推导


2、下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素:

A. 多项式的阶数

B. 是否通过矩阵求逆或梯度下降学习权重

C.使用常数项

答案:A

选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高,越容易产生过拟合现象。

3、假设您有一组实数输入变量和实数输出变量,线性回归(Y=bX+c)情况下的留一交叉验证(leave-one-out-cross-validation)的均方误差是多少?

A. 10/27

B. 20/27

C. 50/27

D. 49/27

答案:D

我们要计算每个交叉验证点的残差。用两点拟合出直线后,用剩下的那个点进行交叉验证。弃一交叉验证的均方差=(2^2 +(2/3)^2 +1^2) /3 = 49/27

4、 关于MLE(最大似然估计),下面哪一项或几项说法是正确的

1 MLE可能不存在

2 MLE总是存在

3 如果MLE存在,可能不是唯一的

4 如果MLE存在,肯定是唯一的

A. 1 and 4 B. 2 and 3 C. 1 and 3 D. 2 and 4

答案: C

MLE可以不是转折点,即,可以不是似然(和对数似然)函数的一阶导数的消失点。

MLE可以不是唯一的。

5、假设一个线性回归模型完美适合训练数据(训练误差为0),下面那个说法是错误的:

A. 你总是能获得测试误差为0

B. 你不能得到测试误差为0

C. 以上皆非

答案:C

测试误差有可能为0,假如测试数据里面没有噪声数据。或者说,如果测试数据能够完美表征训练数据集,测试误差即可为0,但测试数据不会总这样。

6、在线性回归问题中,我们使用决定系数 (R-squared)来测量拟合优度。我们在线性回归模型中添加一个特征值,并保留相同的模型。下面哪种说法是正确的?

A. 如果R-Squared增大,这个变量是显著的。

B. 如果R-Squared减小,这个变量是不显著的。

C. 单独观察R-Squared的变化趋势,无法判断这个变量是否显著。

D. 以上皆非

答案:C

决定变量的变化并不能独立决定某个变量的的显著程度,因为每当我们添加一个特征值的时候,R-squared可以增加或不变。但是如果是矫正后的决定系数,这种R-squared增大即该变量重要的说法肯定是不对的。

7、在推导线性回归参数时,我们会做出以下哪些假设?

1.因变量y和预测变量x之间的真实关系是线性的。

2.模型的误差在统计意义上是独立的。

3.误差通常分布是均值为0,且标准差为常数。

4.预测变量x是非随机的,而且不存在测量误差。

A.1,2,3

B.1,3,4

C1,3

D. 以上所有

答案:D

当我们推到回归参数的时候,我们会提出以上四项假设。。当任意一项假设不成立的时候,得到的模型将会是错误的。

8、解释一下偏差和方差以及它们产生的一些问题、解决方法(2018腾讯技术研究岗简答)

偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。

方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。

评价数据拟合程度好坏,通常用代价函数J(平方差函数)。如果只关注Jtrain(训练集误差)的话,通常会导致过拟合,因此还需要关注Jcv(交叉验证集误差)。

高偏差:Jtrain和Jcv都很大,并且Jtrain≈Jcv。对应欠拟合。
高方差:Jtrain较小,Jcv远大于Jtrain。对应过拟合。
下图d代表多项式拟合的阶数,d越高,拟合函数越复杂,越可能发生过拟合。

如何理解高偏差和高方差
1、高偏差对应着欠拟合,此时Jtrain也较大,可以理解为对任何新数据(不论其是否属于训练集),都有着较大的Jcv误差,偏离真实预测较大。
2、高方差对应着过拟合,此时Jtrain很小,对于新数据来说,如果其属性与训练集类似,它的Jcv就会小些,如果属性与训练集不同,Jcv就会很大,因此有一个比较大的波动,因此说是高方差。

实际优化过程中,更多的是调整防止过拟合参数λ,λ对应正则化系数(越大,对过拟合的限制越强)。下图为λ和Jtrain、Jcv理想曲线。


学习曲线
学习曲线是描述Jtrain和Jcv和数据样本规模的关系曲线。参见下图


左图对应高偏差(欠拟合),右图对应过拟合。可以看出当模型属于高偏差时,随着样本数据规模增大,性能不会有什么改善,过拟合中的误差则在持续减小。这个很好理解,欠拟合一般是模型比较简单,不能准确的描述数据特征,因此盲目增大数据量是没用的;而过拟合是模型比较复杂,描述数据过于准确了,因此增加一些数据量可以减小过拟合。

模型修改策略
过拟合:增大数据规模、减小数据特征数(维数)、增大正则化系数λ
欠拟合:增多数据特征数、添加高次多项式特征、减小正则化系数λ

实际优化过程中,我们的目标就是使模型处于欠拟合和过拟合之间一个平衡的位置。

ps:方差、偏差、误差是机器学习中的重要的基本概念,这边做一下拓展

9、假设我们已经由3次多项式回归的生成了数据(三次正好能拟合改组数据)。现在请考虑以下几种说法,并选择合适项。

1.简单线性回归将具有高偏差和低方差

2.简单线性回归将具有低偏差和高方差

3.三次多项式将具有低偏差和高方差

4.三次多项式将具有低偏差和低方差

A. Only 1

B. 1 and 3

C. 1 and 4

D. 2 and 4

答案:C

如果我们用更高次(大于3次)的多项式去拟合,会出现过拟合现象,因为模型将会变得更加复杂。如果我们用更低次(小于3次)的多项式去拟合,就意味着模型变得简单,所以在这种情况下会出现高偏差和低方差的情况。而在3次多项式的情况下,我们就会得到低方差低偏差。

10、假设你在训练一个线性回归模型,请看一下两点,哪个(些)说法是正确的?

如果我们拥有较少的数据,更容易发生过拟合的情况

如果假设空间很小,更容易产生过拟合的情况

A 两种说法都错

B 是错的,2是对的

C 1是对的,2是错的

D 两种说法都对

答案:C

  1. 具有一个比较小的训练集,很容易找到假设去拟合训练数据集,即为过拟合

  2. 我们能从偏差-方差平衡上来理解这点。当假设空间集比较小的时候,它具有更高的偏差和更低的方差,所以对于较小的假设空间,不太能找到合适的假设去拟合数据,这正是欠拟合。

11、假设我们对一组数据用Lasso回归去进行拟合,这组数据有100个特征值(X1,X2…X100)。现在,我们把其中一个特征值放大10倍(假设就是X1),然后重新用Lasso回归进行拟合,保持相同的正则化参数。下面那个选择是正确的?

A. X1很有可能被排除在模型外

B. X1很有可能被包含着模型内

C. 无法判断

D. 以上都不是

答案:B

大特征值è更小的系数è更小的Lasso惩罚项è更容易被保留

有关回归的问题可参考
https://joewellhe.github.io/post/%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/

相关文章

网友评论

    本文标题:回归的一些面试问题(持续整理中)

    本文链接:https://www.haomeiwen.com/subject/nyqahftx.html