问题 1:
判别分析的一个通常应用是把债券分成不同级别。这些级别能够反映债券的风险并影响发行债券的公司的借款成本。从每年报告中精选出来的不同的财务比率 通常用于帮助决定公司债券的分级。
Excel电子数据表BondRatingProb1.xls (XLS) 包含着训练数据和验证数据两个表。这些数据是从COMPUSTAT财务数据记录中抽样出的95个公司的财务数据。公司债券通过Moody的债券分级(1980)把债券分为从AAA,最安全的,到C,风险程度最大的,共7个风险级别。对每个公司,数据包括十个财务变量。它们是:
LOPMAR: 营运利润率的对数
,
LFIXMAR:税前固定费用偿付的对数,
LTDCAP:长期债务资本化,
LGERRAT:长期债务对总资产的对数,
LLEVER:杠杆的对数,
LCASHLTD:资金流对长期负债的对数,
LACIDRAT:酸性测试比率的对数,
LCURRAT:流动资产对流动负债的对数,
LRECTURN:流动比率的对数,
LASSLTD:净有形资产对长期负债的对数。
这些数据被分成在训练数据表中81个观测点和在验证数据表14个观测点。债券评级已被编码为在列中标题为CODERTG数字,AAA编码为1,AA编码为2等等。用XLMiner构造判别分析和神经网络模型去分类在验证数据表中的数据。你将需要为新数据选项打分。你所能发现的效果最好的分类器是什么?注意到类别变量是有序的(例如,AAA比AA要好,而AA要好于A)。是否有某个分类器的误分比其它的分类器更糟?如果是这样,你将如何衡量?
问题 2:
判断下列问题的正误并用一句话说明你的判断。
-
在线性回归中,对于一组自变量来说,调整的R2值通常高于R2的值。
-
在多元线性回归模型中,最有希望的变量子集是那些有较少变量并有较高Mallow的Cp值的子集。
-
一个没有隐层的神经网络通常用用 p 个输入变量x1, x2 … xp预测连续变量y。网络在训练数据集上训练并发现其在验证数据集中的误差平方和是SSN。带有为自变量x1, x2 … xp 和因变量y的多元线性回归模型适合于相同的验证数据。回归模型的残差平方和是SSR,SSR不会大于SSN。
-
当反向传播算法用于训练神经网络时,网络通常会在误差函数的全局或局部最小处停止。
-
训练神经网络的变量数等于网络所有节点数之和。
问题 3:
Excel电子数据表RegressionProb3.xls (XLS)包含名为训练数据和测试数据的两个表。我们用XLMiner根据训练数据建立两个模型,并用验证数据对比它们作为预测模型的性能。
-
模型1:根据训练数据建立从X1 到 X9 (常数项)的所有变量的多元回归模型。把这个模型的系数向量称为β1。
-
只根据训练数据用XLMiner的子集选择去选择模型。称这个模型的系数向量为β2。
-
用验证数据把β1拷贝到从B5到K5的单元格中,计算模型1的平均和标准偏差。对β2也同样处理。
-
分别从下面两个方面比较两个模型(i)预测的偏差;(ii) 预测的均方差。
问题 4:
Excel电子数据表NormalsProb4.xls (XLS)包含两组(组0和组1)共1000个观测点,并有两个变量(x和y)。
-
画出所有数据点的二维散点图。用不同方式标示出组1和组0的点 (例如,一个用'x',另一个用'o'),
于是,可以观察出每组的分布情况;
-
把数据分成训练和测试集,分别包含600和400个观测点;
-
比较如下模型的表现:
-
Logistic 回归
-
判别分析
-
神经网络
-
k-最近邻分类
记住对数回归和判别分析是线性分类器。-也就是,用平面把点分成不同的类。相对而言,
神经网络
和k-最近相邻允许非线性分类(你能直观的根据地图想象后两种分类器如何把数据点分类?)。
-
对每个模型,画出性能最好的分类器的散点图。对每个图,显示如下一系列的点:
-
组0中被正确分类的点
-
组0中被误分的点,
-
组1被正确分类的点,
-
组1被误分的点。
-
数据是被模拟的。(x,y)的值服从二值正态分布。最小误分的贝叶斯规则有错误率18.5%。你所做出最佳表现的分类器和上述的误分率有多接近?
直观地解释:为什么某一类型的分类器会对这个数据有更好的表现。