MIT OpenCourseWare
OCW Home Course List About OCW Help with OCW Feedback


Search
» 高级搜索
 课程主页
 教学大纲
 教学日程
 讲义
 作业
 考试
 学习资料

作业

本课程有两个主要的作业:

作业 1 问题集 1

问题1:Charles读书俱乐部的例子

阅读例子并回答在例子后面的所有问题:

读物:

Bhandari, Vinni, and Dr. Nitin Patel. Charles读书俱乐部的例子”

Levin, Nissan, and Jacob Zahav. A Case Study in Database Marketing(数据库营销方面的一个案例研究).” Tel Aviv University. Direct Marketing Educational Foundation, Inc.. March 1995.

Association of American Publishers. Industry Statistics, 2002.



Florence的艺术史

名为《Florence的艺术史》的一本新书已经准备发行了。 CBC已经给从其顾客库中随机选择的4000个顾客发了邮件。顾客的回复已经和过去购买记录做了比较。这些数据被随机地分成3个部分:训练数据(1800个顾客),最初用来拟合响应数据模型;验证数据(1400个顾客),提供数据用于比较不同响应模型的表现;测试数据(800个顾客),该数据只用于选定最终的模型后,用来估计使用模型时的准确性。样本数据在一个单独的电子表格 CBC_4000.xls (XLS)。在电子数据表中(而不是表头)的每行(或者每个事例)对应着一个市场测试顾客。每一列是一个变量,在表头中给出了每个变量的名称。变量名称和描述在如下表1所示:



表1:在CBC_4000.xls中的变量列表

变量名 描述
Seq#    在数据划分中的序号
ID# 在整个(没有划分的)市场测试数据集中的标识号
Gender  O=男 1=女
M 资金——花在书上总的钱数
R 崭新性——距离最后一次购买的月数
F 次数——总的购买次数
FirstPurch 第一次购买至今的月数
ChildBks  从儿童类图书中购买的数量
YouthBks  从青年类图书中购买的数量
CookBks  从厨艺类书中购买的数量
DoItYBks  从自助类书中购买的数量
RefBks  从参考类书(地图、百科辞典、字典)中购买的数量
ArtBks  从艺术类书中购买的数量
GeoBks  从地理类书中购买的数量
ItalCook  《意大利烹饪秘诀》一书的购买数量
ItalAtlas 《意大利历史版图》一书的购买数量
ItalArt 《意大利艺术》一书的购买量
Florence  =1 《Florence的艺术史》被购买,
=0 如果该书没有被购买
Related purchase  相关书被购买的数量



问题 2:“德国人信用”的例子 (PDF):
阅读例子并回答例子后面的问题。

“德国人信用”例子的数据(XLS)



作业  2   问题集 2

问题 1:

判别分析的一个通常应用是把债券分成不同级别。这些级别能够反映债券的风险并影响发行债券的公司的借款成本。从每年报告中精选出来的不同的财务比率 通常用于帮助决定公司债券的分级。

Excel电子数据表BondRatingProb1.xls (XLS) 包含着训练数据和验证数据两个表。这些数据是从COMPUSTAT财务数据记录中抽样出的95个公司的财务数据。公司债券通过Moody的债券分级(1980)把债券分为从AAA,最安全的,到C,风险程度最大的,共7个风险级别。对每个公司,数据包括十个财务变量。它们是:

LOPMAR: 营运利润率的对数 ,
LFIXMAR:税前固定费用偿付的对数,
LTDCAP:长期债务资本化,
LGERRAT:长期债务对总资产的对数,
LLEVER:杠杆的对数,
LCASHLTD:资金流对长期负债的对数,
LACIDRAT:酸性测试比率的对数,
LCURRAT:流动资产对流动负债的对数,
LRECTURN:流动比率的对数,
LASSLTD:净有形资产对长期负债的对数。

这些数据被分成在训练数据表中81个观测点和在验证数据表14个观测点。债券评级已被编码为在列中标题为CODERTG数字,AAA编码为1,AA编码为2等等。用XLMiner构造判别分析和神经网络模型去分类在验证数据表中的数据。你将需要为新数据选项打分。你所能发现的效果最好的分类器是什么?注意到类别变量是有序的(例如,AAA比AA要好,而AA要好于A)。是否有某个分类器的误分比其它的分类器更糟?如果是这样,你将如何衡量?

问题 2:

判断下列问题的正误并用一句话说明你的判断。

  1. 在线性回归中,对于一组自变量来说,调整的R2值通常高于R2的值。

  2. 在多元线性回归模型中,最有希望的变量子集是那些有较少变量并有较高Mallow的Cp值的子集。

  3. 一个没有隐层的神经网络通常用用 p 个输入变量x1, x2 … xp预测连续变量y。网络在训练数据集上训练并发现其在验证数据集中的误差平方和是SSN。带有为自变量x1, x2 … xp 和因变量y的多元线性回归模型适合于相同的验证数据。回归模型的残差平方和是SSR,SSR不会大于SSN。

  4. 当反向传播算法用于训练神经网络时,网络通常会在误差函数的全局或局部最小处停止。

  5. 训练神经网络的变量数等于网络所有节点数之和。

问题 3:

Excel电子数据表RegressionProb3.xls (XLS)包含名为训练数据和测试数据的两个表。我们用XLMiner根据训练数据建立两个模型,并用验证数据对比它们作为预测模型的性能。

  1. 模型1:根据训练数据建立从X1 到 X9 (常数项)的所有变量的多元回归模型。把这个模型的系数向量称为β1

  2. 只根据训练数据用XLMiner的子集选择去选择模型。称这个模型的系数向量为β2

  3. 用验证数据把β1拷贝到从B5到K5的单元格中,计算模型1的平均和标准偏差。对β2也同样处理。

  4. 分别从下面两个方面比较两个模型(i)预测的偏差;(ii) 预测的均方差。

问题 4:

Excel电子数据表NormalsProb4.xls (XLS)包含两组(组0和组1)共1000个观测点,并有两个变量(x和y)。

  1. 画出所有数据点的二维散点图。用不同方式标示出组1和组0的点 (例如,一个用'x',另一个用'o'),
    于是,可以观察出每组的分布情况;
     

  2. 把数据分成训练和测试集,分别包含600和400个观测点;


  3. 比较如下模型的表现: 
    • Logistic 回归 
    • 判别分析 
    • 神经网络 
    • k-最近邻分类

    记住对数回归和判别分析是线性分类器。-也就是,用平面把点分成不同的类。相对而言, 神经网络
    和k-最近相邻允许非线性分类(你能直观的根据地图想象后两种分类器如何把数据点分类?)。

     

  4. 对每个模型,画出性能最好的分类器的散点图。对每个图,显示如下一系列的点:
    • 组0中被正确分类的点
    • 组0中被误分的点,
    • 组1被正确分类的点,
    • 组1被误分的点。 

  5. 数据是被模拟的。(x,y)的值服从二值正态分布。最小误分的贝叶斯规则有错误率18.5%。你所做出最佳表现的分类器和上述的误分率有多接近?

    直观地解释:为什么某一类型的分类器会对这个数据有更好的表现。




 
MIT Home
Massachusetts Institute of Technology Terms of Use Privacy