统计与机器学习的数据挖掘(第三版)

郑磊 原创 | 2018-10-25 06:55 | 收藏 | 投票

第三版序言

大数据的预测性分析法在本书第二版出版之后的四年来一直保持着稳定的热度。我之所以决定写作第三版,不是因为第二版的成功,而是来自我收到的大量正面反馈(来自读者的个人通信)。而且,重要的是,我需要分享我解决问题的方法。这些问题还没有被人们普遍接受的、可靠或者已知的解决方案。在前一版一样,推动统计发展的John Tukey原则,灵活性,实用性,创新性和普遍性,是各章的新分析法和建模方法论的试金石。

在准备第三版时,我有以下主要目标:

1. 扩充核心内容,包括解决问题的策略和方法,通过回顾预测分析会议记录和统计建模研讨会大纲,我在表[1]的统计数据之上进行了观察。

2. 重新编辑现有章节,提高写作质量,并修改结尾,使其更为紧凑。

3. 提供本书建议的分析方法和模型的统计子程序。我使用Base SAS©STAT/SAS。这些子程序也可以从我提供的网址 http://www.geniq.net/articles.html#section9下载。代码很容易转化成用户喜欢用的其他语言。

我在第二版的章节基础上,增加了13章新内容,这些新章节穿插在原来的章节中间,以最大限度保证内容的连续性。我把新章节简单罗列如下。

第二章是新加章节,接在第一章(导论)之后。这一章的题目是:数据处理的科学: 统计学与数据科学。如果人们不留意,可能就会有人敲击删除键,删掉统计学和统计师,代之以科学和数据科学家。我调查了是否近期出现的术语数据科学,意味着统计学是一个发展和扩展更快的领域的子集合,或者是否数据科学是对当前统计状态的强力掩盖。

第八章,市场份额估计:一个例外案例的数据挖掘,接在第七章有关主成分分析(PCA)之后。这一章介绍的一个市场份额估算模型,其独特之处是不采用常规的基于抽样调查的市场份额情境分析,而是采用PCA作为估算一个真实市场份额案例的基础。我提供了构建这例外案例研究的市场份额模型的SAS子程序。

11章,无调研数据预测钱夹份额,接在逻辑回归法的章节之后。这种预测钱夹份额(SOW)的日常方法需要调研数据。由于调研工作耗费时间,成本高,而且会出现不可靠数据,所以人们通常不喜欢采用。我提供一种无需数据就能预测SOW的两步法,第一步是通过定义一个伪SOW和模拟法对总金额进行估算。第二步采用分数逻辑回归法预测SOW_q。分数响应回归巧妙地将普通逻辑回归用于假设比例或速率的因变量。我给出了一个详细的案例分析和SAS子程序,读者会发现这个方法是个很有价值的工具。

19章,使用潜在类别分析的时间序列进行数据市场细分,接在使用逻辑回归法进行市场细分一章之后。在这一章里,提出了一种基于模型的潜在类别分析聚类方法(LCA)。这种细分的创新型策略包含在时间序列数据的应用之中。时间序列LCA模型完全是一种不同的方法,可以作为处理横截面数据集中的时间序列数据的一个模板,这种LCA的应用可以替代目前流行的基于数据的启发式k均值法。我提供了SAS子程序 ,可供数据挖掘者可以执行与我们演示示例类似的市场细分工作,还提供了一种将时间序列数据合并到其他横截面数据集的独特方法。

20章,市场细分:理解细分的一个简单途径,正好接在基于LCA的市场细分章节之后。文献通常会介绍各种聚类方法,其中任何一种都可以用来进行市场细分。相反,对于如何解读细分结果的文献却寥寥无几。本章提供了一种理解客户细分的简易方法。我用一个公认的简单例子来说明新方法,它不会掩盖这种方法的威力。本章提供了执行这种新方法所用的SAS子程序,数据挖掘者可以将这种有价值的统计技术纳入其工具箱。

21章,统计回归模型: 理解模型的一种简易途径,是第20章介绍的理解市场细分方法的一个扩展。本章目的是提供一个理解统计回归模型的简单方法,即普通最小二乘法和逻辑回归(LR)模型。我用一个LR模型演示了这种方法,展示了这种方法的威力,其中含有补充信息,用于弥补一直以来回归系数才能理解统计回归模型的不足。我提供了SAS子程序,可以作为其他统计方法的一个有价值的补充。

23章,用完全和不完全大数据建模,接在使用CHAD作为归责方法的章节之后。这一章无意中听到失踪的数据在警告统计学家:“除非你学会接受我,否则你是不会赢的。”传统的基于数据的方法(全案例分析),在大数据出现之前,几乎在对所有数据集的处理都会出现问题。这些方法现在能否有效用于大数据分析,引发了更大的疑虑。我提出了一个两步骤方法,即先用完全案例数据的响应建模,然后用PCA对不完全案例数据的响应建模。这两个模型可以分开单独使用,也可以根据任务目标联合使用。我提供了这种方法的SAS子程序,会成为统计建模者的一个有用技巧。

24章,艺术,科学,数字和诗歌,是艺术品、科学、数字和诗歌的高阶混合,它们曾受到过埃及金字塔、达芬奇和爱因斯坦的启发,不管你喜不喜欢,这一章对你的思考会有所启发。

27章,十进制分析:观点与表现,这是对前一章市场营销评估模型的补充。营销人员使用十进制分析来评估他们的响应模型对随机获得响应的预测性增量增益。我定义了两种新指标,响应模型十进制分析精度和机会模型十进制精度,可以让营销人员对随机模型上的响应模型的增量增益进行更深入的评估。我提供了构建这两种新指标的SAS 子程序和参考程序,这会成为市场营销统计师的一个可靠工具。

28章,净T-C升力模型:评估试验和控制运动的净效应,将评估响应模型的方法扩展到适当使用对照组(文献中使用诸如上升或净升力模型这类名称),以替代第27章中讨论的随机模型。有关净升力模型的文献有很多,有些是相互矛盾而且容易引起混淆。我提供了另一种方法,净T-C升力模型,这是一个简单、直观、可靠的、易于实现和理解的模型,减少了有关这个主题的文献之间的不相容情况。我提供了净T-C升力模型的SAS子程序,统计师可以用它运行净升力建模,而不必购买昂贵的软件。

34章,打开数据集: 数据全息图的12步程序,对于统计师来说,当他们迈出数据处理旅程的第一步时,这一章会给他们提供有价值的内容。我用散文的轻快笔法介绍了在打开数据集时该做哪些步骤。大家可以轻松读懂。我提供了这12个步骤的子程序,供有兴趣的读者练手。

43章,文本挖掘: 入门,示例和TXTDM软件, 这一章有三个目标:第一,作为一个入门指南,易读、简明而详尽,介绍文本挖掘中碰到的问题,以及如何进行基础的文本挖掘;第二,用小量文本展示了文本挖掘示例,内容很有趣;第三,提供了我的SAS子程序TXTDM ,有兴趣的读者可以用来进行文本挖掘。

44章,一些我喜欢的统计子程序,包括本书引用的部分子程序以及第二版那些不再保留数据的章节里的一些通用子程序。最后,我提供了一些我喜欢的几乎对所有分析都有帮助的子程序。

有关后续纠正修改的文字内容,我会发布在勘误表链接

http://www.geniq.net/articles.html#section9.

 

个人简介
战略与资本市场资深专家,南开大学经济学博士,荷兰maastricht管理学院mba。email:prophd@126.com, qq:401016706
每日关注 更多
郑磊 的日志归档
[查看更多]
赞助商广告