第6章 业务理解
数据挖掘过程并不是一个纯技术的过程,而是一个业务和技术相结合过程,或者说技术为业务服务的过程。片面地追求技术指标往往使得项目失败。数据挖掘算法相当于一个工具,如何使用这个工具非常重要。工具先进不见得就能得出好的项目结果,就如同有一架世界**的钢琴摆在面前,不是谁都能弹出*动听的曲子一样。而有些人则能在一架不起眼的钢琴上弹奏出优美的旋律。
在数据挖掘过程中,对业务的理解很大程度决定了*终结果的成败,在实际项目中,有很多这样的例子。例如,在一个预测移动用户流失的项目中,如果只是简单地追求预测的高准确率,而不考虑项目的目的是为了挽留这些用户,那么很可能的结果就是很高的预测准确率,但是在去找这些用户的时候,发现都已经无法联系了——模型确实很准确,找到了已流失的用户,但对客户来说毫无帮助。
因此,在启动一个数据挖掘过程时,首先要做的是对业务进行理解,确定客户的需求是什么,要达到什么样的业务目标;再根据客户的业务目标制定数据挖掘的目标;然后根据对目标的理解收集相关的数据和进行数据处理。
6.1 需求分析
需求分析的目的是熟悉相关业务,明确希望通过数据挖掘达到的业务目标。只有熟悉了相关业务,才能深刻地理解数据的含义,确定项目的范围,把业务问题正确地转换为定义良好的数据挖掘过程。
6.1.1 需求分析的内容
1. 相关业务
相关业务包括组织结构、业务流程及存在问题。数据挖掘系统需要能解决实际的业务问题,才能保证它的成功。需要确定谁是数据挖掘结果的*终用户,现有的业务流程是怎样的,存在一些什么问题,数据挖掘如何改进业务流程,要达到什么样的目标。
注意业务目标和数据挖掘目标是不同的。业务目标是从业务角度对数据挖掘过程要获得的目标的描述。例如,发现客户流失的模式,并利用该模式进行营销活动。数据挖掘目标是从数据挖掘角度对数据挖掘过程要获得的目标的描述。例如,以60%的准确率预测将要流失的客户。
在业务分析过程中,需要注意哪些因素对业务问题的影响是*重要的。在建模过程中,一组好的变量(代表关键因素)可能对模型的*终效果起决定性作用。
……