知网查重论文样例–数据挖掘建模标准CRISP-DM

知网查重论文样例--数据挖掘建模标准CRISP-DM

数据挖掘的跨行业标准过程CRISP-DM(Cross-Industry Standard Process for Data Mining)是由欧洲的几个公司通过研究讨论共同提出的一套标准,这些公司在数据挖掘领域均有一定的经验并且取得了不错的成果。该组织的成员包括SPSS、NCR、OHRA、Daimler-Chrysler等,其中统计分析软件供货商SPSS与数据仓储供货商NCR等主要负责数据挖掘软件开发,包括荷兰银行保险公司OHRA、德国汽车航天公司Daimler-Chrysler在内的其他厂商共同参与实验,通过操作整个流程,全方位的规划、设计,终于在2000年研发出了CRISP-DM 1.0模型,为数据挖掘建立了一个标准的流程。CRISP-DM模型非常重视数据挖掘过程的完整性,不仅含有与数据相关的处理过程,还包括理解企业的需求问题、模型评价与延伸应用。

1 Business Understanding(商业理解)

我们可以通过以下问题理解该流程:

您的目的是什么?想找到什么样的模式或者联系?

您要尝试解决的问题是否反映了业务策略或流程?

您是仅仅查找关注的信息,还是需要进一步建模预测?

您要尝试预测什么样的结果?

此外,我们需要思考怎样将模型结果纳入KPI(用于度量业务进度的关键绩效指标)。

2 Data Understanding(数据理解)

数据理解阶段需要建立数据库、分析数据。先收集初始数据,然后采用某些方法熟悉数据,首次发现数据的内部属性,根据需要进行数据筛选,整理所有可能有用的数据,然后对数据质量进行评估,有时候甚至需要整合不同数据库的数据,这需要根据具体情况而定。完成数据库建立工作后,展开数据分析工作,找出最强影响力的数据,根据结果判断是否需要继续收集更加详实的数据。

3 Data Preparation(数据准备)

企业各个部门都拥有丰富的数据资源,这些数据以不同的格式存储,原始数据可能含有错误项、缺失值或者不一致性。 例如,数据可能显示顾客购买的某产品还未推向市场,或者顾客在某家商店定期购买产品,可是这家商店距离他家2000公里等信息。数据准备阶段包括从未处理的数据中构造最终数据集的所有活动,建模时需要输入这些数据。该阶段没有明确的执行顺序,某些步骤可能需要反复执行。

值得注意的是:数据之间可能具有强相关性,当清洗数据时,需要找出这些高度隐藏的关联,确定适合分析的数据,以提高模型精度。

4 Modeling(建立模型)

建模阶段基本流程,不同的问题有不同的要求,需要根据具体情况选择分析技术,而不同的技术对数据的要求也可能不同,这时就需要重新进行数据预处理,得到符合要求的数据。

5 Evaluation and Explanation(评价和解释)

执行此阶段时需要关注一个重要的问题:回顾过程,与业务目标相关的、影响力大的因素是否全部考虑到了。该阶段结束,必须决定好使用哪个结果。

6 Deployment(部署)

部署,即将发现的结果及过程组织成为可读的文本形式。完成模型构建不代表项目结束,需求不同,部署阶段的复杂度也不同。很多案例中,常常是客户执行此过程,对他们来说,部署可以为正确使用模型奠定基础。此外,应用模型后,仍需要不断的检测,维护。

  • 知网查重论文样例–数据挖掘建模标准CRISP-DM已关闭评论
  • 2,036 views
    A+
发布日期:2017年03月11日  所属分类:论文检测样例
标签: