目录
第1章数据分析过程的主要问题
1.1业务理解
1.2数据理解
1.3数据质量问题与预处理
1.4数据分析常见陷阱
1.5数据分析方法的选择<p> </p> <p>目录</p> <p> </p> <p>第1章数据分析过程的主要问题</p> <p> </p> <p>1.1业务理解</p> <p> </p> <p>1.2数据理解</p> <p> </p> <p>1.3数据质量问题与预处理</p> <p> </p> <p>1.4数据分析常见陷阱</p> <p> </p> <p>1.5数据分析方法的选择</p> <p> </p> <p>1.5.1分类算法</p> <p> </p> <p>1.5.2聚类算法</p> <p> </p> <p>1.5.3关联分析</p> <p> </p> <p>1.5.4回归分析</p> <p> </p> <p>1.5.5深度学习</p> <p> </p> <p>1.5.6统计方法</p> <p> </p> <p>1.6数据分析结果的评价</p> <p> </p> <p>1.6.1分类算法的评价</p> <p> </p> <p>1.6.2聚类结果的评价</p> <p> </p> <p>1.6.3关联分析的评价</p> <p> </p> <p>1.6.4回归分析结果的评价</p> <p> </p> <p>1.6.5深度学习的评价</p> <p> </p> <p>1.7数据分析团队的组建</p> <p> </p> <p>1.7.1项目经理</p> <p> </p> <p>1.7.2业务专家</p> <p> </p> <p>1.7.3数据工程师</p> <p> </p> <p>1.7.4数据建模人员</p> <p> </p> <p>1.7.5可视化人员</p> <p> </p> <p>1.7.6评估人员</p> <p> </p> <p>1.8数据分析人才培养的难题</p> <p> </p> <p>1.8.1数理要求高</p> <p> </p> <p>1.8.2跨学科综合能力</p> <p> </p> <p>1.8.3国内技术资料少</p> <p> </p> <p>1.8.4实践机会少</p> <p> </p> <p>第2章数据挖掘算法的选择——保险产品**</p> <p> </p> <p>2.1业务理解</p> <p> </p> <p>2.2数据分析目标</p> <p> </p> <p>2.3数据探索</p> <p> </p> <p>2.3.1数据质量评估</p> <p> </p> <p>2.3.2探索数据统计特性</p> <p> </p> <p>2.3.3数据降维</p> <p> </p> <p>2.4模型选择过程</p> <p> </p> <p>2.4.1算法初选</p> <p> </p> <p>2.4.2算法验证</p> <p> </p> <p>2.4.3算法优化</p> <p> </p> <p>2.4.4平衡数据集</p> <p> </p> <p>2.4.5修改模型参数</p> <p> </p> <p>2.5总结</p> <p> </p> <p>第3章常用可视化的多维分析</p> <p> </p> <p>3.1箱图</p> <p> </p> <p>3.2雷达图</p> <p> </p> <p>3.3标签云</p> <p> </p> <p>3.4气泡图</p> <p> </p> <p>3.5树图</p> <p> </p> <p>3.6地图</p> <p> </p> <p>3.7高低图</p> <p> </p> <p>3.8双轴图</p> <p> </p> <p>3.9关系图</p> <p> </p> <p>3.10热图</p> <p> </p> <p>第4章SPSS Modeler建模组件介绍</p> <p> </p> <p>4.1数据预处理组件</p> <p> </p> <p>4.1.1数据清理组件</p> <p> </p> <p>4.1.2数据集成组件</p> <p> </p> <p>4.1.3数据选择组件</p> <p> </p> <p>4.1.4数据变换组件</p> <p> </p> <p>4.2数据挖掘建模组件</p> <p> </p> <p>4.2.1模型筛选</p> <p> </p> <p>4.2.2自动建模</p> <p> </p> <p>4.2.3决策树模型</p> <p> </p> <p>4.2.4贝叶斯网络模型</p> <p> </p> <p>4.2.5神经网络模型</p> <p> </p> <p>4.2.6支持向量机模型</p> <p> </p> <p>4.2.7时间序列模型</p> <p> </p> <p>4.2.8统计模型</p> <p> </p> <p>4.2.9聚类模型</p> <p> </p> <p>4.2.10关联分析</p> <p> </p> <p>4.2.11KNN模型</p> <p> </p> <p>4.2.12数据挖掘模式评估</p> <p> </p> <p>4.3知识表示</p> <p> </p> <p>4.3.1图形节点</p> <p> </p> <p>4.3.2数据输出</p> <p> </p> <p>4.3.3数据导出</p> <p> </p> <p>第5章香水销售分析</p> <p> </p> <p>5.1香水销售数据预处理</p> <p> </p> <p>5.2香水销售数据统计分析</p> <p> </p> <p>5.3影响香水**的因素分析</p> <p> </p> <p>5.4香水适用场所关联分析</p> <p> </p> <p>5.5香水聚类分析</p> <p> </p> <p>5.6香水营销建议</p> <p> </p> <p>第6章银行信用卡欺诈与拖欠行为分析</p> <p> </p> <p>6.1客户信用等级影响因素</p> <p> </p> <p>6.1.1客户信用卡申请数据预处理</p> <p> </p> <p>6.1.2信用卡申请成功影响因素</p> <p> </p> <p>6.2信用卡客户信用等级影响因素</p> <p> </p> <p>6.3基于消费的信用等级影响因素</p> <p> </p> <p>6.4信用卡欺诈判断模型</p> <p> </p> <p>6.4.1基于Apriori算法的欺诈模型</p> <p> </p> <p>6.4.2基于判别的欺诈模型</p> <p> </p> <p>6.4.3基于分类算法的欺诈模型</p> <p> </p> <p>6.5欺诈人口属性分析</p> <p> </p> <p>6.5.1欺诈人口属性统计分析</p> <p> </p> <p>6.5.2基于逻辑回归的欺诈人口属性分析</p> <p> </p> <p>6.5.3逾期还款的客户特征</p> <p> </p> <p>6.5.4基于决策树分析逾期客户特征</p> <p> </p> <p>6.5.5基于回归分析逾期客户特征</p> <p> </p> <p>6.5.6根据消费历史分析客户特征</p> <p> </p> <p>6.5.7基于聚类分析客户特征</p> <p> </p> <p>6.5.8基于客户细分的聚类分析</p> <p> </p> <p>第7章海底捞火锅运营分析</p> <p> </p> <p>7.1火锅相关数据抓取</p> <p> </p> <p>7.2数据预处理</p> <p> </p> <p>7.3数据分析</p> <p> </p> <p>7.3.1海底捞运营分析</p> <p> </p> <p>7.3.2店铺选址分析</p> <p> </p> <p>7.4菜品关联分析</p> <p> </p> <p>7.5用户评论与评分的关联分析</p> <p> </p> <p>7.6顾客情感分析</p> <p> </p> <p>第8章商务宾馆竞争分析</p> <p> </p> <p>8.1目前经济型酒店行业竞争态势</p> <p> </p> <p>8.2用户相关数据准备</p> <p> </p> <p>8.3通过Python编程抓取评论</p> <p> </p> <p>8.4数据预处理</p> <p> </p> <p>8.5商务宾馆客户数据分析</p> <p> </p> <p>8.5.1酒店评分影响因素</p> <p> </p> <p>8.5.2酒店评分与酒店业绩关系</p> <p> </p> <p>8.5.3酒店评分分析</p> <p> </p> <p>8.5.4客户情感分析</p> <p> </p> <p>8.5.5竞争分析</p> <p> </p> <p>8.6建议</p> <p> </p> <p>第9章耐热导线工厂质量管理数据分析</p> <p> </p> <p>9.1项目概述</p> <p> </p> <p>9.2耐热导线生产质量数据预处理</p> <p> </p> <p>9.3耐热铝线质量检测数据分析</p> <p> </p> <p>第10章基于逻辑回归模型的高危人员分析</p> <p> </p> <p>10.1高危人员分析需求</p> <p> </p> <p>10.2高危人群相关数据收集与预处理</p> <p> </p> <p>10.3建立模型</p> <p> </p> <p>第11章卷积神经网络在音频质量评价领域的应用</p> <p> </p> <p>11.1深度学习基础</p> <p> </p> <p>11.1.1深度学习的发展过程</p> <p> </p> <p>11.1.2深度学习常用技术框架</p> <p> </p> <p>11.1.3常用的深度学习算法</p> <p> </p> <p>11.2音频质量评价</p> <p> </p> <p>11.2.1音频样本及特征预处理</p> <p> </p> <p>11.2.2音频特征选择</p> <p> </p> <p>11.2.3卷积神经网络模型训练</p> <p> </p> <p>11.2.4模型参数调优</p> <p> </p> <p>11.3性能验证</p> <p> </p> <p>参考文献</p> <p> </p> <p> </p>显示全部信息前 言
前言
目前,高校的数据分析类课程(如数据挖掘、机器学习、大数据分析等)教学方式大多以“知识点”为核心组织教学,学生主要以学习知识为主,工程应用实践机会较少。教师将所要教授的知识点在课堂上讲述,课后再以作业练习、课程实验、课程设计等形式帮助学生深入理解课堂上所学的知识。尽管为提高教学效果,目前许多高校尝试了大型开放式网络课程(Massive Open Online Course,MOOC)、翻转课堂、移动课堂、同伴学习和小规模限制性在线课程(Small Private Online Course,SPOC)等教学方法的改革,但总体上来说,对于应用性较强的课程教学,还存在改进的空间,尤其是对学生的动手实践能力要求较高的数据分析类课程。现有的教学方法在传授理论知识时,缺少实际应用环节的支持,学生缺少在实际应用的背景下充分理解所学知识的机会,难以培养学生应用专业知识分析解决问题的技能和创新思维能力。<p> </p> <p> </p> <p>前言</p> <p>目前,高校的数据分析类课程(如数据挖掘、机器学习、大数据分析等)教学方式大多以“知识点”为核心组织教学,学生主要以学习知识为主,工程应用实践机会较少。教师将所要教授的知识点在课堂上讲述,课后再以作业练习、课程实验、课程设计等形式帮助学生深入理解课堂上所学的知识。尽管为提高教学效果,目前许多高校尝试了大型开放式网络课程(Massive Open Online Course,MOOC)、翻转课堂、移动课堂、同伴学习和小规模限制性在线课程(Small Private Online Course,SPOC)等教学方法的改革,但总体上来说,对于应用性较强的课程教学,还存在改进的空间,尤其是对学生的动手实践能力要求较高的数据分析类课程。现有的教学方法在传授理论知识时,缺少实际应用环节的支持,学生缺少在实际应用的背景下充分理解所学知识的机会,难以培养学生应用专业知识分析解决问题的技能和创新思维能力。</p> <p>数据分析的方法是科学,但这些方法的选择和应用过程因问题而异,带有很强的艺术性。在现有专业课程教学模式下,学生仅仅了解需要学习基本的理论知识,缺少实践动手经历,难以获得这些知识的应用技巧,很少接触与企业实际项目相关的内容,因此学生的应用能力较弱,与企业实际的需求脱节。例如,在“数据分析”课程中,一般的教学方式是教师将具体数据分析的方法教授给学生,学生能够理解算法或方法的内容,但难以解决实际项目中应用具体算法碰到的问题。目前亟待克服数据分析类课程教学脱离企业所需能力的培养痛点,在课程学习的知识基础上,解决实际问题,引导学生解决数据分析实际问题的必要技能和思维方法。</p> <p>实际上,数据分析绝大部分的教材和书籍还基本停留在基本理论和方法的介绍,实验部分的内容比较简单或者缺失,实际应用的内容不足。还有些实战性的书籍没有按照教材的方式编写,案例也比较粗略,数据分析过程中的一些技能解释肤浅。有关实际项目中数据分析过程思路的分析以及难点解析对教学,尤其是对实验或案例教学非常重要。*近几年,作者与多家企业合作,在数据分析领域辛苦耕耘,亲自参与了多个实际数据分析项目,熟悉数据分析过程的酸甜苦辣,希望通过本教材弥补国内数据分析实用教材的不足,也希望本教材的出版能改善国内数据分析类课程教学资料短缺的情况。</p> <p>学习数据分析的*好方法就是做中学,使用实际数据解决实际问题,而不是单纯学习技术。实际上,有效的数据分析需要对业务进行深入理解,在此基础上形成有效的分析思路,并通过实验反复比较,才能真正解决客户的问题。在数据时代,现实应用中往往不乏数据。从生活中的小数据、简单问题开始,做各种假设,探索其中的规律。不断尝试常用的分析语言、工具和技术,在应用中不断学习新的知识,弥补课堂教学的不足,尤其是体会数据分析过程中书本上难得看到的分析技巧,并在应用中举一反三。如此反复,随着分析问题的深入,不断提高分析能力,体会数据分析的艰辛和解决客户问题的快乐。</p> <p>本教材不局限于数据分析基本理论和基本方法的介绍,而是立足实际应用,突出实际数据分析项目中的思路,以及数据分析中的难点。但希望读者具有一定的统计学、机器学习(数据挖掘)、数据科学,以及必要的相关专业知识。也不追求过多的案例堆积,希望读者能理解数据分析的思路,举一反三。这些内容是作者多年项目实践和教学成果的总结,其中的分析思路只有参与实际的项目,才能体验到数据分析的难点和艺术性,这是目前教学过程中培养学生工程性思维的重要问题,也是真正提高学生创新能力和动手能力的手段。这些内容是数据分析的基础,也是从事大数据分析必须掌握的知识和技能。有关数据挖掘常用算法的介绍,读者可以参阅作者已经出版的教材《商务智能(第4版)》(清华大学出版社,2016年)或其他专业书籍。</p> <p>全书分为11章,具体的内容简介如下:</p> <p>第1章从数据分析的流程出发,讨论了在数据分析各个阶段需要做的工作以及经常遇到的主要问题,尤其是数据挖掘算法使用时容易遇到的难题。数据挖掘过程有一定的标准,但是针对具体的业务需求,如何设计合理、有效的数据分析流程,需要有一定的经验和技巧,数据的预处理、算法的选择等主要步骤都充分体现了数据挖掘的艺术性。</p> <p>第2章以保险产品**项目为例,突出了数据挖掘选择合适的算法并非很简单的事情,需要在理解分析问题以及对多种算法熟悉的基础上,通过实验对初选的几种算法进行比较、调优,才能选择对解决问题效果比较好的算法。</p> <p>第3章介绍了多维分析常用的可视化图形,这是数据分析的基本功。这些图形可以帮助数据分析师探索数据,找出数据中存在的问题以及基本规律。</p> <p>第4章介绍了IBM SPSS Modeler 18数据挖掘工具的常用组件。在学习数据分析的不同阶段,根据学习者的基础、问题的分析难度等,可以选择不同的工具或平台。尽管分析工具并不是数据挖掘*重要的事情,但学习成本低、功能强大的分析工具对于问题的解决也是不可少的。对于编程基础有限的数据分析师,可以选择类似IBM SPSS Modeler 18的挖掘工具或TensorFlow等开源工具。尽管如此,对于有一定数据分析基础的读者,**学习Python、R等针对数据分析的语言,这些语言比较灵活,功能也十分强大。</p> <p>第5章对香水的销售数据进行分析,讨论受欢迎的香水以及特点,并找出影响香水销售的主要因素,为香水的营销提供依据。</p> <p>第6章对银行的客户信用记录、申请客户信息、拖欠历史记录、消费历史记录等人口属性、交易数据进行综合分析,讨论用户银行信用卡拖欠和欺诈行为特征,为银行推广信用卡以及风险管理提供依据。</p> <p>第7章从大众点评网抓取火锅店海底捞的菜品介绍以及客户评论数据,以客户为**,分析客户对火锅的偏好,为火锅店的选址、菜品的选择和设计,以及火锅店的竞争力都提供了参考。</p> <p>第8章以携程网上某商务宾馆的客户评分、评论数据为基础,通过情感分析,分析了客户对商务宾馆的偏好,并了解客户的消费行为,比较多家商务宾馆的竞争优劣势,为商务宾馆改进经营提供了参考。</p> <p>第9章在某耐热导线工厂*近2年的质量管理数据的基础上,分析了这些数据存在的问题,探索耐热导线的加工流程中几个工序之间半成品或成品质量指标的关系,提高*终产品的合格率。</p> <p>第10章利用公安人口数据和违法犯罪人员行为特点的数据,建立风险评分模型,实现对高危人群的特征分析,识别具有违法、犯罪、可疑或可能的高危人员。</p> <p>第11章讨论深度学习在音频处理领域的应用,介绍了常用的深度神经网络模型,**分析卷积神经网络在音频质量评价领域的应用。</p> <p>数据挖掘是一个多学科交叉的领域,本书通过少数实际的具体案例,阐述数据分析项目的过程以及一些要点,可作为普通高等学校“数据挖掘”“商务数据分析”“商务智能”等课程的案例和实验指导材料,也可供有志于数据分析师的读者参考。配套实验数据、源代码、软件等可以从清华大学出版社网站下载。由于作者水平有限,书中难免有错误之处,希望读者不吝指出。</p> <p>在写作的过程中,胡远文、于召鑫、黄黎明、蒲实、朱荣斌等在资料收集方面做了一些工作,在此表示感谢。</p> <p> </p> <p>赵卫东2017年8月</p> <p>复旦大学</p> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p>显示全部信息免费在线读第5章香水销售分析
法国**的诗人保罗·瓦莱利曾说: “不擦香水的女人没有未来。”香水对于现代都市女性,不仅是生活品位的标志,更是个人气质的象征。对于男士来说,使用香水也是提升个人魅力的途径。随着经济发展以及人民生活水平的提高,国内消费者对香水产品的消费需求快速增长,曾经作为**品的香水,逐渐成为人们的日常生活用品。我国的香水行业较欧美**起步晚,所占市场份额小,目前尚处于成长期。这同时也说明了我国的香水市场有巨大的潜力。许多国际**香水制造商正在努力提升它们在中国市场的份额,竞争未来的巨大市场前景。全球范围内,香水市场是一个市值438.9亿美元的产业,每年至少有300种新品种上市。根据中国产业信息网的统计,2015年我国香水市场规模为185亿元,环比增长15.6%。我国香水市场的快速发展也带来了不同香水产品的大量涌现,那么到底什么样的香水产品**更好,更受消费者欢迎呢?这些香水产品又有什么样的特点呢?本章以从某电商网站上抓取到的香水产品**数据分析香水销售的影响因素,为香水销售商判定采购计划以及用户选择香水提供依据。5.1香水销售数据预处理本案例从某电商网站抓取了1009条香水产品销售数据,包含了香水产品的商品名称、产品毛重、商品产地、包装、香调、净含量、分类、适用性别、适用场所、价格,以及评价数。“评价”字段的数据包含混合的中文和数字,末尾有一个“ ”号。“ ”号很容易通过Excel替换成“ ”(空字符串)的方法除去,但是将“万”转换成准确的数值结果,采用Excel或者其他现成的工具,并不容易实现。因此,采用Python编程处理“评价”和“适用场合”字段,将评价数量转换成数值。“适用场所”字段包含多个场所,如果要拆分成多个字段,首先要算出所有记录的场所合集,这个步骤也不容易通过现有工具实现。这两个预处理步骤,*终采用Python编程实现。通过Python脚本生成了新的字段。将商品产地中的“中国大陆”“广东”“浙江义乌”等统一替换成“中国”。“适用场所”字段分解成“旅行”“其他”“约会”“情趣”等8个字段,其类型是0、1类型,若该香水产品有对应的适用场所,则设置为1,否则设置为0。例如,**条冰希黎的香水数据,使用场所为旅行、约会、情趣、商务、party聚会。将类似“1.9万 ”格式的“评价”字段的值转换为“19000”,其类型是数值类型。Python程序没有替换原有字段,而是生成一个新字段。其优点是,不会丢失原始数据,而且可以通过肉眼复查,检查是否有预处理出错的情况。经过人工审查,经过Python程序预处理的数据符合原数据。图5.1是Python预处理完成的香水数据。
图5.1Python预处理完成的香水数据