《数据质量管理：数据可靠性与数据质量问题解决之道 [美]巴尔·摩西》(美)巴尔摩西 (美)利奥加维什 (美)莫莉沃尔维克

目录前言1 第1章为什么数据质量值��关注7 1.1 什么是数据质量9 1.2 构筑当下10 1.2.1 了解“数据宕机的增加”11 1.2.2 促成当前形势的其他行业趋势13 1.3 总结15 第2章对可靠数据系统的构建模块进行组装16 2.1 了解事务型数据和分析型数据之间的差异16 2.2 是什么让它们有所不同17 2.3 数据仓库与数据湖19 2.3.1 数据仓库：模式级别的表类型19 2.3.2 数据湖：文件级别的操作21 2.3.3 什么是湖仓一体22 2.3.4 在仓库和湖之间同步数据23 2.4 收集数据质量指标24 2.4.1 什么是数据质量指标24 2.4.2 如何提取数据质量指标25 2.4.3 使用查询日志了解数据仓库中的数据质量31 2.4.4 使用查询日志了解数据湖中的数据质量32 2.5 设计数据目录33 2.6 构建数据目录34 2.7 总结38 第3章收集、清洗、转换和测试数据39 3.1 收集数据39 3.1.1 应用程序日志数据40 3.1.2 API响应41 3.1.3 传感器数据42 3.2 清洗数据43 3.3 批处理与流处理45 3.4 流处理的数据质量46 3.5 数据标准化49 3.5.1 处理异构数据源49 3.5.2 模式检查和类型强制转换50 3.5.3 数据中的句法歧义与语义歧义51 3.5.4 管理AWS Kinesis和Apache Kafka之间的事务型数据转换52 3.6 运行分析型数据转换53 3.6.1 确保ETL期间的数据质量53 3.6.2 确保转换期间的数据质量53 3.7 警报和测试54 3.7.1 dbt单元测试55 3.7.2 Great Expectations单元测试57 3.7.3 Deequ单元测试59 3.8 使用 Apache Airflow 管理数据质量61 3.8.1 调度程序的SLA61 3.8.2 在Apache Airflow中安装断路器64 3.8.3 SQL检查运算符64 3.9 总结65 第4章数据管道的监控和异常检测66 4.1 了解已知的未知和未知的未知67 4.2 构建异常检测的算法68 4.2.1 新鲜度监控70 4.2.2 了解分布75 4.3 为模式和沿袭构建监控器83 4.3.1 模式变更和沿袭的异常检测83 4.3.2 对沿袭进行可视化87 4.3.3 调查数据异常89 4.4 使用Python和机器学习扩展异常检测93 4.4.1 利用机器学习改进数据监控警报98 4.4.2 假阳性和假阴性的解释98 4.4.3 提高**率和召回率100 4.4.4 通过数据监控检测新鲜度事件103 4.4.5 F分数104 4.4.6 模型的准确率重要吗105 4.5 深入探究：其他有用的异常检测方法108 4.6 为数据仓库和数据湖分别设计数据质量监控器109 4.7 总结110 第5章为数据可靠性进行架构设计111 5.1 在摄取数据时评估并维护高数据可靠性111 5.2 度量和维护管道中的数据质量114 5.3 了解下游的数据质量116 5.4 构建数据平台119 5.4.1 数据摄取120 5.4.2 数据存储和处理120 5.4.3 数据转换和建模120 5.4.4 商业智能和分析121 5.4.5 数据发现和治理122 5.5 建立对数据的信任122 5.5.1 数据可观测性123 5.5.2 评估数据质量的****率123 5.5.3 如何为数据设置SLA、SLO和SLI125 5.6 案例分析：Blinkist128 5.7 总结129 第6章解决大规模数据质量问题131 6.1 在软件研发过程中解决数据质量问题131 6.2 数据事件管理133 6.2.1 事件检测134 6.2.2 响应137 6.2.3 根因分析138 6.2.4 解决146 6.2.5 不做指责的复盘146 6.3 事件应对与缓解策略147 6.3.1 建立事件管理的标准程序148 6.3.2 为什么数据事件指挥官如此重要153 6.4 案例分析：PagerDuty公司的数据事件管理153 6.4.1 PagerDuty的数据运营概况153 6.4.2 PagerDuty的数据挑战154 6.4.3 使用DevOps的*佳实践来规模化数据事件管理154 6.5 总结155 第7章构建端到端的数据沿袭157 7.1 为现代数据系统构建端到端字段级别的沿袭158 7.1.1 数据沿袭的基本要求159 7.1.2 数据沿袭的设计161 7.1.3 解析数据167 7.1.4 构建用户界面168 7.2 案例分析：在福克斯公司构建数据可靠性170 7.2.1 在与利益相关方打交道时，运用“可控自由”原则171 7.2.2 投资于去**化数据团队172 7.2.3 避免追逐闪亮的新科技，而应该选择解决问题的技术173 7.2.4 为实现自助式分析，要致力于建立数据信任173 7.3 总结174 第8章推广和普及数据质量175 8.1 将“数据”视为产品176 8.2 将数据视为产品的经验177 8.2.1 Convoy案例分析：数据即服务或输出178 8.2.2 Uber案例分析：数据产品经理的崛起179 8.2.3 采用“数据即产品”的方法180 8.3 在数据平台中建立信任184 8.3.1 确保产品目标与业务目标保持一致184 8.3.2 寻求适合的利益相关方的反馈与认可185 8.3.3 优先考虑长期增长和可持续性，而非短期收益186 8.3.4 为数据及其评估标准设定基准指标187 8.3.5 了解何时构建、何时购买187 8.4 分配数据质量所有权189 8.4.1 **数据官189 8.4.2 商业智能分析师190 8.4.3 分析工程师190 8.4.4 数据科学家190 8.4.5 数据治理主管191 8.4.6 数据工程师191 8.4.7 数据产品经理191 8.4.8 谁来负责数据可靠性192 8.5 为数据质量创建责任制193 8.6 平衡数据可访问性与数据信任194 8.7 对数据进行认证195 8.8 实施数据认证流程的七个步骤195 8.9 案例分析：Toast寻找适合其数据团队结构的过程200 8.9.1 起初：一个艰难满足数据需求的小团队201 8.9.2 以分散式数据运营支持**增长201 8.9.3 重组、再集中化并重新聚焦于数据信任202 8.9.4 在扩张数据团队时需要考虑的因素203 8.10 提高数据素养206 8.11 优先考虑数据治理和合规性208 8.11.1 优先考虑数据目录208 8.11.2 数据目录之外：实施数据治理211 8.12 构建数据质量策略211 8.12.1 让领导层对数据质量*终负责212 8.12.2 设定数据质量的KPI212 8.12.3 带头实施数据治理计划212 8.12.4 自动化数据沿袭与数据治理工具213 8.12.5 创建沟通计划213 8.13 总结213 第9章现实世界中的数据质量：对话和案例分析215 9.1 为更高的数据质量构建数据网格216 9.1.1 面向领域的数据所有者和数据管道217 9.1.2 自助式服务功能217 9.1.3 互操作性与通信标准化218 9.2 为什么要实施数据网格218 9.2.1 选不选网格219 9.2.2 计算你的数据网格分数219 9.3 与 Zhamak Dehghani 的对话：数据质量在数据网格中的作用220 9.3.1 你可以从单一解决方案构建数据网格吗220 9.3.2 数据网格是数据虚拟化的另一种表达吗221 9.3.3 每个数据产品团队是否管理自己独立的数据存储221 9.3.4 自助式数据平台与分散式数据网格是一回事吗221 9.3.5 数据网格适用于所有的数据团队吗222 9.3.6 团队中的某个人会“拥有”数据网格吗222 9.3.7 数据网格是否会引起数据工程师和数据分析师之间的摩擦222 9.4 案例分析：Kolibri Games的数据栈之旅223 9.4.1 *初的数据需求224 9.4.2 追求绩效营销225 9.4.3 2018年：专业化和集中化227 9.4.4 开始以数据为导向228 9.4.5 开始数据驱动230 9.4.6 构建数据网格233 9.4.7 五年数据演变的五个关键思考235 9.5 让元数据为业务服务236 9.6 通过数据发现释放元数据的价值239 9.6.1 数据仓库和数据湖的考量239 9.6.2 数据目录可能淹没在数据湖甚至数据网格中240 9.6.3 从传统的数据目录过渡到现代的数据发现240 9.7 决定何时开始处理公司的数据质量问题243 9.7.1 在*近迁移到云端243 9.7.2 数据栈随着更多的数据源、更多的表和更高的复杂性而扩展244 9.7.3 你的数据团队正在扩充244 9.7.4 你的团队至少花费了30%的时间来解决数据质量问题245 9.7.5 你的团队拥有比一年前更多的数据消费者245 9.7.6 你的公司正在转向自助式服务分析模型245 9.7.7 数据是客户价值主张的关键部分246 9.7.8 数据质量源于信任246 9.8 总结246 第10章开创可靠数据系统的未来248 10.1 要积极主动，而不是消极被动249 10.2 对数据质量和数据可靠性未来的预测251 10.2.1 数据仓库和数据湖将融为一体251 10.2.2 数据团队中的新角色252 10.2.3 自动化的兴起254 10.2.4 更多的分布式环境与数据领域的兴起255 10.3何去何从255

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

数据质量管理：数据可靠性与数据质量问题解决之道 [美]巴尔·摩西

猜你也喜欢

新书比价

图书详情

内容提要

目录

与描述相符

消费者保障

新手上路

付款方式

个人账户