您好,欢迎光临有路网!
Python大数据与机器学习实战
QQ咨询:
有路璐璐:

Python大数据与机器学习实战

  • 作者:谢彦
  • 出版社:电子工业出版社
  • ISBN:9787121384257
  • 出版日期:2020年04月01日
  • 页数:378
  • 定价:¥119.00
  • 分享领佣金
    手机购买
    城市
    店铺名称
    店主联系方式
    店铺售价
    库存
    店铺得分/总交易量
    发布时间
    操作

    新书比价

    网站名称
    书名
    售价
    优惠
    操作

    图书详情

    • 出版社
    • ISBN
      9787121384257
    • 作者
    • 页数
      378
    • 出版时间
      2020年04月01日
    • 定价
      ¥119.00
    • 所属分类
    内容提要
    本书结合作者十余年软件开发、系统架构、算法实战及培训经验,致力于系统地阐释Python大数据和机器学习技术。从数据的采集、存储、清洗;到建立模型、统计分析;*终用前端程序呈现给用户的数据展示;以及后台的系统服务支持。结合了Python数据工具使用、算法原理、以及典型实例各个层面,希望读者通过对本书的阅读,少走弯路,以*小的学习成本得到*的知识收益。 本书能教会读者什么: △ 定义问题:通过现有数据定义产品的功能、评价方法和实现步骤。 △ 数据处理:通过提取、清洗等操作提高现有数据质量。 △ 数据分析:利用统计和机器学习方法分析数据,得出有效结论。 △ 数据建模:使用历史数据训练模型,实现预测功能。 △ 客户展示:以报告或应用程序的方式向客户展示数据分析和模型结果。 △ 构建系统:集成平台搭建、数据采集存储、分析建模,以及前端界面等功能,产品化。
    目录
    目 录 第1章 Python大数据开发入门 1 1.1 大数据工程师**技能 1 1.2 Python开发环境 5 1.2.1 Windows环境 5 1.2.2 Linux环境 7 1.2.3 Docker环境 10 1.3 Python开发工具 16 1.3.1 Python命令行环境 16 1.3.2 Jupyter环境 18 1.4 Python数据类型 23 1.4.1 数值 24 1.4.2 字符串 24 1.4.3 列表 25 1.4.4 元组 26 1.4.5 集合 26 1.4.6 字典 27 1.5 Python函数和类 27 1.5.1 定义和使用函数 28 1.5.2 lambda匿名函数 28 1.5.3 类和继承 28 1.6 Python常用库 29 1.6.1 Python内置库 29 1.6.2 Python图形图像处理 30 1.6.3 Python自然语言处理 31 1.6.4 Python数据分析和 处理 32 1.6.5 Python机器学习 33 1.7 Python技巧 34 1.7.1 Python程序调试 34 1.7.2 去掉警告信息 35 1.7.3 制作和导入模块 36 1.7.4 异常处理 37 1.8 Python常见问题 38 第2章 科学计算Numpy 40 2.1 多维数组 40 2.1.1 创建数组 40 2.1.2 访问数组 42 2.1.3 ��改数组 43 2.2 数组元素运算 44 2.2.1 一元函数 44 2.2.2 二元函数 45 2.2.3 广播 46 2.2.4 自定义ufunc函数 47 2.3 常用函数 48 2.3.1 分段函数 48 2.3.2 统计函数 49 2.3.3 组合与分割 51 2.3.4 矩阵与二维数组 52 2.3.5 其他常用函数 54 第3章 数据操作Pandas 55 3.1 数据对象 55 3.1.1 Series对象 55 3.1.2 DataFrame对象 57 3.1.3 Index对象 60 3.2 数据存取 63 3.2.1 访问数据表元素 63 3.2.2 修改数据表元素 66 3.3 分组运算 68 3.3.1 分组 69 3.3.2 聚合 70 3.3.3 转换 71 3.3.4 过滤 72 3.3.5 应用 72 3.4 日期时间处理 73 3.4.1 Python日期时间处理 73 3.4.2 Pandas日期时间处理 75 3.4.3 时间序列操作 76 3.4.4 数据重排 84 第4章 数据可视化 86 4.1 Matplotlib绘图库 87 4.1.1 准备工作 87 4.1.2 散点图与气泡图 88 4.1.3 线图 90 4.1.4 柱图 92 4.1.5 饼图 95 4.1.6 箱线图和小提琴图 96 4.1.7 三维图 97 4.1.8 Matplotlib绘图区域 100 4.1.9 文字显示问题 103 4.1.10 导出图表 104 4.1.11 Matplotlib技巧 105 4.2 Seaborn**数据可视化 107 4.2.1 准备工作 107 4.2.2 连续变量相关图 108 4.2.3 分类变量图 109 4.2.4 回归图 113 4.2.5 多图组合 115 4.2.6 热力图 118 4.2.7 印刷品作图 119 4.3 PyEcharts交互图 119 4.3.1 ECharts 119 4.3.2 准备工作 120 4.3.3 绘制交互图 120 4.3.4 在网页中显示图 123 第5章 获取数据 125 5.1 读写文件 126 5.1.1 读写文本文件 126 5.1.2 写日志文件 127 5.1.3 读写XML文件 128 5.1.4 读写Json文件 130 5.1.5 读写CSV文件 131 5.1.6 读写PKL文件 132 5.1.7 读写HDF5文件 133 5.1.8 读写Excel文件 134 5.2 读写数据库 135 5.2.1 数据库基本操作 136 5.2.2 Python存取MySQL 数据库 138 5.2.3 Python存取SQL Server 数据库 140 5.2.4 Python存取Sqlite 数据库 143 5.2.5 Python存取Dbase 数据库 143 5.3 读写数据仓库 144 5.3.1 读取ElasticSearch 数据 144 5.3.2 读取S3云存储数据 146 5.3.3 读取Hive数据 148 5.4 获取网络数据 151 5.4.1 从网络接口读取 数据 151 5.4.2 抓取网站数据 152 5.4.3 使用POST方法抓取 数据 153 5.4.4 转换HTML文件 153 5.5 选择数据存储方式 154 第6章 数据预处理 155 6.1 数据类型识别与转换 155 6.1.1 基本类型转换 156 6.1.2 数据类型识别 157 6.2 数据清洗 158 6.2.1 缺失值处理 158 6.2.2 异常值处理 160 6.2.3 去重处理 162 6.3 数据归约 163 6.3.1 经验筛选特征 163 6.3.2 统计学方法筛选 特征 163 6.3.3 模型筛选特征 164 6.3.4 数学方法降维 165 6.4 数据抽样 166 6.4.1 简单随机抽样 167 6.4.2 系统抽样 168 6.4.3 分层抽样 168 6.4.4 整群抽样 168 6.5 数据组合 169 6.5.1 merge函数 169 6.5.2 concat函数 170 6.6 特征提取 171 6.6.1 数值型特征 171 6.6.2 分类型特征 171 6.6.3 字符型特征 172 第7章 数据分析 175 7.1 入门实例 175 7.2 假设检验 177 7.2.1 基本概念 177 7.2.2 假设检验的步骤 178 7.2.3 统计分析工具 178 7.3 参数检验与非参数检验 179 7.3.1 正态性检验 179 7.3.2 方差齐性检验 181 7.3.3 分析检验结果 182 7.4 T检验 182 7.4.1 单样本T检验 182 7.4.2 独立样本T检验 183 7.4.3 配对样本T检验 183 7.5 方差分析 184 7.6 秩和检验 185 7.7 卡方检验 186 7.8 相关性分析 187 7.8.1 图形描述相关性 188 7.8.2 正态资料的相关 分析 189 7.8.3 非正态资料的相关 分析 190 7.9 变量分析 190 7.9.1 单变量分析 190 7.9.2 多变量分析 191 7.10 TableOne工具 193 7.11 统计方法总结 194 第8章 机器学习基础知识 196 8.1 基本概念 196 8.1.1 深度学习、机器学习、 人工智能 197 8.1.2 有监督学习、无监督 学习、半监督学习 197 8.1.3 训练集、验证集、 测试集 198 8.1.4 过拟合与欠拟合 198 8.1.5 常用术语 199 8.2 评价模型 199 8.2.1 方差、协方差、协 方差矩阵 200 8.2.2 距离与范数 204 8.2.3 回归效果评估 207 8.2.4 分类效果评估 210 第9章 机器学习模型与工具 216 9.1 基于距离的算法 217 9.1.1 K近邻算法 217 9.1.2 聚类算法 219 9.2 线性回归与逻辑回归 221 9.2.1 线性回归 222 9.2.2 逻辑回归 225 9.3 支持向量机 226 9.4 信息熵和决策树 230 9.4.1 信息量和熵 231 9.4.2 决策树 234 9.5 关联规则 236 9.5.1 Apriori关联规则 237 9.5.2 FP-Growth关联 分析 240 9.6 贝叶斯模型 242 9.6.1 贝叶斯公式 242 9.6.2 朴素贝叶斯算法 244 9.6.3 贝叶斯网络 248 9.7 隐马尔可夫模型 250 9.8 集成算法 254 第10章 模型选择与相关技术 259 10.1 数据准备与模型选择 259 10.1.1 预处理 259 10.1.2 选择模型 260 10.2 自动机器学习框架 263 10.2.1 框架原理 263 10.2.2 Auto-Sklearn 264 10.2.3 Auto-ML 266 10.2.4 Auto-Keras 267 10.3 自然语言处理 269 10.3.1 分词工具 269 10.3.2 TF-IDF 271 10.4 建模相关技术 274 10.4.1 切分数据集与交叉 验证 274 10.4.2 模型调参 276 10.4.3 学习曲线和验证 曲线 279 10.4.4 保存模型 282 第11章 大数据竞赛平台 283 11.1 定义问题 283 11.1.1 强人工智能与弱 人工智能 284 11.1.2 Datathon竞赛 285 11.2 算法竞赛 286 11.2.1 大数据竞赛平台 优势 287 11.2.2 Kaggle大数据 平台 288 11.2.3 实战泰坦尼克号 幸存问题 288 11.2.4 国内大数据平台 294 11.2.5 赛题选择 294 11.2.6 比赛注意事项 295 第12章 决策问题:幸福感挖掘 296 12.1 赛题解读 296 12.2 模型初探 297 12.3 模型调优 299 12.3.1 模型粗调 299 12.3.2 模型精调 300 12.4 模型输出 305 12.4.1 显示决策树 305 12.4.2 特征重要性 306 12.5 XGBoost模型 307 12.5.1 XGBoost参数分析 307 12.5.2 XGBoost原理解析 308 12.5.3 XGBoost源码分析 312 第13章 迁移学习:猫狗图片分类 317 13.1 深度学习神经网络 317 13.1.1 深度学习 318 13.1.2 卷积神经网络 319 13.1.3 卷积神经网络 发展史 321 13.2 使用现有的神经网络模型 321 13.3 迁移学习 322 13.4 解决猫狗分类问题 323 13.4.1 数据及代码结构 323 13.4.2 提取特征 324 13.4.3 训练模型和预测 325 13.4.4 训练结果分析 326 13.4.5 代码下载 327 第14章 图像分割:识别图中物体 328 14.1 Mask R-CNN算法 329 14.1.1 R-CNN 329 14.1.2 SPP Net 330 14.1.3 Fast R-CNN 330 14.1.4 Faster R-CNN 331 14.1.5 Mask R-CNN 332 14.2 Mask R-CNN源码解析 332 14.2.1 安装工具 332 14.2.2 源码结构 333 14.3 训练模型与预测 334 14.3.1 制作训练数据 335 14.3.2 训练模型和预测 338 14.3.3 建模相关问题 344 第15章 时间序列分析 346 15.1 时序问题处理流程 346 15.1.1 分析问题 346 15.1.2 解决思路 347 15.2 趋势分析工具ARIMA 349 15.2.1 相关概念 349 15.2.2 模型示例 353 15.3 傅里叶和小波变换 357 15.3.1 傅里叶变换 358 15.3.2 小波变换 360 15.4 Prophet时序模型 361 15.4.1 模型介绍 362 15.4.2 获取数据 362 15.4.3 模型示例 363 第16章 自然语言处理:微博互动 预测 367 16.1 赛题分析 367 16.1.1 数据分析 368 16.1.2 1

    与描述相符

    100

    北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 海外