《自然语言处理中的贝叶斯分析（原书第2版）》(英) 谢伊·科恩(Shay Cohen)

城市

店铺名称

店主联系方式

店铺售价

库存

店铺得分/总交易量

发布时间

操作

新书比价

网站名称

书名

售价

优惠

操作

图书详情

出版社

机械工业出版社
ISBN

9787111669579
作者

(英) 谢伊·科恩(Shay Cohen)
页数

236
出版时间

2020年12月01日
定价

¥89.00
所属分类

内容提要

本书涵盖了流利阅读NLP中贝叶斯学习方向的论文以及从事该领域的研究所需的方法和算法。这些方法和算法部分来自机器学习和统计学，部分是针对NLP开发的。本书涵盖推断技术（如马尔可夫链、蒙特卡罗抽样和变分推断）、贝叶斯估计和非参数建模等。为了应对该领域的快速变化，第2版增加了一个新的章节——关于贝叶斯背景下的表征学习和神经网络。此外，还介绍贝叶斯统计的基本概念，如先验分布、共轭和生成建模。*后，本书回顾了一些基本的NLP建模技术，如语法建模、神经网络和表示学习，以及它们在贝叶斯分析中的应用。

文章节选

第1版前言
Bayesian Analysis in Natural Language Processing, Second Edition
当撰写涉及两个领域（贝叶斯统计和自然语言处理）交叉的主题时，需要考虑焦点和视角。本书旨在为在研究生求学期间和我具有相同处境的人编写，采取一种相当实用的视角。在研究生求学期间，我已经对自然语言处理中的问题和机器学习的基本原理有所了解，我想以纯抽象的方式来学习更多关于贝叶斯统计的知识，尤其是与自然语言处理*相关的部分。因此，本书就是从这种角度出发，提供有关计算语言学家将贝叶斯方法应用于工作时所需掌握的关键技术、术语和模型的抽象信息。
因此，本书的大部分章节比较简洁，且与贝叶斯统计的其他应用相关。只有*后一章为语法模型提供一些具体的自然语言处理应用，这些模型主要（但不完全）用于自然语言处理。
在理想情况下，本书面向的读者应该已经对自然语言处理中的统计建模有一定了解，并且希望对贝叶斯技术在自然语言处理中的具体应用有更深入的了解。做出更多关注贝叶斯自然语言处理数学层面的决策的动机很简单，因为大部分计算语言学家在他们的研究生生涯或其他阶段很早就接触到了自然语言处理的基本核心术语、自然语言处理所预测的语言结构及其背后的一些语言动机。特别是计算语言学家在研究中经常需要学习贝叶斯统计思想或掌握其他统计工具，因此他们有时会对贝叶斯统计产生误解，且缺失全局观。本书试图向读者提供一些缺失的细节。
当前做统计研究工作的方法有多种，频率学派方法和贝叶斯学派方法是其中的两种。频率学派方法有时也称为“经典统计”。而促使我更多地了解贝叶斯统计的一个原因是它拥有辉煌的历史。时至**，**的“频率学派和贝叶斯学派分歧”依然存在。这种关于统计分析应遵循的哲学的分歧，甚至比语法理论中生成语义学家和生成语法学家之间**的“语言战争”的争论更持久且更激烈。即使在贝叶斯阵营里，争论也没有结束。比如一部分人支持对概率的主观解释，而另一部分人支持客观解释。
虽然我在**次接触贝叶斯统计的核心思想（从理论上来讲，贝叶斯统计依赖于应用贝叶斯法则对数据和参数之间的关系进行转换）时，就被其优雅的数学理论所吸引，但我还是采用了很务实的做法，并没有试图将贝叶斯统计作为进行统计自然语言处理的**理论。在本书中，我也没有提供支持贝叶斯统计的哲学观点。相反，我提供了贝叶斯统计背后的技术机制，建议读者确定该技术是否适合自己所处理的问题。此外，本书还��述了贝叶斯统计与频率学派方法之间的一些联系，以及其他的共通点。如果读者有兴趣更多地了解贝叶斯统计背后的哲学，建议阅读文献Jaynes（2003）并查看文献Barnett（1999）。为了更好地了解贝叶斯统计背后的历史和人物，建议阅读书籍McGrayne（2011）。本书共分八章，内容如下：
第1章是关于概率和统计的复习，因为它们与贝叶斯自然语言处理相关。我们涵盖随机变量及其之间的独立性、条件独立性、随机变量期望等基本概念。本章还会简要讨论贝叶斯统计以及它与频率统计的区别。如果你具备计算机科学或统计学的一些基础知识，本章的大部分内容可以跳过。
第2章通过两个示例（隐狄利克雷分配模型和贝叶斯文本回归）介绍自然语言处理中的贝叶斯分析，并提供该主题的**概述。
第3章介绍贝叶斯统计建模的一个重要组成部分—先验，并讨论贝叶斯自然语言处理中*常用的先验，如狄利克雷分布、非信息先验和正态分布等。
第4章通过对后验分布的总结，阐述将频率统计和贝叶斯统计相结合的思路，并详细介绍在保持贝叶斯思维的同时为参数集合计算点估计的方法。
第5章介绍贝叶斯统计中一种主要的推断方法—马尔可夫链蒙特卡罗。还将详细介绍贝叶斯自然语言处理中*常用的两种采样算法：吉布斯采样和Metropolis-Hastings采样。
第6章介绍贝叶斯自然语言处理中另一种重要的推断方法—变分推断，并描述平均场变分推断和变分期望*大化算法。
第7章涵盖贝叶斯自然语言处理中的一种重要建模技术—非参数建模。我们讨论非参数模型—狄利克雷过程和Pitman-Yor过程。
第8章介绍自然语言处理中的基本语法模型（如概率上下文无关语法和同步语法），以及在贝叶斯上下文中构建它们的方法（使用诸如适配器语法、层次狄利克雷过程概率上下文无关语法等模型）。
此外，书后还有两个附录，它们提供阅读本书所需的额外背景信息。每章都附有至少5个习题。本书（包括每章后面的练习题）可以用作教材。具体来讲，本书可作为讲授有关自然语言处理中的贝叶斯分析的多门课程的教材。如果有充足的时间在课堂上讲授贝叶斯自然语言处理（比如四次课），建议将一次课用于第3章，一次课用于第4章，一次课用于第5章和第6章，一次课用于第7章。至于第8章的主题（如适配器语法或贝叶斯概率上下文无关语法），可以用示例的形式注入每次课中。第1版致谢
Bayesian Analysis in Natural Language Processing, Second Edition
感谢帮助我撰写本书的所有人。首先，我要特别感谢Lea Frermann、Trevor Cohn和Jacob Eisenstein，他们仔细阅读了本书的草稿，并给出了详细的反馈。还要感谢以其他形式提供反馈的人：Omri Abend、Apoorv Agarwal、Anahita Bhiwandiwalla、Jordan Boyd-Graber、Daniel Gildea、Sharon Goldwater、Mark Johnson、Mirella Lapata、Shalom Lappin、Adam Lopez、Brendan O’Connor、Mohammad Sadegh Rasooli、Siva Reddy、Stefan Riezler、Giorgio Satta、Stuart Shieber、Mark Steedman、Karl Stratos、Swabha Swayamdipta、Bonnie Webber和Dani Yogatama。也要感谢Sharon Rosenfeld，他对本书进行了校对，使之更具可读性。还要感谢Samantha Draper、Graeme Hirst、Michael Morgan和CL Tondo为本书的出版提供的帮助。
感谢所有于2013年春季在哥伦比亚大学计算机科学系参加我课程（“自然语言处理中的贝叶斯分析”）的**学生，他们（包括Jessica Forde、Daniel Perlmutter以及前面已经提到的其他学生）间接地帮助我更好地理解了年轻的研究人员在贝叶斯自然语言处理领域迈出**步时的需求，从而更好地确定了本书的知识结构。也要感谢我在贝叶斯自然语言处理领域的项目合作者David Blei、Jordan Boyd-Graber、Kevin Gimpel和Ke Zhai，他们帮助我塑造了对该领域的理解。
感谢我多年来的导师，尤其是Noah Smith，从他那里我**接触到贝叶斯自然语言处理。我的博士后导师Michael Collins支持我在博士后奖学金申请期间花时间写作本书，以及在哥伦比亚大学讲授贝叶斯自然语言处理课程。Mark Johnson的研究工作以及我们的谈话和电子邮件交流，都促进了本书的完成。
同时，还要感谢我的妻子Sylvia Cohen在我写作本书的时候一直陪着我。同样感谢Sylvia的家人，在我于匹兹堡学习贝叶斯分析等课程期间，他们总是让我有宾至如归的感觉。*后，我要感谢我的父母和兄弟姐妹—无论出现什么情况，他们对我的信任永不改变。谢伊·科恩
爱丁堡
2016年5月

译者序第2版前言第1版前言第1版致谢第1章基础知识 1 1.1 概率测度 1 1.2 随机变量 2 1.2.1 连续随机变量和离散随机变量 2 1.2.2 多元随机变量的联合分布 3 1.3 条件分布 4 1.3.1 贝叶斯法则 5 1.3.2 独立随机变量与条件独立随机变量 6 1.3.3 可交换的随机变量 6 1.4 随机变量的期望 7 1.5 模型 9 1.5.1 参数模型与非参数模型 9 1.5.2 模型推断 10 1.5.3 生成模型 11 1.5.4 模型中的独立性假定 13 1.5.5 有向图模型 13 1.6 从数据场景中学习 15 1.7 贝叶斯学派和频率学派的哲学（冰山一角） 17 1.8 本章小结 17 1.9 习题 18 第2章绪论 19 2.1 贝叶斯统计与自然语言处理的结合点概述 19 2.2 **个例子：隐狄利克雷分配模型 22 2.2.1 狄利克雷分布 26 2.2.2 推断 28 2.2.3 总结 29 2.3 第二个例子：贝叶斯文本回归 30 2.4 本章小结 31 2.5 习题 31 第3章先验 33 3.1 共轭先验 33 3.1.1 共轭先验和归一化常数 36 3.1.2 共轭先验在隐变量模型中的应用 37 3.1.3 混合共轭先验 38 3.1.4 重新归一化共轭分布 39 3.1.5 是否共轭的讨论 39 3.1.6 总结 40 3.2 多项式分布和类别分布的先验 40 3.2.1 再谈狄利克雷分布 41 3.2.2 Logistic正态分布 44 3.2.3 讨论 48 3.2.4 总结 49 3.3 非信息先验 49 3.3.1 均匀不正常先验 50 3.3.2 Jeffreys先验 51 3.3.3 讨论 51 3.4 共轭指数模型 52 3.5 模型中的多参数抽取 53 3.6 结构先验 54 3.7 本章小结 55 3.8 习题 56 第4章贝叶斯估计 57 4.1 隐变量学习：两种观点 58 4.2 贝叶斯点估计 58 4.2.1 *大后验估计 59 4.2.2 基于*大后验解的后验近似 64 4.2.3 决策-理论点估计 65 4.2.4 总结 66 4.3 经验贝叶斯 66 4.4 后验的渐近行为 68 4.5 本章小结 69 4.6 习题 69 第5章采样算法 70 5.1 MCMC算法：概述 71 5.2 MCMC推断的自然语言处理模型结构 71 5.3 吉布斯采样 73 5.3.1 坍塌吉布斯采样 76 5.3.2 运算符视图 79 5.3.3 并行化的吉布斯采样器 80 5.3.4 总结 81 5.4 Metropolis-Hastings算法 82 5.5 切片采样 84 5.5.1 辅助变量采样 85 5.5.2 切片采样和辅助变量采样在自然语言处理中的应用 85 5.6 模拟退火 86 5.7 MCMC算法的收敛性 86 5.8 马尔可夫链：基本理论 88 5.9 MCMC领域外的采样算法 89 5.10 蒙特卡罗积分 91 5.11 讨论 93 5.11.1 分布的可计算性与采样 93 5.11.2 嵌套的MCMC采样 93 5.11.3 MCMC方法的运行时间 93 5.11.4 粒子滤波 93 5.12 本章小结 95 5.13 习题 95 第6章变分推断 97 6.1 边缘对数似然的变分界 97 6.2 平均场近似 99 6.3 平均场变分推断算法 100 6.3.1 狄利克雷-多项式变分推断 101 6.3.2 与期望*大化算法的联系 104 6.4 基于变分推断的经验贝叶斯 106 6.5 讨论 106 6.5.1 推断算法的初始化 107 6.5.2 收敛性诊断 107 6.5.3 变分推断在解码中的应用 107 6.5.4 变分推断*小化KL散度 108 6.5.5 在线的变分推断 109 6.6 本章小结 109 6.7 习题 109 第7章非参数先验 111 7.1 狄利克雷过程：三种视角 112 7.1.1 折棍子过程 112 7.1.2 中餐馆过程 114 7.2 狄利克雷过程混合模型 115 7.2.1 基于狄利克雷过程混合模型的推断 116 7.2.2 狄利克雷过程混合是混合模型的极限 118 7.3 层次狄利克雷过程 119 7.4 Pitman?Yor过程 120 7.4.1 Pitman-Yor过程用于语言建模 121 7.4.2 Pitman-Yor过程的幂律行为 122 7.5 讨论 123 7.5.1 高斯过程 124 7.5.2 印度自助餐过程 124 7.5.3 嵌套的中餐馆过程 125 7.5.4 距离依赖的中餐馆过程 125 7.5.5 序列记忆器 126 7.6 本章小结 126 7.7 习题 127 第8章贝叶斯语法模型 128 8.1 贝叶斯隐马尔可夫模型 129 8.2 概率上下文无关语法 131 8.2.1 作为多项式分布集的PCFG 133 8.2.2 PCFG的基本推断算法 133 8.2.3 作为隐马尔可夫模型的PCFG 136 8.3 贝叶斯概率上下文无关语法 137 8.3.1 PCFG的先验 137 8.3.2 贝叶斯PCFG的蒙特卡罗推断 138 8.3.3 贝叶斯PCFG的变分推断 139 8.4 适配器语法 140 8.4.1 Pitman-Yor适配器语法 141 8.4.2 PYAG的折棍子视角 142 8.4.3 基于PYAG的推断 143 8.5 层次狄利克雷过程PCFG 144 8.6 依存语法 147 8.7 同步语法 148 8.8 多语言学习 149 8.8.1 词性标注 149 8.8.2 语法归纳 151 8.9 延伸阅读 152 8.10 本章小结 153 8.11 习题 153 第9章表征学习与神经网络 155 9.1 神经网络与表征学习：为什么是现在 155 9.2 词嵌入 158 9.2.1 词嵌入的skip-gram模型 158 9.2.2 贝叶斯skip-gram词嵌入 160 9.2.3 讨论 161 9.3 神经网络 162 9.3.1 频率论估计和反向传播算法 164 9.3.2 神经网络权值的先验 166 9.4 神经网络在自然语言处理中的现代应用 168 9.4.1 循环神经网络和递归神经网络 168 9.4.2 梯度消失与梯度爆炸问题 169 9.4.3 神经编码器-解码器模型 172 9.4.4 卷积神经网络 175 9.5 调整神经网络 177 9.5.1 正则化 177 9.5.2 超参数调整 178 9.6 神经网络生成建模 180 9.6.1 变分自编码器 180 9.6.2 生成对抗网络 185 9.7 本章小结 186 9.8 习题 187 结束语 189 附录A 基本概念 191 附录B 概率分布清单 197 参考文献 203