第1版前言
Bayesian Analysis in Natural Language Processing, Second Edition
当撰写涉及两个领域(贝叶斯统计和自然语言处理)交叉的主题时,需要考虑焦点和视角。本书旨在为在研究生求学期间和我具有相同处境的人编写,采取一种相当实用的视角。在研究生求学期间,我已经对自然语言处理中的问题和机器学习的基本原理有所了解,我想以纯抽象的方式来学习更多关于贝叶斯统计的知识,尤其是与自然语言处理*相关的部分。因此,本书就是从这种角度出发,提供有关计算语言学家将贝叶斯方法应用于工作时所需掌握的关键技术、术语和模型的抽象信息。
因此,本书的大部分章节比较简洁,且与贝叶斯统计的其他应用相关。只有*后一章为语法模型提供一些具体的自然语言处理应用,这些模型主要(但不完全)用于自然语言处理。
在理想情况下,本书面向的读者应该已经对自然语言处理中的统计建模有一定了解,并且希望对贝叶斯技术在自然语言处理中的具体应用有更深入的了解。做出更多关注贝叶斯自然语言处理数学层面的决策的动机很简单,因为大部分计算语言学家在他们的研究生生涯或其他阶段很早就接触到了自然语言处理的基本核心术语、自然语言处理所预测的语言结构及其背后的一些语言动机。特别是计算语言学家在研究中经常需要学习贝叶斯统计思想或掌握其他统计工具,因此他们有时会对贝叶斯统计产生误解,且缺失全局观。本书试图向读者提供一些缺失的细节。
当前做统计研究工作的方法有多种,频率学派方法和贝叶斯学派方法是其中的两种。频率学派方法有时也称为“经典统计”。而促使我更多地了解贝叶斯统计的一个原因是它拥有辉煌的历史。时至**,**的“频率学派和贝叶斯学派分歧”依然存在。这种关于统计分析应遵循的哲学的分歧,甚至比语法理论中生成语义学家和生成语法学家之间**的“语言战争”的争论更持久且更激烈。即使在贝叶斯阵营里,争论也没有结束。比如一部分人支持对概率的主观解释,而另一部分人支持客观解释。
虽然我在**次接触贝叶斯统计的核心思想(从理论上来讲,贝叶斯统计依赖于应用贝叶斯法则对数据和参数之间的关系进行转换)时,就被其优雅的数学理论所吸引,但我还是采用了很务实的做法,并没有试图将贝叶斯统计作为进行统计自然语言处理的**理论。在本书中,我也没有提供支持贝叶斯统计的哲学观点。相反,我提供了贝叶斯统计背后的技术机制,建议读者确定该技术是否适合自己所处理的问题。此外,本书还��述了贝叶斯统计与频率学派方法之间的一些联系,以及其他的共通点。如果读者有兴趣更多地了解贝叶斯统计背后的哲学,建议阅读文献Jaynes(2003)并查看文献Barnett(1999)。为了更好地了解贝叶斯统计背后的历史和人物,建议阅读书籍McGrayne(2011)。本书共分八章,内容如下:
第1章是关于概率和统计的复习,因为它们与贝叶斯自然语言处理相关。我们涵盖随机变量及其之间的独立性、条件独立性、随机变量期望等基本概念。本章还会简要讨论贝叶斯统计以及它与频率统计的区别。如果你具备计算机科学或统计学的一些基础知识,本章的大部分内容可以跳过。
第2章通过两个示例(隐狄利克雷分配模型和贝叶斯文本回归)介绍自然语言处理中的贝叶斯分析,并提供该主题的**概述。
第3章介绍贝叶斯统计建模的一个重要组成部分—先验,并讨论贝叶斯自然语言处理中*常用的先验,如狄利克雷分布、非信息先验和正态分布等。
第4章通过对后验分布的总结,阐述将频率统计和贝叶斯统计相结合的思路,并详细介绍在保持贝叶斯思维的同时为参数集合计算点估计的方法。
第5章介绍贝叶斯统计中一种主要的推断方法—马尔可夫链蒙特卡罗。还将详细介绍贝叶斯自然语言处理中*常用的两种采样算法:吉布斯采样和Metropolis-Hastings采样。
第6章介绍贝叶斯自然语言处理中另一种重要的推断方法—变分推断,并描述平均场变分推断和变分期望*大化算法。
第7章涵盖贝叶斯自然语言处理中的一种重要建模技术—非参数建模。我们讨论非参数模型—狄利克雷过程和Pitman-Yor过程。
第8章介绍自然语言处理中的基本语法模型(如概率上下文无关语法和同步语法),以及在贝叶斯上下文中构建它们的方法(使用诸如适配器语法、层次狄利克雷过程概率上下文无关语法等模型)。
此外,书后还有两个附录,它们提供阅读本书所需的额外背景信息。每章都附有至少5个习题。本书(包括每章后面的练习题)可以用作教材。具体来讲,本书可作为讲授有关自然语言处理中的贝叶斯分析的多门课程的教材。如果有充足的时间在课堂上讲授贝叶斯自然语言处理(比如四次课),建议将一次课用于第3章,一次课用于第4章,一次课用于第5章和第6章,一次课用于第7章。至于第8章的主题(如适配器语法或贝叶斯概率上下文无关语法),可以用示例的形式注入每次课中。 第1版致谢
Bayesian Analysis in Natural Language Processing, Second Edition
感谢帮助我撰写本书的所有人。首先,我要特别感谢Lea Frermann、Trevor Cohn和Jacob Eisenstein,他们仔细阅读了本书的草稿,并给出了详细的反馈。还要感谢以其他形式提供反馈的人:Omri Abend、Apoorv Agarwal、Anahita Bhiwandiwalla、Jordan Boyd-Graber、Daniel Gildea、Sharon Goldwater、Mark Johnson、Mirella Lapata、Shalom Lappin、Adam Lopez、Brendan O’Connor、Mohammad Sadegh Rasooli、Siva Reddy、Stefan Riezler、Giorgio Satta、Stuart Shieber、Mark Steedman、Karl Stratos、Swabha Swayamdipta、Bonnie Webber和Dani Yogatama。也要感谢Sharon Rosenfeld,他对本书进行了校对,使之更具可读性。还要感谢Samantha Draper、Graeme Hirst、Michael Morgan和CL Tondo为本书的出版提供的帮助。
感谢所有于2013年春季在哥伦比亚大学计算机科学系参加我课程(“自然语言处理中的贝叶斯分析”)的**学生,他们(包括Jessica Forde、Daniel Perlmutter以及前面已经提到的其他学生)间接地帮助我更好地理解了年轻的研究人员在贝叶斯自然语言处理领域迈出**步时的需求,从而更好地确定了本书的知识结构。也要感谢我在贝叶斯自然语言处理领域的项目合作者David Blei、Jordan Boyd-Graber、Kevin Gimpel和Ke Zhai,他们帮助我塑造了对该领域的理解。
感谢我多年来的导师,尤其是Noah Smith,从他那里我**接触到贝叶斯自然语言处理。我的博士后导师Michael Collins支持我在博士后奖学金申请期间花时间写作本书,以及在哥伦比亚大学讲授贝叶斯自然语言处理课程。Mark Johnson的研究工作以及我们的谈话和电子邮件交流,都促进了本书的完成。
同时,还要感谢我的妻子Sylvia Cohen在我写作本书的时候一直陪着我。同样感谢Sylvia的家人,在我于匹兹堡学习贝叶斯分析等课程期间,他们总是让我有宾至如归的感觉。*后,我要感谢我的父母和兄弟姐妹—无论出现什么情况,他们对我的信任永不改变。 谢伊·科恩
爱丁堡
2016年5月