本书共9章。第1章:统计语言模型概述。首先简要介绍了自然语言处理中两种基本研究方法,即基于规则的理性主义方法和基于统计的经验主义方法;然后从语料库及语料库语言学的含义讲起,简要介绍了国外语料库建设情况,详细介绍了国内各类语料库的建设现状,对语料库语言学研究的理论意义和现实意义进行了简要论述;接着对统计语言模型的基本概念及研究进展进行了介绍,对一些常见的统计语言模型进行了简要介绍,给出了研究统计语言模型内在机制的关键所在;*后给出了本书的组织结构和各章主要内容。
第2章:统计语言模型基础知识。首先介绍了统计语言模型中的概率论基础及图论基础;然后对统计语言模型中容易出现的数据稀疏问题进行了分析;*后对常用的数据平滑算法进行了论述。
第3章:朴素贝叶斯分类器及其应用。首先介绍了贝叶斯定理、朴素贝叶斯分类的机制;然后介绍了朴素贝叶斯分类器的训练学习方法;*后给出了基于朴素贝叶斯分类的应用举例。
第4章:隐马尔可夫模型及其应用。首先介绍了隐马尔可夫模型的特点及定义;然后对模型中3个基本问题的解决方法进行了论述和分析;*后实现了一个基于隐马尔可夫模型的汉语词性标注系统,并对隐马尔可夫模型的一些其他应用进行了简述。
第5章:*熵模型及其应用。首先从熵与熵增原理、信息熵与*熵原理、熵与信息熵的区别讲起;然后通过两个例子引出了*熵模型;接着给出了*熵模型的基本概念和一般形式,详细讲解了*熵模型建模的整体框架和内在机制,并对*熵建模的两个关键问题——特征选择和参数估计进行了详细阐述;*后结合汉语词性标注、汉语词法分析、事件信息抽取中的事件分类解析了*熵模型*熵工具包的使用和*熵模型的实现细节。
第6章:条件随机场及其应用。首先简要介绍了什么是概率图模型,对两种不同的概率图模型——有向图模型和无向图模型进行了介绍;然后给出了条件随机场的相关概念、一般形式、建模的内在机制等;接着给出了条件随机场不同的参数估计方法;*后以3个应用为例详细论述了条件随机场的应用。
第7章:统计语言模型之间的联系与区别。首先阐述了统计语言模型的内在机制,给出了统计语言建模的统一框架;然后从统计语言模型的表示、学习、推理3个方面详细论述了统计语言建模的关键问题;*后将统计语言模型分为生成模型与判别模型,并据此对前面章节讲解的几种统计语言模型之间的联系和区别进行了论述。
第8章:深度学习及其在自然语言处理中的应用。首先简要介绍了人工神经网络;然后阐述了深度学习的基本理论及思想、研究发展历程、几种流行的深度学习框架等;*后较详细介绍了近年来深度学习在自然语言处理各个子研究领域的应用及其发展。
第9章:统计语言模型研究展望。首先从前沿技术和发展趋势两个方面对统计机器学习进行了展望;然后对自然语言处理的发展趋势和未来方向进行了简要论述;*后简要总结了统计语言模型的研究现状,简要阐述了统计语言模型的机遇挑战,并对统计语言模型的未来进行了展望。
本书*后是4个附录:附录1是“三位一体字标注汉语词法分析中词法信息标记”,附录2是“中文文本中职务变动类事件触发词”,附录3是“ACE2007评测中给出的事件类型及子类型”,附录4是“词位标注汉语分词研究中用到的部分特征模板集”。
本书第1章、第5章、第6章、第7章、第8章和第9章由安阳师范学院于江德老师撰写,第2章、第3章和第4章由安阳师范学院赵红丹老师撰写,全书由于江德老师统稿。
*后,谨向为本书中所总结的研究与探索工作提供帮助的自然语言处理实验室的各位老师和自然语言处理科研兴趣小组的同学们表示感谢。同时,也对为本书出版付出辛勤劳动的组织、策划、编辑、设计等工作人员表示由衷的感谢。
本书的撰写和出版由河南省高校科技创新团队支持计划(17IRTSTHN012)资助,在此一并表示感谢。
由于作者水平有限,书中难免存在错误、不足或不妥之处,真诚希望各位专家学者和读者批评指正。