本教材立足于当下大数据与人工智能时代,图书情报学发展的新方向和新趋势,以数字人文为导向,围绕中文信息处理的特点,从汉字处理、自动分词、词性标注、实体识别、浅层句法分析、知识图谱构建、语义标注、知识检索、机器翻译、预训练模型为主要章节内容,重点围绕人工智能与自然语言处理中的前沿深度学习技术,进行相关内容的重新编写。本教材一方面充分讲解了深度学习在中文信息处理中的具体应用,另一方面围绕每一章,针对每一个知识点,以代码实战的形式,呈现和讲解知识的细节和应用的技巧,使前沿深度学习技术能够落到实处,真正帮助专业学生掌握推荐的技术能力。较之已出版的相关教材,本教材创新之处在于,除全面梳理和呈现数字人文与中文信息处理所需技术之外,对每一个知识点相关的应用技术都以具体代码的形式进行了呈现和讲解,使得学生所学所有内容都能够落到实处。另一方面,本教材所关注技术以中文为对象,包含了目前深度学习和自然语言处理的相关教材所不具备的内容,如汉字处理、自动分词内容等。
第一章数字人文下的汉字处理
1.1汉字基本知识
(1)字汇
(2)字形(Glyph)
(3)字型(Font)
(4)字体(Typeface)
1.2汉字编码
(1)ASCII
(2)GB2312-80
(3)Big5
(4)GBK
(5)Unicode
1.3汉字处理程序
(1)繁体和简体相互转换
(2)文本仅保留中英文、数字和符号
(3)文本仅保留汉字
(4)字频统计
……
南京农业大学教授,博导。主持完成和在研国家自然科学基金面上、国家自然科学基金青年、国家社科基金重大项目子课题、江苏省社科基金项目等共计11项。发表SSCI、CSSCI检索论文84篇。以第一作者出版专著三部。江苏高校“青蓝工程”中青年学术带头人,江苏省“333高层次人才培养工程”第三层次培养对象。研究方向为:知识管理与知识发现、Python程序设计与R语言等。