图书介绍

中文信息处理技术教程PDF|Epub|txt|kindle电子书版本网盘下载

朱巧明，李培峰，吴娴，朱晓旭等编著著
出版社：北京：清华大学出版社
ISBN：7302117616
出版时间：2005
标注页数：291页
文件大小：30MB
文件页数：299页
主题词：汉字信息处理－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：ec4c7b20867a9fbf46f41a856b28a28f

下载说明

中文信息处理技术教程PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

目录1

第1章　概论1

1.1　信息处理1

1.2　中文信息处理2

1.3　计算机中文信息处理主要研究对象3

1.4　现代汉语的特点12

1.5 中文信息处理的国际化和本地化18

思考题20

第2章　汉字信息在计算机内部的表示21

2.1　英文字符在计算机内部的表示21

2.2 中文信息在计算机中的表示24

2.3　汉字代码体系25

2.4　汉字的排序27

2.5　汉字编码字符集28

思考题37

第3章　汉字字符编码集的应用39

3.1　汉字的简繁转换39

3.1.1　汉字简化字标准介绍39

3.1.2　简繁—繁简转换中遇到的问题40

3.1.3　汉字简繁—繁简转换的实现41

3.2　Intemet上常用的字符编码集42

3.2.1　UUENCODE编码43

3.2.2　QUOTED-PRINTABLE编码44

3.2.3　BASE64编码45

3.2.4　HZ编码46

3.2.5　UTF编码46

思考题50

附录51

第4章　汉字编码技术55

4.1　汉字编码的发展55

4.2　汉字编码中的几个概念56

4.2.1　字符集／字汇和词汇56

4.2.2　码元56

4.3.1　汉字的熵57

4.3　汉字编码理论57

4.2.5　编码空间和编码效率57

4.2.4　单码和重码57

4.2.3　码长57

4.3.2　汉字键盘编码的依据59

4.3.3　汉字编码分类62

4.3.4　键盘编码和键盘63

4.4　数码键盘方案67

4.4.1　纵横码68

4.4.2　五笔数码68

4.4.3　统一码69

4.5　汉字编码的标准和规范70

4.5.1　汉字编码国家标准和规范70

4.5.3　汉字键盘编码和输入系统的性能指标71

8.3　汉字显示技术实例 171

4.5.2　与汉字编码有关的标准与规范说明71

思考题73

第5章　中文平台与中文操作系统74

5.1 中文平台与中文操作系统历史74

5.2　中文操作系统设计方法75

5.3　汉字处理模块与汉字代码体系77

5.4　常用中文操作系统简介78

5.4.1　CC-DOS78

5.4.2　中文Windows79

5.4.3　中文Linux操作系统81

5.4.4　中文嵌入式操作系统83

思考题86

6.1.1　汉字输入发展史87

第6章　汉字输入技术87

6.1　汉字输入技术概述87

6.1.2　汉字输入分类88

6.1.3　汉字输入技术的发展和应用91

6.2　汉字键盘输入技术93

6.2.1　键盘93

6.2.2　汉字键盘输入原理95

6.2.3　键盘汉字输入的总体流程97

6.2.4　输入码对照表的设计98

6.3　汉字键盘输入系统108

6.3.1　汉字输入系统的分类108

6.3.2　汉字输入系统的功能109

6.3.3　汉字键盘输入系统的工作流程111

6.4　Windows汉字输入技术112

6.4.1　概述112

6.4.2　Windows 中的汉字输入原理114

6.4.3　输入法生成器116

6.4.4　在SDK和DDK环境下开发输入系统117

6.5　Linux下的汉字输入系统117

6.5.1　概述117

6.5.2　XIM协议118

6.5.3　输入法服务器和输入法121

6.5.4　输入法设计123

思考题124

7.1.1　汉字字形及其特点126

7.1　汉字字形概述126

第7章　汉字字形和字形库管理技术126

7.1.2　字形、字型和字形库128

7.1.3　字形描述技术及其种类129

7.2　字形描述技术129

7.2.1　点阵字形描述技术129

7.2.2　轮廓矢量字形描述技术132

7.2.3 曲线轮廓字形描述技术132

7.2.4　其他字形描述技术134

7.3　字形的压缩和还原135

7.3.1　字形点阵的压缩和还原136

7.3.2　轮廓矢量字形的压缩方法137

7.3.3　其他字形压缩技术139

7.4　字形的放大和缩小141

7.4.1　汉字的字号141

7.4.3　防止字形放大和缩小失真的措施142

7.4.2　字形放大和缩小的基本原理142

7.4.4　字形放大缩小的应用144

7.5　TTF字形技术145

7.5.1　什么是TrueType145

7.5.2 TrueType的基本原理145

7.5.3 TrueType字体文件结构147

7.5.4 TrueType的特点和优势148

7.5.5 TrueType的应用149

7.5.6 OpenType的出现151

7.6 字库的设计和管理技术152

7.6.1　汉字字库的基本要求152

7.6.2　汉字库性能的评测153

7.6.3　汉字库结构的设计154

7.6.4　点阵字库的制作155

7.7.1　造字程序的使用157

7.7　汉字字库的应用157

7.7.2　安装新字体159

思考题160

第8章　汉字输出技术161

8.1　汉字的输出技术综述161

8.2　汉字显示输出原理和基本结构162

8.2.1　显示设备162

8.2.2　汉字显示的原理168

8.2.3　内码缓冲区和字形缓冲区169

8.2.4　汉字显示输出过程170

8.2.5　汉字终端171

8.3.1　DOS下的汉字显示技术171

8.3.2　Windows的汉字显示技术173

8.4　打印输出原理和基本结构178

8.4.1　打印设备178

8.4.2　汉字打印概述179

8.4.3　汉字打印原理180

8.4.4　汉字打印过程181

8.4.5　汉字打印机181

思考题182

第9章　汉语分词183

9.1　汉语分词的概念183

9.2　分词词典185

9.2.1　分词词典简介185

9.2.2　基于词属性的分词词典186

9.2.3　基于二次索引的分词词典188

9.3　常用的汉语分词算法189

9.3.1　正向最大匹配算法190

9.3.3　邻近匹配算法191

9.3.2　逆向最大匹配算法191

9.3.4　最短路径匹配算法193

9.3.5　基于统计的最短路径分词算法195

9.4　无词典分词方法196

9.4.1　分词模型196

9.4.2　无词典分词算法197

9.5　交集型歧义的切分199

9.5.1　基本概念200

9.5.2　利用互信息和t-测试差处理交集型歧义切分201

思考题202

10.1　信息检索概述203

10.1.1　信息检索的定义203

第10章　中文信息检索203

10.1.2　结构、半结构和非结构化文档204

10.1.3　信息检索的任务205

10.1.4　信息检索的评测206

10.1.5　中文信息检索的特点207

10.1.6　信息检索的模型207

10.1.7　信息检索系统的结构208

10.2　基于统计的信息检索模型209

10.2.1　传统的布尔模型210

10.2.2　扩展的布尔模型210

10.2.3　向量空间模型212

10.2.4　概率模型218

10.3　基于语义的信息检索225

10.3.1 自然语言处理225

10.3.2　潜在语义索引228

10.3.3　神经网络234

10.4　信息检索系统介绍235

10.5　Web信息检索236

10.5.1　Web信息检索系统237

10.5.2　Web信息检索的特点238

10.5.3　搜索引擎240

10.5.4　搜索引擎的网页分级算法244

10.5.5　常用Web搜索引擎248

10.5.6　搜索引擎技术的发展趋势249

思考题250

第11章　中文信息抽取251

11.1　信息抽取概述251

11.1.1　信息抽取的含义251

11.1.3　信息抽取和信息检索252

11.1.2　信息抽取实例252

11.1.4　中文信息抽取的特殊性253

11.1.5　信息抽取的历史和现状253

11.1.6　信息抽取系统的评测256

11.1.7　信息抽取任务256

11.2　信息抽取系统的结构258

11.2.1　信息抽取系统的构建方法258

11.2.2　通用信息抽取结构259

11.2.3　Bare Bones结构260

11.3　信息抽取中的自然语言处理技术261

11.3.1　命名实体识别261

11.3.2　句法分析261

11.3.3　文章分析和推理262

11.3.4　知识理解262

11.4.1　基于规则的信息抽取技术263

11.4　信息抽取技术263

11.4.2　隐马尔可夫模型267

11.5　Web信息抽取271

11.5.1基于自然语言处理方式的信息抽取272

11.5.2　包装器方式的信息抽取272

1 1.5.3　基于本体方式的信息抽取273

11.5.4　基于HTML结构的信息抽取273

11.5.5　基于Web查询的信息抽取274

思考题274

第12章　中文文本分类技术 .275

12.1　文本分类的概念275

12.1.1　什么是文本分类275

12.1.2　文本分类的两种类型275

12.1.4　中文文本分类276

12.1.3　文本分类的两种方式276

12.1.5　文本分类的国内外研究情况277

12.2　文本特征的选择278

12.2.1　预处理278

12.2.2　文本特征的选择278

12.3　文本分类方法281

12.3.1　Rocchio方法——相似度计算方法281

12.3.2　Na？ve Bayes——贝叶斯方法281

12.3.3　KNN方法——K近邻方法282

12.3.4　SVM——支持向量机282

12.3.5　Decision Tree——决策树方法283

12.4　选择阈值的策略284

12.5　评估方法285

思考题286

参考文献287