图书介绍

OREILLY精品图书系列 面向机器学习的自然语言标注PDF|Epub|txt|kindle电子书版本网盘下载

OREILLY精品图书系列 面向机器学习的自然语言标注
  • (美)普斯特若夫斯基(James Pustejovsky),(美)斯塔布斯(Amber Stubbs)著;邱立坤,金澎,王萌译 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111555155
  • 出版时间:2017
  • 标注页数:294页
  • 文件大小:74MB
  • 文件页数:313页
  • 主题词:自然语言处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

OREILLY精品图书系列 面向机器学习的自然语言标注PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

前言1

第1章基础知识7

1.1语言标注的重要性7

1.1.1语言学描述的层次8

1.1.2什么是自然语言处理9

1.2语料库语言学简史10

1.2.1什么是语料库13

1.2.2语料库的早期应用15

1.2.3当今的语料库17

1.2.4标注类型18

1.3语言数据和机器学习24

1.3.1分类25

1.3.2聚类25

1.3.3结构化模式归纳26

1.4标注开发循环26

1.4.1现象建模27

1.4.2按照规格说明进行标注30

1.4.3在语料库上训练和测试算法31

1.4.4对结果进行评价32

1.4.5修改模型和算法33

总结34

第2章确定目标与选择数据36

2.1定义目标36

2.1.1目标陈述37

2.1.2提炼目标:信息量与正确性38

2.2背景研究43

2.2.1语言资源44

2.2.2机构与会议44

2.2.3自然语言处理竞赛45

2.3整合数据集46

2.3.1理想的语料库:代表性与平衡性47

2.3.2从因特网上收集数据47

2.3.3从人群中获取数据48

2.4语料库的规模49

2.4.1现有语料库50

2.4.2语料库内部的分布51

总结53

第3章语料库分析54

3.1语料库分析中的基本概率知识55

3.1.1联合概率分布56

3.1.2贝叶斯定理58

3.2计算出现次数58

3.2.1齐普夫定律(Zip’s Law)61

3.2.2 n元语法62

3.3语言模型63

总结65

第4章建立模型与规格说明66

4.1模型和规格说明示例66

4.1.1电影题材分类69

4.1.2添加命名实体70

4.1.3语义角色71

4.2采用(或不采用)现有模型73

4.2.1创建模型和规格说明:一般性与特殊性74

4.2.2使用现有模型和规格说明76

4.2.3使用没有规格说明的模型78

4.3各种标准78

4.3.1 ISO标准78

4.3.2社区驱动型标准81

4.3.3影响标注的其他标准81

总结82

第5章选择并应用标注标准84

5.1元数据标注:文档分类85

5.1.1单标签标注:电影评论85

5.1.2多标签标注:电影题材87

5.2文本范围标注:命名实体90

5.2.1内嵌式标注90

5.2.2基于词例的分离式标注92

5.2.3基于字符位置的分离式标注95

5.3链接范围标注:语义角色96

5.4 ISO标准和你97

总结97

第6章标注与审核99

6.1标注项目的基本结构99

6.2标注规格说明与标注指南101

6.3准备修改102

6.4准备用于标注的数据103

6.4.1元数据103

6.4.2数据预处理104

6.4.3为标注工作分割文件104

6.5撰写标注指南105

6.5.1例1:单标签标注——电影评论106

6.5.2例2:多标签标注——电影题材108

6.5.3例3:范围标注——命名实体111

6.5.4例4:链接范围标注——语义角色112

6.6标注人员114

6.7选择标注环境116

6.8评价标注结果117

6.8.1 Cohen的Карра(к)算法118

6.8.2 Fleiss的Карра(к)算法119

6.8.3解释Kappa系数122

6.8.4在其他上下文中计算к值123

6.9创建黄金标准(审核)125

总结126

第7章训练:机器学习129

7.1何谓学习130

7.2定义学习任务132

7.3分类算法133

7.3.1决策树学习135

7.3.2朴素贝叶斯学习140

7.3.3最大熵分类器145

7.3.4其他需要了解的分类器147

7.4序列归纳算法148

7.5聚类和无监督学习150

7.6半监督学习150

7.7匹配标注与算法153

总结154

第8章测试与评价156

8.1测试算法157

8.2评价算法157

8.2.1混淆矩阵157

8.2.2计算评价得分159

8.2.3解释评价得分163

8.3可能影响算法评价的问题164

8.3.1数据集太小164

8.3.2算法过于适合开发数据166

8.3.3标注中的信息过多166

8.4最后测试得分167

总结167

第9章修改与报告169

9.1修改项目170

9.1.1语料库分布和内容170

9.1.2模型和规格说明170

9.1.3标注171

9.1.4训练和测试172

9.2报告工作173

9.2.1关于语料库174

9.2.2关于模型和规格说明175

9.2.3关于标注任务和标注人员175

9.2.4关于ML算法176

9.2.5关于修改177

总结177

第10章标注:TimeML179

10.1 TimeML的设计目标180

10.2相关研究181

10.3建设语料库182

10.4模型:初步的标注规格说明183

10.4.1时间183

10.4.2信号184

10.4.3事件184

10.4.4链接184

10.5标注:最初的尝试185

10.6模型:TimeBank中的TimeML标注规格说明185

10.6.1时间表达式185

10.6.2事件186

10.6.3信号187

10.6.4链接187

10.6.5可信度189

10.7标注:TimeBank的产生189

10.8 TimeML成为ISO-TimeML192

10.9对未来建模:TimeML的发展方向193

10.9.1叙事容器194

10.9.2将TimeML扩展到其他领域195

10.9.3事件结构196

总结197

第11章自动标注:生成TimeML199

11.1 TARSQI组件200

11.1.1 GUTime:时间标志识别201

11.1.2 EVITA:事件识别及分类201

11.1.3 GUTenLINK202

11.1.4 Slinket204

11.1.5 SputLink204

11.1.6 TARSQI组件中的机器学习205

11.2 TTK的改进206

11.2.1结构变化206

11.2.2时间实体识别改进:BTime207

11.2.3时间关系识别207

11.2.4时间关系验证208

11.2.5时间关系可视化209

11.3 TimeML竞赛:TempEval-2209

11.3.1 TempEval-2:系统概述210

11.3.2成果综述213

11.4 TTK的未来213

11.4.1新的输入格式213

11.4.2叙事容器/叙事时间214

11.4.3医学文档215

11.4.4跨文档分析216

总结216

第12章后记:标注的未来发展趋势217

12.1众包标注217

12.1.1亚马逊土耳其机器人218

12.1.2有目的的游戏219

12.1.3用户生成内容220

12.2处理大数据220

12.2.1 Boosting算法221

12.2.2主动学习221

12.2.3半监督学习223

12.3 NLP在线和在云端223

12.3.1分布式计算223

12.3.2语言资源共享224

12.3.3语言应用共享224

结语225

附录A可利用的语料库与标注规格说明列表227

附录B软件资源列表249

附录C MAE用户指南269

附录D MAI用户指南276

附录E参考文献282

热门推荐