图书介绍
OREILLY精品图书系列 面向机器学习的自然语言标注PDF|Epub|txt|kindle电子书版本网盘下载
![OREILLY精品图书系列 面向机器学习的自然语言标注](https://www.shukui.net/cover/39/30425264.jpg)
- (美)普斯特若夫斯基(James Pustejovsky),(美)斯塔布斯(Amber Stubbs)著;邱立坤,金澎,王萌译 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111555155
- 出版时间:2017
- 标注页数:294页
- 文件大小:74MB
- 文件页数:313页
- 主题词:自然语言处理
PDF下载
下载说明
OREILLY精品图书系列 面向机器学习的自然语言标注PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
前言1
第1章基础知识7
1.1语言标注的重要性7
1.1.1语言学描述的层次8
1.1.2什么是自然语言处理9
1.2语料库语言学简史10
1.2.1什么是语料库13
1.2.2语料库的早期应用15
1.2.3当今的语料库17
1.2.4标注类型18
1.3语言数据和机器学习24
1.3.1分类25
1.3.2聚类25
1.3.3结构化模式归纳26
1.4标注开发循环26
1.4.1现象建模27
1.4.2按照规格说明进行标注30
1.4.3在语料库上训练和测试算法31
1.4.4对结果进行评价32
1.4.5修改模型和算法33
总结34
第2章确定目标与选择数据36
2.1定义目标36
2.1.1目标陈述37
2.1.2提炼目标:信息量与正确性38
2.2背景研究43
2.2.1语言资源44
2.2.2机构与会议44
2.2.3自然语言处理竞赛45
2.3整合数据集46
2.3.1理想的语料库:代表性与平衡性47
2.3.2从因特网上收集数据47
2.3.3从人群中获取数据48
2.4语料库的规模49
2.4.1现有语料库50
2.4.2语料库内部的分布51
总结53
第3章语料库分析54
3.1语料库分析中的基本概率知识55
3.1.1联合概率分布56
3.1.2贝叶斯定理58
3.2计算出现次数58
3.2.1齐普夫定律(Zip’s Law)61
3.2.2 n元语法62
3.3语言模型63
总结65
第4章建立模型与规格说明66
4.1模型和规格说明示例66
4.1.1电影题材分类69
4.1.2添加命名实体70
4.1.3语义角色71
4.2采用(或不采用)现有模型73
4.2.1创建模型和规格说明:一般性与特殊性74
4.2.2使用现有模型和规格说明76
4.2.3使用没有规格说明的模型78
4.3各种标准78
4.3.1 ISO标准78
4.3.2社区驱动型标准81
4.3.3影响标注的其他标准81
总结82
第5章选择并应用标注标准84
5.1元数据标注:文档分类85
5.1.1单标签标注:电影评论85
5.1.2多标签标注:电影题材87
5.2文本范围标注:命名实体90
5.2.1内嵌式标注90
5.2.2基于词例的分离式标注92
5.2.3基于字符位置的分离式标注95
5.3链接范围标注:语义角色96
5.4 ISO标准和你97
总结97
第6章标注与审核99
6.1标注项目的基本结构99
6.2标注规格说明与标注指南101
6.3准备修改102
6.4准备用于标注的数据103
6.4.1元数据103
6.4.2数据预处理104
6.4.3为标注工作分割文件104
6.5撰写标注指南105
6.5.1例1:单标签标注——电影评论106
6.5.2例2:多标签标注——电影题材108
6.5.3例3:范围标注——命名实体111
6.5.4例4:链接范围标注——语义角色112
6.6标注人员114
6.7选择标注环境116
6.8评价标注结果117
6.8.1 Cohen的Карра(к)算法118
6.8.2 Fleiss的Карра(к)算法119
6.8.3解释Kappa系数122
6.8.4在其他上下文中计算к值123
6.9创建黄金标准(审核)125
总结126
第7章训练:机器学习129
7.1何谓学习130
7.2定义学习任务132
7.3分类算法133
7.3.1决策树学习135
7.3.2朴素贝叶斯学习140
7.3.3最大熵分类器145
7.3.4其他需要了解的分类器147
7.4序列归纳算法148
7.5聚类和无监督学习150
7.6半监督学习150
7.7匹配标注与算法153
总结154
第8章测试与评价156
8.1测试算法157
8.2评价算法157
8.2.1混淆矩阵157
8.2.2计算评价得分159
8.2.3解释评价得分163
8.3可能影响算法评价的问题164
8.3.1数据集太小164
8.3.2算法过于适合开发数据166
8.3.3标注中的信息过多166
8.4最后测试得分167
总结167
第9章修改与报告169
9.1修改项目170
9.1.1语料库分布和内容170
9.1.2模型和规格说明170
9.1.3标注171
9.1.4训练和测试172
9.2报告工作173
9.2.1关于语料库174
9.2.2关于模型和规格说明175
9.2.3关于标注任务和标注人员175
9.2.4关于ML算法176
9.2.5关于修改177
总结177
第10章标注:TimeML179
10.1 TimeML的设计目标180
10.2相关研究181
10.3建设语料库182
10.4模型:初步的标注规格说明183
10.4.1时间183
10.4.2信号184
10.4.3事件184
10.4.4链接184
10.5标注:最初的尝试185
10.6模型:TimeBank中的TimeML标注规格说明185
10.6.1时间表达式185
10.6.2事件186
10.6.3信号187
10.6.4链接187
10.6.5可信度189
10.7标注:TimeBank的产生189
10.8 TimeML成为ISO-TimeML192
10.9对未来建模:TimeML的发展方向193
10.9.1叙事容器194
10.9.2将TimeML扩展到其他领域195
10.9.3事件结构196
总结197
第11章自动标注:生成TimeML199
11.1 TARSQI组件200
11.1.1 GUTime:时间标志识别201
11.1.2 EVITA:事件识别及分类201
11.1.3 GUTenLINK202
11.1.4 Slinket204
11.1.5 SputLink204
11.1.6 TARSQI组件中的机器学习205
11.2 TTK的改进206
11.2.1结构变化206
11.2.2时间实体识别改进:BTime207
11.2.3时间关系识别207
11.2.4时间关系验证208
11.2.5时间关系可视化209
11.3 TimeML竞赛:TempEval-2209
11.3.1 TempEval-2:系统概述210
11.3.2成果综述213
11.4 TTK的未来213
11.4.1新的输入格式213
11.4.2叙事容器/叙事时间214
11.4.3医学文档215
11.4.4跨文档分析216
总结216
第12章后记:标注的未来发展趋势217
12.1众包标注217
12.1.1亚马逊土耳其机器人218
12.1.2有目的的游戏219
12.1.3用户生成内容220
12.2处理大数据220
12.2.1 Boosting算法221
12.2.2主动学习221
12.2.3半监督学习223
12.3 NLP在线和在云端223
12.3.1分布式计算223
12.3.2语言资源共享224
12.3.3语言应用共享224
结语225
附录A可利用的语料库与标注规格说明列表227
附录B软件资源列表249
附录C MAE用户指南269
附录D MAI用户指南276
附录E参考文献282