博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
胶囊网络(Capsule Network)在文本分类中的探索
阅读量:5925 次
发布时间:2019-06-19

本文共 1098 字,大约阅读时间需要 3 分钟。

hot3.png

文本建模方法大致可以分为两类:(1)忽略词序、对文本进行浅层语义建模(代表模型包括 LDA,EarthMover’s distance等); (2)考虑词序、对文本进行深层语义建模(深度学习算法,代表模型包括 LSTM,CNN 等)。

在深度学习模型中,空间模式(spatial patterns)汇总在较低层,有助于表示更高层的概念(concepts)。例如,CNN 建立卷积特征检测器提取来自局部序列窗口的模式,并使用 max-pooling 来选择最明显的特征。然后,CNN 分层地提取不同层次的特征模式。

然而,CNN 在对空间信息进行建模时,需要对特征检测器进行复制,降低了模型的效率。正如(Sabouret al, 2017)所论证的那样,这类方法所需复制的特征检测器的个数或所需的有标签训练数据的数量随数据维度呈指数增长。

另一方面,空间不敏感的方法不可避免地受限于丰富的文本结构(比如保存单词的位置信息、语义信息、语法结构等),难以有效地进行编码且缺乏文本表达能力

最近,Hinton 老师等提出了胶囊网络(Capsule Network), 用神经元向量代替传统神经网络的单个神经元节点,以 Dynamic Routing 的方式去训练这种全新的神经网络,有效地改善了上述两类方法的缺点。

正如在人类的视觉系统的推理过程中,可以智能地对局部和整体(part-whole)的关系进行建模,自动地将学到的知识推广到不同的新场景中。

到目前为止,并没用工作将 Capsule Network 应用于自然语言处理中(e.g., 文本分类)。

我们针对 Capsule Network 在文本分类任务上的应用做了深入研究。对于传统的分类问题,Capsule Network 取得了较好性能,我们在 6 个 benchmarks 上进行了实验,Capsule Network 在其中 4 个中取得了最好结果。

更重要的是,在多标签迁移的任务上(fromsingle-label to multi-label text classification),Capsule Network 的性能远远地超过了 CNN 和 LSTM

我们的工作已经发表在 arXiv上,论文名为 Investigating Capsule Networks with Dynamic Routing for Text Classificationm,更多细节可以点击阅读原文进行参考。我们会在论文发表后公开源码。

转载于:https://my.oschina.net/u/3611008/blog/1920935

你可能感兴趣的文章
2018蓝桥杯|基础|数列排序
查看>>
WHYZOJ-#53 线段树区间修改(线段树)
查看>>
职业四象限,分分钟定位你的方向
查看>>
JS实现文本的语音朗读
查看>>
Java(1)-知识点(面试题)整理
查看>>
Cocoapods 64-bit(iPhone5s) 问题解决方案
查看>>
homework-01
查看>>
Oracle sql执行计划
查看>>
jenkins+maven+git 实现自动化部署
查看>>
linux就该这么学第八课-磁盘分区和挂载,磁盘限额
查看>>
python 之队列
查看>>
SQL Server 储存过程的output 参数
查看>>
JAVA_OPTS
查看>>
OSGI项目中获取文件路径
查看>>
php利用smtp类轻松的发送电子邮件
查看>>
初学Node(三)模块系统
查看>>
关于SQL的常用操作(增、删、改、查)
查看>>
discuz+ecmall+phpcms整合
查看>>
关于java中assert(断言)的使用讲解
查看>>
vi/vim学习
查看>>