「自然语言处理(NLP)」用二进制句向量表示【杜克大学 && 微软研究院】

来源：AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-24

引言

本文共计两篇paper，第一篇主要针对常规的句子向量表示需要占用大量内存的问题，创新性的采用二值化来表示句子向量从而减少资源消耗，提高低配资源平台的适用性。第二篇，主要从不同类型的反馈对学习结果有不同的效果入手，在交互式神经机器翻译实验中，自调节器通过混合不同的反馈类型（包括校正、错误标记和自监督），我们发现了最优的代价质量折衷的贪婪策略，它将有希望成为主动学习中比较有前景的算法。

First Blood

TILE: ## Learning Compressed Sentence Representations for On-Device Text Processing.
Contributor : 杜克大学&&微软研究院
Paper: https://www.aclweb.org/anthology/P19-1011
Code: None

文章 摘要

基于大量文本语料库训练的句子向量表示方法被广泛应用于各种NLP问题中。学习表示通常假设为连续的、实值的，但是这样会导致内存占用大，检索速度慢，阻碍了在低资源(内存和计算)平台上的适用性，比如移动设备。为此本文提出了四种不同的策略来将连续句和一般句嵌入转换成二值化的形式，同时保留它们丰富的语义信息。所介绍的方法在一系列下行任务中进行了评估，在这些任务中，与连续任务相比，二值化语句嵌入仅降低了约2%的性能，同时降低了98%以上的存储需求。此外，利用学习的二值表示方法，可以通过计算两句话的汉明距离来评估两句话的语义关联，与连续嵌入之间的内积运算相比，汉明距离计算效率更高。

本文三大看点

1、对学习通用二值化(记忆效率)句子表示进行了第一次系统的探索，并提出了四种不同的策略。
2、精心设计了一个可以保留语义损失的自动编码器架构，且其在下行NLP任务上显示了出了比较好的效果。
3、更重要的是，我们在多个句子匹配数据集上证明，简单地计算二进制表示上的汉明距离，其性能与计算连续对应项之间的余弦相似度相当，但是余弦相似度的计算效率更低。

四种不同的策略介绍

Hard Threshold

结构图如下：

用h和b分别表示连续句嵌入和二进制句嵌入，L表示h的维数。对连续表示进行二值化的第一种方法是根据硬阈值将每个维数简单地转换为0或1。这种策略不需要任何训练，而是直接对预先训练的连续嵌入进行操作。假设s是硬阈值，

i = 1,2，……，L:

i=1,2，……，L:

Random Projection

结构图如下：

为了解决上述直接二值化方法的局限性，我们提出一种不需要任何训练的替代策略即在预先训练好的连续表示上应用随机投影。我们随机初始化一个矩阵

W∈R^{D×L}

W∈RD×L，其中D表示得到的二进制表示的维数，然后将矩阵值初始化为均匀采样。

i = 1,2，…，D

i=1,2，…，D和

j = 1,2，…L

j=1,2，…L,我们有:

Principal Component Analysis

结构图如下：

我们还考虑了一种策略来自适应地选择生成的二进制表示的维数。其中，用主成分分析(PCA)来减少预先训练的连续嵌入的维数。

Autoencoder Architecture

上述方法存在一个共同的问题，即模型目标不是直接学习的二进制代码保留原始连续嵌入的语义信息，而是训练后采用单独的二值化步骤。为了解决这个缺点，我们进一步考虑了一种自动编码器体系结构，它利用重构损失为学习的二进制表示提供更多的信息。具体地说，利用编码器网络将连续信号转换为二进制潜在向量，然后用解码器网络将其重构回来。其模型结构如下：

实验结果

十个下行任务测试结果如下图所示：

其中，STS14、STSB、MRPC分别采用Pearson和Spearman相关进行评价，SICK-R采用Pearson相关进行测量。所有其他数据集都以测试精度进行评估。InferSent-G使用glove (G)作为单词embeddings，而InferSent- ff使用FastText(F) embeddings。
SNLI数据集上的最近邻检索结果：

给定一个查询语句，左列显示基于汉明距离的前3个检索到的样本，其中包含所有语句的二进制表示，而右列显示的样本则根据它们连续嵌入的余弦相似性。

Double Kill

TILE: Self-Regulated Interactive sequence-to-sequence Learning。
Contributor : 德国海德堡大学
Paper: https://www.aclweb.org/anthology/P19-1029
Code: None

文章 摘要

并不是所有类型的监督信号都是相同的:不同类型的反馈对学习有不同的成本和效果。文中展示了自我调节策略是如何决定什么时候向老师(或自己)寻求哪种反馈的，这些策略可以被转换成一个“学习到学习”的问题，从而提高代价感知的顺序到顺序学习。在交互式神经机器翻译实验中，自调节器通过混合不同的反馈类型（包括校正、错误标记和自监督），我们发现了最优的代价质量折衷的贪婪策略。此外，我们证明了它在域转移下的鲁棒性，并将其作为主动学习的一个有前途的替代方法。

本文三大看点

1、首先从不同类型的反馈中比较Seq2Seq训练目标。
2、然后介绍了自调节模块。
3、最后将两者结合在自调节算法中。

Seq2Seq Learning

Learning from Corrections： 当使用人工生成的参考资料以及在线调整后发布的内容进行训练时，这一训练目标是标准的监督学习。
**Learning from Error Markings ：**虽然序列中不正确部分的可能性不影响总和，但是它们包含在正确部分的上下文中。
**Self-Supervision ：**不同于向teacher寻求反馈，learner也可以选择从自己的输出中学习，也就是从自我监督中学习。简单命题是把learner的输出当作是正确的，但这很快就会导致过度自信和退化。

Learning to Self-regulate

规则器是Seq2Seq学习中另外一种优化质量、权衡成本的神经模型 $q_φ$ qφ。给定一个输入 $x_i$ xi和Seq2Seqs假设 $y_i$ yi,在这里选择一个动作,这种反馈的选择决定了Seq2Seq学习器的更新，如下图所示

Algorithm

具体算法如下所示：

其中算法1提出了基于小批量模型更新的在线学习算法。当一个新的输入到达时，调节器在第6行预测一个反馈类型。根据该预测，要求环境/用户对代价ci下的Seq2Seq预测进行反馈(第7行)，根据前一张图中假设的反馈和计算的小批量随机梯度，对Seq2Seq模型进行更新。为了加强调节器，对Seq2Seq模型的改进(第9行)进行评估，并更新调节器的参数(第10行)。中间Seq2Seq评估可用于模型选择(早期停止)。在实践中，这些评估可以通过在一个未完成的集合上进行验证，也可以通过人工评估来执行。

实验结果

规则变量对累积成本的影响

对IWSLT进行训练的调整器的域转移到图书域（仅比较完整和弱反馈）

学习自我调节策略，与基于不确定性的主动学习相比，在书本领域有固定比例的完全反馈。

ACED

Attention

更多自然语言处理相关知识，还请关注AINLPer公众号，极品干货即刻送达。

「自然语言处理(NLP)」用二进制句向量表示【杜克大学 && 微软研究院】

引言

First Blood

文章摘要

本文三大看点

四种不同的策略介绍

Hard Threshold

Random Projection

Principal Component Analysis

Autoencoder Architecture

实验结果

Double Kill

文章摘要

本文三大看点

Seq2Seq Learning

Learning to Self-regulate

Algorithm

实验结果

ACED

Attention

相关推荐