NLM是什么

小嘿 QA 2020-04-21 16:20:44 阅读(...)

神经语言模型(NLM)是一类用来克服维数灾难的语言模型,使用词的分布式表示对自然语言序列建模。不同于基于类的n-gram模型,神经语言模型在能够识别两个相似词,且不丧失将每个词编码为彼此不同的能力。

神经语言模型(Neural Language Model,NLM)是一类用来克服维数灾难的语言模型,它使用词的分布式表示对自然语言序列建模。不同于基于类的 n-gram 模型,神经语言模型在能够识别两个相似的词,并且不丧失将每个词编码为彼此不同的能力。神经语言模型共享一个词(及其上下文)和其他类似词。

神经语言模型是什么

简介

语言模型(language model)定义了自然语言中标记序列的概率分布。根据模型的设计,标记可以是词、字符、甚至是字节。标记总是离散的实体。最早成功的语言模型基于固定长度序列的标记模型,称为 n-gram。一个 n-gram 是一个包含 n 个标记的序列。基于 n-gram 的模型定义一个条件概率——给定前 n−1 个标记后的第 n 个标记的条件概率。神经语言模型是由 Bengio 等人在 2003 年提出的,共享一个词(及其上下文)和其他类似词和上下文之间的统计强度。模型为每个词学习的分布式表示,允许模型处理具有类似共同特征的词来实现这种共享。例如,如果词 dog 和词 cat 映射到具有许多属性的表示,则包含词 cat 的句子可以告知模型对包含词 dog 的句子做出预测,反之亦然。因为这样的属性很多,所以存在许多泛化的方式,可以将信息从每个训练语句传递到指数数量的语义相关语句。维数灾难需要模型泛化到指数多的句子(指数相对句子长度而言) 。该模型通过将每个训练句子与指数数量的类似句子相关联克服这个问题。

词向量与词嵌入

词向量通常指通过语言模型学习得到的词的分布式特征表示,也被称为词编码,可以非稀疏的表示大规模语料中复杂的上下文信息。分布式词向量可以表示为多维空间中的一个点,而具有多个词向量的单词在空间上表示为数个点的集合,也可以看作在一个椭球分布上采集的数个样本。

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。词嵌入的方法包括人工神经网络、对词语同现矩阵降维、概率模型以及单词所在上下文的显式表示等。在底层输入中,使用词嵌入来表示词组的方法极大提升了 NLP 中语法分析器和文本情感分析等的效果。

0个人收藏 收藏

评论交流

泪雪默认头像 请「登录」后参与评论
  1. 加载中..

相关推荐

  • 医学数据库是什么

    医学数据库是什么

    医学数据库技术的引入, 能够极大程度的节省医学数据存储的空间、更好的保护患者的隐私、进一步实现的各不同单位间的资源共享、更细致的整合互联网的各种医学资料以及更加快捷的检索各种信息, 从而给医学工作者带来极大的便利。
  • 智能创作助手 Effidit

    Effidit是什么

    智能创作助手 Effidit 是由腾讯 AI Lab 开发的一个研究性原型系统,探索用 AI 技术提升写作者的写作效率和创作体验。
  • 模型是什么

    模型是什么

    模型是指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。
  • 噪声对比估计是什么

    噪声对比估计是什么

    噪音对比估计(NCE)是一种新的统计模型估计方法,能够用来解决神经网络的复杂计算问题,因此在图像处理和自然语言处理中得到广泛应用。
  • 语音识别技术是什么

    语音识别技术是什么

    语音识别技术,也被称为自动语音识别(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
  • 自然语言处理是什么

    自然语言处理是什么

    自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。