使用word2vec计算词向量之间的相似度

通过word2vec计算词向量之间的相似度，发现两个函数similarity和most_similar计算出来的结果不一致，不知是怎么回事呢？
比如：通过 similarity计算张无忌和赵敏的相似度为： -1.0842e-19 ；
而通过most_similar计算赵敏和张无忌的相似度则为 0.9469258785247803 ；
感觉similarity计算出来的结果有误，可否指点一下？
用到的函数为（python）：
print(model_1.similarity('张无忌', '周芷若') )
model_1.most_similar("张无忌", topn=10)

举报该文章

相关建议 2018-11-30

stringä¸ºä½ éè¦è·ååéçè¯ï¼
double[] array = vec.getWordVector(string);
arrayæ¯è¿ä¸ªè¯çåéã
é¦åå¨åå»ºvecçæ¶åè¦ä¿è¯.minWordFrequency(1)ï¼å¦åæäºè¯ä½ æ¯å¾ä¸å°åéçï¼è¿ä¸ªæ¹æ³æ¯è®¾ç½®è¯çæå°ä½¿ç¨é¢çã

温馨提示：内容为网友见解，仅供参考

当前网址：https://11.t2y.org/zz/s874m722s2pfp27vqs.html

第1个回答 2018-11-30

科技大学怎么样

如何用word2vec计算两个句子之间的相似度?
计算两个句子之间的相似度，通常可以分为两类方法：无监督与有监督。无监督方法包括对句子中所有词的word vector求平均，以tf-idf为权重的加权平均，使用smooth inverse frequency（SIF）权重的加权平均，以及通过Word Mover’s Distance（WMD）直接度量相似度。有监督方法则需要额外的标注数据，常见方法有训...

word2vec是如何得到词向量的?
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。一、理论概述：1.词向量是什么？自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号数学化。NLP 中最直观，也是到目前...

如何通过词向量技术来计算2个文档的相似度
首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI\/LDA的体系搞定，也就是俗称的01或one hot representation。其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。然后得到了word2vec的词向量后，可以通过简单加权\/tag加权\/tf-idf加权等方式得到文档向...

NLP总结之word2vec
在word2vec中，每个单词都映射到一个固定维度的向量空间中，这使得机器可以理解单词之间的语义关系。以输入单词i为例，词表大小为6，包含单词{i, love singing, in, the, sky}。在onehot表示中，输入i对应向量【1,0,0,0,0,0】，其他单词的onehot表示依次类推。模型由输入层、隐藏层和输出层构...

Word2Vec模型
Word2Vec模型是一种强大的语言处理工具，由Google开源，用于计算词向量，本质上是基于CBOW和skip-gram两种模型的算法。它的目标是通过无监督学习从大量文本中捕捉词义，将每个词映射到低维的嵌入向量，以表达词与词之间的相似性和类比关系。CBOW模型通过上下文预测目标词，而skip-gram则反过来，目标是预测...

word2vec详解-词向量模型
通过余弦相似度计算，可以量化词之间的相似度，如“Man”和“woman”的相似度高。词嵌入（word embedding）是生成词向量的一种技术，它将词转换为结构化的向量，word2vec是其中的知名实现方法。尽管每个维度的含义可能难以明确解释，但分布式表示的优势在于它解决了维数问题，提升了语义准确性，并允许对词语...

从Word2vec到BERT——Word2vec
Word2vec是Tomas Mikolov于2013年提出的一种表示词的方法，其核心思想是根据词在句子中的上下文来表示词的意义。相比于One-hot向量表示，word2vec能够捕捉到词之间的相似性。它包括CBOW和Skip-gram两种模型，以及Hierarchical Softmax、Negative Sampling等优化训练方法。CBOW模型从上下文中预测中心词，通过计...

word2vec原理详解
Word2Vec 的词向量能较好地表达不同词间的相似性和类比关系。Word2Vec 通过向量空间模型在 N 维空间中表示单词，帮助不同 NLP 算法获得更好的结果，使相似文本在新空间中聚集成团。向量空间模型长期以来用于分布式语义，通过词向量表达，可以较好地度量词间距离，捕捉词间的相似性，解决词汇鸿沟问题，...

词向量(Word2Vector)
词向量(Word2Vector)是深度学习在自然语言处理中常用的一种技术。其主要目标是将单词表示为实数值向量，以捕捉单词之间的语义关系和相似性。传统的one-hot编码方式无法体现单词之间的联系，使得深度学习模型在处理文本数据时效果不佳。因此，词向量的引入为解决这一问题提供了可能。Word2Vector算法的核心...

【机器学习算法介绍 01】word2vec的训练和原理
通过训练，我们得到一个word2vec模型。模型包含4个参数：vector_size表示最终词向量的维度，window为窗口尺寸，min_count表示出现次数低于此值的词语将被忽略，workers为线程数，越大训练越快，但需根据机器核心数进行调整。【输出】模型输出为每个词语的词向量。计算词语之间的余弦相似度，例如香蕉和苹果的...

相似回答

大家正在搜

word2vec算出的词向量怎么衡量好坏

如何通过词向量技术来计算2个文档的相似度?

如何通过词向量技术来计算2个文档的相似度

如何用 word2vec 计算两个句子之间的相似度

如何通过词向量技术来计算2个文档的相似度？

word2vec是如何得到词向量的

如何用 word2vec 计算两个句子之间的相似度