一.简介
Word2Vec
是一个Estimator
表示文档的单词序列并用于训练一个 Word2VecModel
。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel
文档中所有单词的平均值将转换为向量;然后,可以将此向量用作预测,文档相似度计算等功能。
二.例子
在下面的代码段中,我们从一组文档开始,每个文档都由单词序列表示。对于每个文档,我们将其转换为特征向量。然后可以将该特征向量传递给学习算法。
import org.apache.spark.ml.feature.Word2Vec import org.apache.spark.ml.linalg.Vector import org.apache.spark.sql.Row // Input data: Each row is a bag of words from a sentence or document. val documentDF = spark.createDataFrame(Seq( "Hi I heard about Spark".split(" "), "I wish Java Could use case classes".split(" "), "Logistic regression models are neat".split(" ") ).map(Tuple1.apply)).toDF("text") // Learn a mapping from words to Vectors. val word2Vec = new Word2Vec() .setInputCol("text") .setoutputCol("result") .setVectorSize(3) .setMinCount(0) val model = word2Vec.fit(documentDF) val result = model.transform(documentDF) result.collect().foreach { case Row(text: Seq[_], features: Vector) => println(s"Text: [${text.mkString(", ")}] => \nVector: $features\n") }
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。