python中自定义模型提交到spark集群
大数据时代,数据均采用集群存储方式,那么在应用这些数据做模型训练时,遇到的一个问题就是,如何将各种模型直接运行到spark集群,经调研发现可以通过将其进行类封装的方式实现集群运行,具体实现方式如下:
1、开发环境准备:pytorch和sparktorch包必备
2、示例代码如下:
from pyspark.sql.types import DoubleType
from pyspark import keyword_only
from pyspark.ml.param.shared import HasOutputCols, Param, Params, HasInputCol
from pyspark.ml import Pipeline, PipelineModel
from sparktorch.pipeline_util import PysparkReaderWriter
from pyspark.ml import Model
from sparktorch import PysparkPipelineWrapper
from pyspark.ml.regression import LinearRegression, LinearRegressionModel
from pyspark.ml.util import Identifiable, MLReadable, MLWritable
from pyspark.ml.param import TypeConverters
spark = SparkSession.builder \
.enableHiveSupport() \
.getorCreate()
df = spark.read.table('hive_table_name')
class SplitCol(Model, HasInputCol, HasOutputCol
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。