微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

2020-12-03

python中自定义模型提交到spark集群

大数据时代,数据均采用集群存储方式,那么在应用这些数据做模型训练时,遇到的一个问题就是,如何将各种模型直接运行到spark集群,经调研发现可以通过将其进行类封装的方式实现集群运行,具体实现方式如下:

1、开发环境准备:pytorch和sparktorch包必备
2、示例代码如下:

from pyspark.sql.types import DoubleType
from pyspark import keyword_only
from pyspark.ml.param.shared import HasOutputCols, Param, Params, HasInputCol
from pyspark.ml import Pipeline, PipelineModel
from sparktorch.pipeline_util import PysparkReaderWriter
from pyspark.ml import Model
from sparktorch import PysparkPipelineWrapper
from pyspark.ml.regression import LinearRegression, LinearRegressionModel
from pyspark.ml.util import Identifiable, MLReadable, MLWritable
from pyspark.ml.param import TypeConverters

spark = SparkSession.builder \
        .enableHiveSupport() \
        .getorCreate()
df = spark.read.table('hive_table_name')
class SplitCol(Model, HasInputCol, HasOutputCol

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐