1. 数据量大,内存占用过高;
https://zhuanlan.zhihu.com/p/103128296
新增优化策略(可思考):将数据集根据group分组,每个任务处理10个group,共计需要1500个task,每个组的数据将item-id和feature读取后进行广播(也可存成map),这样一个task最多大约占用(8000+8000)*10*8k=1.22G数据;然后只读item-id和group,需要的时候现计算现取数;
即可保守配置成 50executor,并行度30,堆内内存60g,堆外内存Ng,核数5,???
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。