微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

临时笔记

SPT-下载爬虫系统和数据分析(7370)职位描述:

 

 

岗位职责:
负责搜索引擎爬虫系统的开发及相关数据的分析挖掘
岗位要求:
2年以上c 编程经验,对算法/数据结构有深刻理解
熟悉linux编程和调试环境
熟悉 socket 网络编程
具备良好的团队协作能力及沟通能力
有大型分布式系统设计开发经验优先
搜索引擎经验者优先
具有数据挖掘、自然语言处理、信息检索、机器学习、数据统计背景的优先

 

 

 

我们正在创建新一代的智能网页搜索应用。我们在努力寻找优秀的,在文本挖掘、信息抽取、信息检索和自然语言处理等方面的专家级的软件开发人才,帮助我们建立产品数据库来展示我们的“长尾”策略产品。 职责: 1. 负责建立业内最大最全的原标签产品目录; 2. 在不知名的非主流网站上寻找鲜为人知的与众不同的产品; 3. 同团队一起合作为用户提供最完美的体验; 4. 汇报给技术总监; 要求: 1. 精通信息抓取和整合技术,从结构化的和非结构化的数据中获取信息。 2. 熟悉数据分析的统计方法,如PMT,HMM,Naïve Bayes等。自然语言处理技巧和经验尤为重要。 3. 精通与搜索和个性化相关的机器学习算法,大规模网页聚类,分类提取摘要。 4. 精通大规模推荐系统和内容过滤(large scale recommendation system, content based recommendation and collaborative filtering)。 5. 5年以上Java开发经验,超强的编程技巧。 6. 精通Java技术,如JDBC,servlet,web service,最好熟悉Ruby。 7. 精通关系型数据库,尤其是MysqL, 大数据量的。 8. 熟悉大规模网页爬取,深度网页爬取,熟悉nutch、hadoop等爬虫工具尤佳。 9. 有测试驱动和敏捷开发经验。 10. 能用英文进行日常工作沟通交流。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐