微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

node 使用selenium 爬取页面数据node爬虫

什么是selenium-webdriver

selenium-webdriver是一种用于调动浏览器进行操作的插件。本文主要是给node使用,并拥有爬虫获取数据。

操作流程

打开npm网站,搜索selenium-webdriver
https://www.npmjs.com/package/selenium-webdriver

选择自己使用的浏览器,并安装对应的浏览器版本,一定要和自己浏览器的版本一致的驱动程序


写清楚使用的浏览器,并且调用的辅助驱动最好和调用程序放在一个目录下

也chrome版本比较多,如果找不到对应的版本还可以使用firefox,效果基本一致,只是浏览器不一样
本案例使用的就是火狐,读取一个小说网站,并通过css和标签获取章节名和链接地址
先安装模块
npm i selenium-webdriver

下面是全部代码

const {Builder, By, Key, until} = require('selenium-webdriver');
(async function example() {
  let driver = await new Builder().forbrowser('firefox').build();
  try {
    await driver.get('https://m.banzhuchilaohu.com/indexlist/2916/');
// await driver.findElement(By.id('cBoxClose')).click()
    
    // await driver.findElement(By.id('kw')).sendKeys('前端', Key.RETURN);
     let items = await driver.findElements(By.css('.chapter li'));
     var list = []
    for(let i=0; i<items.length; i++) {
      let item = items[i];
      // console.log(await  item.getText())
      let title = await item.findElement(By.css("a")).getText();
      let url = await item.findElement(By.css("a")).getAttribute("href");
      list.push({title,url});
      
    }
    console.log(list);


  } finally {
    // await driver.quit();
  }
})();

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐