cli-scraper 一个为命令行而生的小爬虫库
cli-scraper 的开发初衷是希望能帮助大家更方便的开发自己的爬虫,以便在命令行中浏览静态网页内容。如果你和我一样,生活在命令行世界中,那它给了你又一个留下的理由。😂
全局安装后,要让 cli-scraper 开始工作,仅需如下三步:
- 运行 $ clis init hello.js 这条命令,新建一个新的配置文件。
- 通过编写 CSS 选择条件,告诉 cli-scraper 如何定位到你希望从网页中提取的内容。
- 最后,运行 $ clis process hello.js。
话不多说,上🌰
范例 - 访问 https://bing.com 并提取 logo 文本:
运行 init 命令生成配置文件 $ clis init bing.js
// 如下是完成后的配置文件,复制粘贴到你本地的 bing.js ,试试吧。
module.exports = {
url: 'https://www.bing.com/', // 目标地址
process: function ({ $ }) {
return $('.hp_sw_logo').text() // 选中目标元素,并提取其中文本
},
finally: function (res) {
console.log(res + 'go :)') // 结果任你处置
}
}
运行 process 命令开工 $ clis process bing.js,easy as pie 😊 在 README 中有更多的🌰和参数的详细说明。
在开发中,没有选择使用 async / await,而用的是原生的 Promise,因为感觉这样写出来的 data pipeline 看起来更加直观,Happy coding :)
1 回复
马 已star