url-extract，我的NodeJS url信息截取，快照模块

Hi，大家好。作为一个NodeJS beginer，我做了一个url信息截取，快照模块，欢迎试用。 url-extract是一个NodeJS的url信息截取模块，其使用PhantomJS进行截图，可截取url快照，以及抓取其title和description。 项目地址： https://github.com/miniflycn/url-extract <h3>设计图</h3> <img src=“http://images.cnitblog.com/blog/372204/201309/12205700-29e94e330baa49e28611b1b3b557bfa4.jpg” alt="" /> <h3>依赖 & 安装</h3> 由于PhantomJS 1.9.0+才开始支持Websocket，所以我们先要确定在PATH中的PhantomJS是为1.9.0以上版本。在命令行键入： <blockquote> $ phantomjs -v </blockquote> 如果能返回版本号1.9.x，则可以继续操作。如果版本过低，或者出现错误，请到<a href=“http://phantomjs.org/”>PhantomJS官网</a>下载最新版本。 如果你已经安装了Git，或者拥有Git Shell，那么在命令行键入： <blockquote> $ npm install url-extract </blockquote> 进行安装。 如果没有，那么请在下面的连接下载整个项目： http://pan.baidu.com/share/link?shareid=1055562065&uk=855675565 <h3>一个简单的例子</h3> 比如我们要截取百度首页，那么可以这样： <div class=“cnblogs_code”> <pre>module.exports = (function () { “use strict” var urlExtract = require(‘url-extract’); urlExtract.snapshot(‘http://www.baidu.com’, function (job) { console.log(‘This is a snapshot example.’); console.log(job); process.exit(); }); })();</pre> </div> 下面是打印： <img src=“http://images.cnitblog.com/blog/372204/201309/12213019-2115155abd6a494e8b86a74a5b4be98b.png” alt="" /> 其中，image属性就是截图相对于工作路径的地址。我们可以使用Job的getData接口来得到更清楚的数据，例如： <div class=“cnblogs_code”> <pre>module.exports = (function () { “use strict” var urlExtract = require(‘url-extract’); urlExtract.snapshot(‘http://www.baidu.com’, function (job) { console.log(‘This is a snapshot example.’); console.log(job.getData()); process.exit(); }); })();</pre> </div> 打印就变成了这样了： <img src=“http://images.cnitblog.com/blog/372204/201309/12213302-4b37c8e6ff5248999ce4ce382a2f6b4d.png” alt="" /> image表示截图相对于工作路径的地址，status表示状态是否正常，true代表正常，false代表截图失败。 更多例子请参见： https://github.com/miniflycn/url-extract/tree/master/examples <h3>主要API</h3> .snapshot url快照 <ul> <li>.snapshot(url, [callback])</li> <li>.snapshot(urls, [callback])</li> <li>.snapshot(url, [option])</li> <li>.snapshot(urls, [option])</li> </ul> <blockquote> url {String} 要截取的地址 urls {Array} 要截取的地址数组 callback {Function} 回调函数 option {Object} 可选参数 ┝ id {String} 自定义url的id，如果第一个参数是urls，此参数无效 ┝ image {String} 自定义截图的保存地址，如果第一个参数是urls，此参数无效 ┝ groupId {String} 定义一组url的groupId，用于返回时候辨认是哪一组url ┝ ignoreCache {Boolean} 是否忽略缓存 ┗ callback {Function} 回调函数 </blockquote> .extract url信息抓取，并获取快照 <ul> <li>.extract(url, [callback])</li> <li>.extract(urls, [callback])</li> <li>.extract(url, [option])</li> <li>.extract(urls, [option])</li> </ul> <blockquote> url {String} 要截取的地址 urls {Array} 要截取的地址数组 callback {Function} 回调函数 option {Object} 可选参数 ┝ id {String} 自定义url的id，如果第一个参数是urls，此参数无效 ┝ image {String} 自定义截图的保存地址，如果第一个参数是urls，此参数无效 ┝ groupId {String} 定义一组url的groupId，用于返回时候辨认是哪一组url ┝ ignoreCache {Boolean} 是否忽略缓存 ┗ callback {Function} 回调函数 </blockquote> Job（类） 每一个url对应一个job对象，url的相关信息由job对象存储。 Field <blockquote> <ul> <li>url {String} 链接地址</li> <li>content {Boolean} 是否抓取页面的title和description信息</li> <li>id {String} job的id</li> <li>groupId {String} 一堆job的组id</li> <li>cache {Boolean} 是否开启缓存</li> <li>callback {Function} 回调函数</li> <li>image {String} 图片地址</li> <li>status {Boolean} job当前是否正常</li> </ul> </blockquote> Prototype <blockquote> <ul> <li>getData() 获取job的相关数据</li> </ul> </blockquote> <h3>全局配置</h3> url-extract根目录中的config文件可以进行全局配置，默认如下： <div class=“cnblogs_code”> <pre>module.exports = { wsPort: 3001, maxJob: 100, maxQueueJob: 400, cache: ‘object’, maxCache: 10000, workerNum: 0 };</pre> </div> <blockquote> <ul> <li>wsPort {Number} websocket占用的端口地址</li> <li>maxJob {Number} 每个PhantomJS线程可并发worker数</li> <li>maxQueueJob {Number} 最大等待工作数量，0表示不限制，超过该数量，任何工作都直接返回失败（即status = false）</li> <li>cache {String} 缓存实现，目前只有object实现</li> <li>maxCache {Number} 最大缓存链接数</li> <li>workerNum {Number} PhantomJS线程数，0表示和CPU数量相同</li> </ul> </blockquote> <h3>一个简单的服务例子</h3> https://github.com/miniflycn/url-extract-server-example 注意，需要安装connect和url-extract： <blockquote> $ npm install </blockquote> 如果你下载了网盘的文件，那么请安装connect： <blockquote> $ npm install connect </blockquote> 然后键入： <blockquote> $ node bin/server </blockquote> 打开： <blockquote> http://localhost:3000 </blockquote> 查看效果。

manihome 1楼•12 年前