node.js 爬虫的问题 抓去到相对路径以及文件如何生成完整的URL链接
发布于 10 年前 作者 blacksun 5545 次浏览 最后一次编辑是 8 年前

处理流程: 主程序—>(输入参数) —> 爬行网站 --> 访问网站(获得返回的网页源码) —>拿出所有Href 属性值 (现在就在这一步 拿到了) —> 生成了网站的URL链接 然后就全部丢入 URL 数组(去重复) --> 然后又遍历数组 把数组中的所有Href 全丢给 爬行模块又去爬行 (这样 就有个问题 有的是相对路径 /test.php 这样一个Href 可能存在与 www.a.com/a/b/c 下 我想表达的意思就是 即使 我当前请求了 www.a.com/a/b/c/index.php 拿到了 /test.php 这样的一个href 也会给我生成个 网站的 http://www.a.com/a/b/c/test.php 的网站 链接 然后我就又可以丢入 URL 数组 去重复 一直循环下去了

现在获得到的href是这样的:

/favicon.ico http://www.xxx.org/feeds/x http://www.xxx.org/feeds/s http://www.xxx.org/feeds/b /css/style.css javascript:void(0) /user.php?action=login /user.php?action=register /index.php /corps/ /whitehats/ /teams/ /bugs/ /bug/submit /corp_actions /job/ /notice/ /index.php

/notice.php?action=view&id=29 /notice.php?action=view&id=28 /notice.php?action=view&id=27 /notice.php?action=view&id=26

回到顶部