查看: 2328|回复: 3

[提问] 怎么递归的把这个网页手册 递归的下下来? [复制链接]

linux_Ultra (离线)
积分
39472
帖子
313
发表于 2009-9-26 09:23:12 |显示全部楼层
关键词: 递归 , 手册 , 网页
用以至学。
linux_Ultra (离线)
积分
39472
帖子
313
发表于 2009-9-26 09:29:30 |显示全部楼层
我用
wget  -r  -np http://www.gelato.unsw.edu.au/~d ... nel-docs/kernel-api

搞定了呵呵。
用以至学。
changyongid (离线)
积分
35412
帖子
150
发表于 2009-9-26 22:30:14 |显示全部楼层
-r 递归下载
-np 递归下载不搜索上层目录
-k 把绝对链接地址转为相对链接
“茴香豆”的“茴”字有几种写法?
mxh0506 (离线)
积分
10490
帖子
700
发表于 2009-9-29 11:14:34 |显示全部楼层
一些著名网页下载工具

CyberArticle 网文快捕 (原名WebCatcher)
是一个保存/管理网页的工具,主要功能有:可以在IE里面保存网页,包括文字,图片,Flash动画等等。也可以保存选中的文字,图片和链接等等;在一个树形孔建里面管理保存下来的网页。可以通过拖放来分类您的网页;在一个可视化的编辑器里面编辑网页;把网页里面的所有元素保存在一个单一文件里面(*.book),保持您的磁盘清洁;可以把保存的网页导出成CHM文件,这样共向您的资料,就会变得非常简单。在这方面,WebCatcher是一个非常实用的电子书制作工具;可以把.book文件转换成可执行文件(*.exe);允许您将所有的网页导出到文件加重。因此您可以复制这些文件到您的PDA上面进行阅读;支持书籍文件的全文检索,您可以快速的找到您的资料;可以很好的保护您的资料。您可以给书籍文件或者节点设置密码。

GNU Wget
GNU Wget是一个免费软件包,可以透过HTTP, HTTPS和FTP这些使用最广泛的互联网协议下载文件。该软件是命令行工具不提供和用户的交互。所以比较适合从系统脚本、cron任务、终端来调用。 GNU Wget有许多特性可以从大型网站或者FTP站点下载文件: 支持断点续传,使用REST和RANGE方法。支持文件通配符和循环镜像目录。支持多种语言的NLS-based报文文件。选项中包含超链接转换,这样下载下来的文档中的绝对链接可以转换为相对链接。这样下载后的文档可以在本地互相链接继续使用。可以在UNIX环境中使用,也可以在Windows中使用。支持 HTTP and SOCKS 代理支持 HTTP cookies 支持持续 HTTP 连接后台运行使用本地文件时间戳作为是否需要在此下载更新和镜像备份。符合GNU GPL协议。

WebSuck WebSuck
可以读取您指定的网页同时检查链接和数据文件。其中链接会被检查合法性,数据则被整理成您选择的格式(一般文本文件或者GetRight格式文件)。 这个软件尤其适合下载包含许多数字照片的网络相册。该软件提供许多选项来适应不同的网站布局。 所有命令行选项均可以透过图形界面获得,只需要在运行软件时候加入一个参数:-gui 注意:WebSuck自己并不下载文件。您必须使用文件下载工具来下载文件。比如WebGet,或者把该软件的输出作为各种下载工具的列表来实现此目的。如UNIX下的Wget或者Windows环境中的GetRight。

Teleport
Teleport Pro 是一种通用的高速互联网数据下载工具。它同时支持十个线程,可以访问带有密码保护的网站,可以根据文件大小、类型来分类,支持关键字搜索等等。该软件是目 前越发复杂的网络环境中功能最全的、最健壮的网络爬虫类工具。Teleport Pro支持HTML 4.0, CSS2.0, DHTML等网站。同时支持服务器端图形文件搜索、自动拨号连接、Java applet、搜索深度设置、项目定时启动、冲链接能力等。无疑该软件绝对就是最好的工具。该软件可以: 把网站的全部或者部分下载到你的本地电脑。使得您可以以最快速度来浏览网站。创建抽取复制或者镜像备份一个网站,包括所有的子目录接口和所需文件。针对网站根据文件大小和类型搜索指定文件。根据已知地址列表下载文件。从中央网站向所连接的每个站点搜索。针对特定网站搜索关键字。把指定网站中的网页及其文件罗列清单。
500 字节以内
不支持自定义 Discuz! 代码
您需要登录后才可以发表评论 登录 | 立即注册

关于我们  -  服务条款  -  使用指南  -  站点地图  -  友情链接  -  联系我们
电子工程网 © 版权所有   京ICP备11013910号 | 京公网安备11010502021702
回顶部