反向代理图片采集火车头
操作环境:宝塔Linux面板,Nginx环境
操作目的:将目标站点的文件按照原文件目录结构完整缓存到本地指定目录。
本文目录
写这篇教程的原因
今天群里一个同学问火车头采集的问题。目标采集站点文章内图片是调用的新浪图片地址,火车头在采集时提示:“添加文件下载时出错,原因:没有探测到文件真实地址”
图片分布在wx1.sinaimg.cn、wx2.sinaimg.cn、wx3.sinaimg.cn、wx4.sinaimg.cn这四个新浪的图片服务器上。
研究了挺久没有找到该问题在火车头采集器上的解决方式。好像是目标服务器不支持head请求。既然无法解决此问题所以想了下其他的迂回方式。
此次采集目的是为了将远程图片保存到自己的服务器,避免后期远程服务器删除图片。我们的操作只要达到保存远程图片的目的即可。
本文涉及到火车头采集器方面的一些操作,所以步骤略多。我会尽量按照顺序给大家写清楚,如果知识兔有疑问大家可以在文章下留言。我看到后会一一回复。
整体思路
1.将wx1.sinaimg.cn、wx2.sinaimg.cn、wx3.sinaimg.cn、wx4.sinaimg.cn这四个图片服务器地址全部反向代理并缓存下来。
2.火车头采集器在采集时将图片地址替换为我们的反向代理地址。
3.后期通过访客访问或者我们自己主动访问,将图片全部缓存到反向代理服务器。达到长期存储的目的。
操作步骤
1.创建反向代理
首先我们在服务器解析一个新域名(随意),作为我们的图片服务器地址,并且知识兔给这个站点添加反向代理。
经测试wx1.sinaimg.cn、wx2.sinaimg.cn、wx3.sinaimg.cn、wx4.sinaimg.cn这四个图片服务器里面的图片地址,知识兔可以任意替换使用!
比如https://wx3.sinaimg.cn/mw1024/1.jpg我将域名换为https://wx1.sinaimg.cn/mw1024/1.jpg也可以正常访问。
这样就简单多了,我们反向代理只需要创建一个即可。这里就以反代wx3.sinaimg.cn为例。
正常创建反向代理并填入代理地址,缓存和高级设置不用管,直接提交保存即可。
小鱼网是一个美好的开源学习社区,学习编程,学习WordPress,下载WordPress插件主题,
小鱼网 »
宝塔面板–Nginx反向代理原文件永久缓存的配置