能行的通。
关键要素如下:
1、在你的抓取方案里面,必须使用cookie欺骗这个策略。否则会被淘宝识别。
2、建议使用异步抓取,在你的页面打开之后抓取。否则你的页面会很晚才打开。
3、建议在采集之后,存入缓存,降低服务器请求运算的时间。
这个网站的小偷程序采集原理是什么?
采集的原理,其实是通过服务器去浏览目标网站的网页,然后从缓存文件中查看网页源文件,
通过过滤提取相关的内容,再重新在本地网站显示出来。
采集可以有两种方式
一种是在线采集 ,也就是采集目标站点变化本站也跟着变化,数据不保存数据库。
优点:与目标网站同步更新;无需数据库,空间占用相当小。
缺点:当目标网站出问题,本地网站也跟着出同样问题。
还有一种就是定期采集,周期性的把数据保存在本地网站的数据库中,供本地网站读取。
优点:确保本地网站的数据正常读取并运行。即使目标站点维护、减半或者出错,本地
网站仍可继续运行。
缺点:需要数据库空间。