半点优化网 http://www.bdxc.net/
当前位置首页 > 网站技术问题> 正文

求java实现网络爬虫的原理(源代码更好)

2022-04-22 14:46:20 暂无评论 86 网站技术问题 爬虫   源代码   原理

复杂的方法就是自己用java的相关类来模拟浏览器下载网页页面,然后使用DOM等技术从下载的网页中获取自己需要的内容。不过强烈建议你使用HttpClient和HttpParse框架来方便地实现网络爬虫功能。其中HttpClient框架主要实现从WEB服务器下载网页数据,功能极其强大。而HttpParse框架则是从网页文件中获取不同标签的内容,功能也很强大,而且使用十分方便,强烈推荐。

apache上有个lucence项目,是开源的搜索引擎。 你可以下载一份源代码。 中国还有一个中文网站,还有像lucence in action 这本书到处都可以下载 估计 <a href= target=_blank>www.xunlei.com</a>上就有

猜你喜欢