本仓库收集整理Java爬虫相关资源
- VSCrawler - 适合抓取封堵的爬虫框架,大佬出品!
- WebMagic - Java垂直爬虫框架
- crawler4j - 多线程爬虫框架
- SeimiCrawler
- ispider - 分布式爬虫框架
- Gecco - 轻量化的易用的网络爬虫
- Chrome Devtools Protocol - Chrome开发协议相关资源;Chrome控制台工具、Selenium、Puppeteer均基于此协议开发;所有主流编程语言均有第三方支持
- Selenium - 应用最广泛的浏览器自动化测试框架,支持所有主流浏览器
- Puppeteer(javascript) - 基于Chrome开发协议的高层浏览器自动化框架
- Pyppeteer(python) - puppeteer的Python实现
- Jyppeteer - puppeteer的Java实现
- CDP4J - Java版本的Chrome开发协议支持库。注意本库为商业授权
- Tampermonkey - 著名的“油猴”浏览器脚本管理器,可用于浏览器自动化控制
- PhantomJS(javascript) - 基于WebKet核心的无头浏览器。已经停止维护
- java-curl - CURL命令行工具的纯java实现,功能强大,灵活方便
- httpclient - 历史悠久的Apache HTTP开源库
- okhttp - 目前流行的HTTP开源库,可用于Android
- retrofit - 基于okhttp的高层HTTP库,提供基于注解的API
- 冷月JS爆破 - 各种滑动验证码识别
- Luosimao验证码破解
- Tesseract OCR - 开源OCR引擎,可用于自动识别较简单的图片验证码
- 若快 - 人肉打码平台,服务较稳定,应答时间较快
- Fiddler - Windows平台上常用抓包工具,可以分析HTTPS,可C#编程自行扩展
- Charles - Mac上可用的抓包工具
- LittleProxy-MITM - 基于LittleProxy,可编程扩展的Java代理服务器,可基于中间人方式解析和修改HTTPS请求和应答
- proxyee - 国人作品,支持HTTPS
- 抓包工具大全 - 猫厂、鹅厂都有,看来大厂都喜欢造轮子
- javascript-breakpoint-collection - 一个Chrome插件,可用于设定高级断点;也可以直接在控制台执行其源码,之后即可在控制台设断点,可以监听任意对象属性读写、cookie读写等
- 几种常见的JavaScript混淆和反混淆工具分析实战
- spy-debugger手机浏览器远程调试 - 使用代理服务器注入外部JavaScript,实现远程调试。可以调试微信内置浏览器, 应用内嵌的WebView等,非常强大
- CURL - 最常用的命令行请求模拟工具,Windows下可以通过Cygwin安装,也可以直接用java-curl
- HTTPBIN.ORG - 在线工具网站,根据需求模拟各种HTTP应答,可用于验证代理的匿名性(透明/匿名/高匿)
curl -x <proxy>:<port> https://httpbin.org/get?show_env=1
- 如果X-Forwarded-For和origin不一致,表明使用了非匿名代理
- 淘宝IP地址库
http://ip.taobao.com/service/getIpInfo.php?ip=11.206.34.204
- 查询给定IP的归属地curl http://ip.taobao.com/service/getIpInfo2.php -x <proxy>:<port> -d "ip=myip"
- 查询当前主机公网IP信息,这个命令可以验证代理IP是否可用,同时获取代理IP的归属地
- IP138 - 查询IP归属地、手机号段等
- 在线UA库 - 各种真实浏览器UserAgent列表
- WEB前端助手 - Chrome插件,提供大量实用工具,如JSON格式化,编解码等
- 在线加解密算法大全 - 含DES, AES, RSA等,可用于快速验证加解密算法
- beautifier.io - js代码在线格式化
- estree - ECMAScript抽象语法树(AST)业界标准
- ECMAScript262语言规范 - 帮助理解estree
- acornjs - ECMAScript编译器前端,将js源码解析成estree格式的AST
- astring - ECMAScript代码生成器,将AST重新还原成js源码
- 知乎爬虫 - 使用http代理,多线程
- 电商爬虫 - httpclient+hbase+solr+redis+zookeeper
- 淘宝商品爬虫(python) - python + selenium
- HTTP简史 - 介绍HTTP协议的干货
- 网络爬虫干货总结 - 虽然是python栈的,但是对爬虫各个环节的概念总结的非常全面
- Java 月薪25K的爬虫工程师对爬虫的流程做了一个非常全面的总结! - 膜拜ing...
- 注入eval, Function等系统函数,截获动态代码 - 破解动态执行的加密js代码
- 某网站高度加密混淆的javascript的分析
- 从javaScript脚本混淆说起
- JavaScript反调试技巧 - 知己知彼,百战不殆
- Chrome调试技巧
- 那些年绕过的反爬手段
- 反反爬虫手段收集
- 大前端时代安全性如何做 - 提供一种反爬方案
- 文书网破解SDK
- 2.5代指纹追踪技术—跨浏览器指纹识别
- Chrome命令行参数大全 - 定制化chrome,比如启动无头版浏览器
- Getting Started with Headless Chrome - 介绍如何使用无头版Chrome
- CentOS6上安装Chrome - 用于搭建无头浏览器爬虫生产环境
- CentOS 7.x环境下搭建: Headless chrome + Selenium + ChromeDriver
- apkmirror - 安卓x86版Chrome下载,可用于安卓模拟器