1、首先要有 jsoup-1.7.1.jar jar包 引入。
2、jsoup 的工具类:
package com.wp.util; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class JsoupUtil { public static Document getDocument(String url) { int error_count = 0; Document doc = null; while (true) { if (error_count > Constants.url_error_count) { break; } try { doc = Jsoup .connect(url) .timeout(Constants.url_ConnectTimeout) .header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8") .header("Accept-Encoding", "gzip,deflate,sdch") .header("Connection", "keep-alive") .followRedirects(true) .userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)") .get(); } catch (Exception e) { error_count++; } if (doc != null) { break; } } return doc; } public static Document parseHtml(String html) { return Jsoup.parse(html); } }
3、主要采集的类:
package com.wp.test; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import com.wp.util.JsoupUtil; import com.wp.util.Util; public class Caiji { public static void main(String[] args) { start(); } public static void start() { BufferedWriter w = null; Document doc = JsoupUtil.getDocument("http://www.00kxs.com/html/0/596/");// 获取章节列表 try { File file = new File("E:/abc.txt"); w = new BufferedWriter(new FileWriter(file)); if (doc != null) { Elements list_a = doc.select("div[id=list] dl dd a");// 获取所有章节的url内容 for (Element el : list_a) { String url = el.attr("abs:href");// 章节url String name = el.text();// 章节名称 int chp_num = Util.parseInt(Util.getMatch("第(\\d+)章", name, 1)); System.out.println(url + "=====" + name + "====" + chp_num); Document e_content = JsoupUtil.getDocument(url);// 获取章节正文 String content = "";// 章节正文 if (e_content != null) { content = e_content.select("div[id=content]").html().replace(" ", " "); content = content.replace("<br />", "\n").replaceAll("(\n){1,}", "\n"); w.append(name + "\n\n" + content.replaceAll("(\n){1,}", "\n") + "\n\n"); } else { w.append(name + "\n\n"); } } } else { System.out.println("没有获取正文"); } } catch (Exception e) { e.printStackTrace(); } finally { try { if (w != null) w.close(); } catch (Exception e) { } } } }
相关推荐
代码中包含用java语言连接中控考勤机下载用户信息、考勤记录和指纹信息,上传用户信息和指纹信息,更改等等,存储数据库等等
主要介绍了java采集京东的全国行政区划数据示例,保存成json形式,如想转换到数据库只需反序列化为对象保存到数据库即可
ICE104Java解析源码,自己使用的,解析从站发送的遥信、遥测数据进行解析,自己可以在我的基础上写自己的处理代码。
Java数据结构
OPC UA-java源代码及示例: OPC基金会 (OPC Foundation) 发布了最新的数据通讯统一方法--OPC统一架构 (OPC UA), 涵盖了OPC 实时数据访问规范、OPC历史数据访问规范 、 OPC 报警事件访问规范 和OPC安全协议 的不同...
获取股票逐笔成交api接口java的demo
简单介绍基于bacnet-stack-0.8.3源码实现的写属性使用方法,bacnet-stack-0.8.3/bin/bacwp为Bacnet写属性的demo程序。
该系统采用时序数据库系统实现风电场的所有风电机组、风速、发电量等运行情况的远程监视和接收汇总,使各级部门都能及时的了解风电机组运行状态和发电状况。
本例中数据采集添加到默认采集包中,采集间隔为5分钟(服务间隔300000ms,RRD步长300s)。 如果您想要更精细的数据收集,请相应地调整轮询间隔和 RRD 步长。 笔记 您必须将 Java 应用程序配置为允许远程 JMX 连接。 ...
Java初学者的练习作品,基础中的基础 如果代码不分类,则代码阅读性差,维护性差 分类思想: 分工协作,专人专事 学生信息管理系统分类示例: ...StudentController类——和用户打交道(接收需求,采集信息,打印数据)
声音采集资源java 转换 SWF 转换 SWF 是组成 Adobe Flash 文件格式规范的每个数据结构和标签的类的集合。 这些类提供了一个完全面向对象的 API 来编码和解码 Flash (.swf) 文件。 转换 SWF 支持最新发布的版本 -...
欢迎欢迎访问 IBM i2 智能分析平台数据采集加速器的 GitHub 主页。... 此存储库包含有关为智能分析平台部署开发数据采集解决方案的示例代码、文档和讨论。 您可以使用此存储库包含的示例作为您自己项目的起点。
米扑代理示例,包含Python、Java、PHP、C#、Go、Perl、Ruby、Shell、NodeJS、PhantomJS、Groovy、Delphi、易语言等十多种编程语言或脚本,通过大量的可运行实例,详细讲解了使用代理IP的正确方法,方便网页爬取、...
simpledatax基于阿里开源数据采集工具datax做了一些减法,适合特定的场景。关于阿里的datax请移步 重点说明 恢复数据时实例之间的冲突。 将插件包和调度包集成到同一个包内,方便修改。 插件间不再使用不同的类加载...
主题细目话题采集数据结构LinkedList,堆,数组,ArrayList,HashMap,树,图,堆栈,队列,双端队列演算法排序,搜索,BFS,Dijkstra,动态编程,NQueens Android开发天气报告,GithubProfile应用程序,
涌入 HomeInflux从一组插件中收集数据并将其存储在influxdb中。 已经有很多非常好的项目以相同的方式工作,但是这个项目被设计为易于使用,并且具有一组对家庭使用可能有用的插件。...java -jar HomeInflux
Kafka是一个开源的分布式流处理平台,提供了高吞吐量、低延迟的流数据采集、处理和传输功能。Spring Boot作为一个快速构建Spring应用的框架,与Kafka的结合能够快速搭建实时数据处理系统。 Spring Boot通过简化...
Python网络数据采集.pdf Tensorflow Tensorflow 基于BM25F模型的Web文本挖掘个性化推荐研究_邵康.pdf 基于Spark的舆情分析架构研究_谭造乐.caj 问答系统研究综述_毛先领 统计自然语言处理(第2版).mobi 人物评价...
介绍利用java程序检查服务器或主机的运行时信息,包括操作系统、CPU使用情况、内存使用情况、硬盘使用情况以及网卡、网络信息。主要的办法有两 种:第一种,使用jdk1.6以上自动的功能,实现数据的获取,但是该方法...
概述 acromusashi-stream-example 项目总结了如何...数据采集 红隼 兔MQ 数据存储联动 Hadoop HBase 卡桑德拉 弹性搜索 机器学习功能 聚类 异常值检测 下载 执照 该软件是在MIT 许可证下发布的,请参阅 LICENSE.txt。