十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
这篇文章主要讲解了“如何用Storm来写一个Crawler的工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何用Storm来写一个Crawler的工具”吧!
创新互联建站网站建设服务商,为中小企业提供网站设计、网站建设服务,网站设计,网站运营等一站式综合服务型公司,专业打造企业形象网站,让您在众多竞争对手中脱颖而出创新互联建站。
阅读背景:
1: 您可能需要了解基本的爬虫知识。
2:您可能需要对HTTP协议有初步了解。
3:您可能需要对Storm计算的逻辑有初步的了解。
package com.digitalpebble.storm.crawler;
import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.StormSubmitter;
import backtype.storm.topology.TopologyBuilder;
import backtype.storm.tuple.Fields;
import com.digitalpebble.storm.crawler.bolt.IPResolutionBolt;
import com.digitalpebble.storm.crawler.bolt.indexing.IndexerBolt;
import com.digitalpebble.storm.crawler.bolt.parser.ParserBolt;
import com.digitalpebble.storm.crawler.fetcher.Fetcher;
import com.digitalpebble.storm.crawler.spout.RandomURLSpout;
/**
* 整体爬虫引擎的topology
*/
public class CrawlTopology {
public static void main(String[] args) throws Exception {
TopologyBuilder builder = new TopologyBuilder();
builder.setSpout("spout", new RandomURLSpout());
builder.setBolt("ip", new IPResolutionBolt()).shuffleGrouping("spout");
builder.setBolt("fetch", new Fetcher()).fieldsGrouping("ip",
new Fields("ip"));
builder.setBolt("parse", new ParserBolt()).shuffleGrouping("fetch");
builder.setBolt("index", new IndexerBolt()).shuffleGrouping("parse");
Config conf = new Config();
conf.setDebug(true);
conf.registerMetricsConsumer(DebugMetricConsumer.class);
if (args != null && args.length > 0) {
conf.setNumWorkers(3);
StormSubmitter.submitTopology(args[0], conf,
builder.createTopology());
} else {
conf.setMaxTaskParallelism(3);
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("crawl", conf, builder.createTopology());
Thread.sleep(10000);
cluster.shutdown();
}
}
}
感谢各位的阅读,以上就是“如何用Storm来写一个Crawler的工具”的内容了,经过本文的学习后,相信大家对如何用Storm来写一个Crawler的工具这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!