热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

采集程序【开源项目】

更新:通过一些朋友的回复,了解到,可能文章太长了,有朋友只是简略浏览,所以还没有明白程序工作流程。简单介绍&#

更新:通过一些朋友的回复,了解到,可能文章太长了,有朋友只是简略浏览,所以还没有明白程序工作流程。

简单介绍,这个程序是给程序员用的,使用这个软件,必须是会写正则的朋友,或者是有朋友帮忙写正则。

这个程序不是针对某个网站或者网页而写的,而是一个“采集框架 ”——说是框架,有点大了。

但是核心的一点就是,只要会写正则,几分钟就可以针对一个采集目标,编写一个采集规则。

只需要4(3)个正则,就可以完成任务。

列表网址、页面标题、页面内容、页面链接

 

如果是逐页采集模式,列表网址的正则可以忽略。

 ------------------------------------------------

前言 

爱学习、爱使用移动设备阅读电子书的朋友,不能不拥有一款属于自己的采集利器。

而使用此程序即可以简单轻松的实现采集任务。

采集效果图

程序介绍

 在程序运行子目录 Config 是程序的配置的保存目录。

path.txt

[config]

Config\HtmlFormatConfig.xml

[task]

Config\task\

config 设置采集内容格式化的配置保存路径

task 设置任务工作规则保存和加载路径

 

采集工作窗体

起始网址

采集开始的网址,如果是逐页的模式,则是第一页的地址;

如果是列表的模式,则是第一个列表页面的地址。

列表网址

匹配下一个列表页面地址的正则表达式。

在逐页模式下,不用填写。

 

页面标题

匹配页面标题的正则表达式 

页面内容

匹配页面内容的正则表达式

页面链接

匹配内容页面链接的正则表达式

在逐页模式,采集到一个内容页面之后,可以匹配到下一个页面链接。

在列表模式,采集到一个列表页面之后,就可以匹配到若干个页面链接。

分页标识

识别是否为分页标题的匹配正则表达式

首页标识

第一页的标识,比如标题【科技业的员工到底有多年轻 (1)】,那么标识可以是(1)

保存路径

采集内容的保存目录

分页处理

是指采集的文章资料是进行了分页的,那么程序会根据设定的规则,判断是否是分页章节,如果是,则不重复添加标题。

比如

科技业的员工到底有多年轻 (1)

科技业的员工到底有多年轻 (2)

科技业的员工到底有多年轻 (3)

那么采集过程中,只会写入一个标题【科技业的员工到底有多年轻】

保存为一个文件

如果勾选,则采集到的所有内容都写入到一个文件中

开始

开始采集并将内容保存

测试

在消息框显示采集的效果

格式化设置窗体

左边是匹配到的字符,后边是表示要替换成的字符。

程序运行时,会将第二行(如果有两行)的字符拷贝一份转换为大写组合在一起,进行格式化。

换行标签、空白标签、缩进标签

可以输入包含正则在内的字符进行匹配

章节标题

{0}表示采集的序号(采集一个地址则加1),{1}表示采集到的标题。

辅助功能

可以将输入的字符进行大小写转换

 

编写新规则

编写采集规则需要有一定的正则表达式的知识,如果不了解阅读这个页面:(正则表达式30分钟入门教程)http://deerchao.net/tutorials/regex/regex.htm

 

任务是以xml文件的形式保存,文件名命名格式是:任务名称 - 网站名称.xml

在任何一个任务状态下,只需要修改任务名称,或者网站名称,再点击保存任务,即可新建一个任务。

如果名称一样会提示是否覆盖。

 

这里以博客园新闻为例

博客园新闻是一个列表式的采集任务——在一个页面可以匹配得到若干个页面地址

http://news.cnblogs.com/

使用firebug或者其它前端调试工具,可以轻松得到采集特征

比如下图

 


 

点击红框【点击查看页面中的元素】然后在页面的【创业公司如何评估 – 度量公司潜力的方法】位置点下。

就可以定位到html代码

这样就可以获取到内容页面的链接特征


<h2 class&#61;"news_entry">
<target&#61;"_blank" href&#61;"/n/182026/">创业公司如何估值 — 度量公司潜力的方法a>
h2>

然后需要观察这个标识是不是唯一特征的&#xff0c;也就是这个特征匹配到的都是自己期望中的内容。否则就需要增加更多的限制特征。

 

将特征编写为匹配的正则表达式

 

源码说明

解决方案有3个项目组成

Forms是视窗程序

Framework是采集程序

Helper是辅助程序

 

由于考虑到以后会增加不同的采集任务&#xff0c;因此采用MDI窗体。

Config目录是默认配置

FrmFormatConfig是内容格式化配置窗体

FrmGatherWorker是采集工作窗体

MDIParentMain是窗体容器

Config是内容格式化配置实体类

Task是采集任务规则实体类

Worker是采集工作类

 

 

Worker采集工作类说明

先看看3个主要事件

/// 
/// 错误触发事件&#xff0c;传入参数 引发的异常对象、错误的类型、当前工作的网址
/// 

public event Actionstring> OnError;

/// 
/// 工作结束触发事件
/// 

public event Action OnWorkEnd;

/// 
/// 一次/地址采集完成触发事件&#xff0c;传入参数 采集内容的标题、内容、网址
/// 

public event Action<stringstringstring> OnWorkItemEnd;

 

创建对象

 
Worker work &#61; new Worker(_httpRequest, _config, _task);
work.OnError &#43;&#61; w_OnError;
work.OnWorkItemEnd &#43;&#61; work_OnWorkItemEnd;
work.OnWorkEnd &#43;&#61; work_OnWorkEnd;

定义内容处理

/// 
/// 一次(个网址)采集完成后&#xff0c;执行内容写入文件操作
/// 

private void work_OnWorkItemEnd(string curWebTitle, string curWebContent, string curUrl)
{
    //将采集到的内容写入到文件流中
    byte[] byteWebContent &#61; Encoding.UTF8.GetBytes(curWebContent);
    if (_task.IsSaveOnlyFile)
    {
        //如果当前内容标题为空&#xff0c;则可能分页
        if (!string.IsNullOrEmpty(curWebTitle))
        {
            byte[] byteWebTitle &#61; Encoding.UTF8.GetBytes(curWebTitle);
            _curSavaFile.Write(byteWebTitle, 0, byteWebTitle.Length);
        }
        _curSavaFile.Write(byteWebContent, 0, byteWebContent.Length);
    }
    else
    {
        using (FileStream curSavaFile2 &#61; new FileStream("{0}{1}.txt".FormatWith(_task.SavePath, curWebTitle), FileMode.OpenOrCreate, FileAccess.ReadWrite))
        {
            curSavaFile2.Write(byteWebContent, 0, byteWebContent.Length);
        }
    }
    UpdateWorkMessage("\n已采集&#xff1a;{0}&#xff0c;网址&#xff1a;{1}".FormatWith(curWebTitle, curUrl));
    Application.DoEvents();
}

  

其它更多&#xff0c;请下载源码查看

其它

运行程序下载&#xff1a;http://files.cnblogs.com/yelaiju/NWebGather.rar 

.net framework 4.0微软官网下载 http://www.microsoft.com/zh-cn/download/details.aspx?id&#61;17718
 

源码下载&#xff1a;http://files.cnblogs.com/yelaiju/NWebGather-src.rar

 

开源地址&#xff1a;https://github.com/alifellod/NWebGather

不了解github下载源码的方式&#xff0c;请看文章&#xff1a;http://www.cnblogs.com/yelaiju/p/3180986.html

正则词典&#xff08;手册&#xff09;http://www.cnblogs.com/yelaiju/p/3182854.html 

 

相关推荐项目:

园友:SmartBooks作品    https://github.com/smartbooks/SmartSpider

 

园友:心态要好推荐 http://blog.csdn.net/sq_zhuyi/article/details/7924776

 

各位朋友对采集有兴趣&#xff0c;可以一起维护和贡献代码&#xff0c;如此大家都可以轻松的共享同一个采集框架。


本文转自火地晋博客园博客&#xff0c;原文链接&#xff1a;http://www.cnblogs.com/yelaiju/p/3180920.html&#xff0c;如需转载请自行联系原作者



推荐阅读
  • 本文介绍了在Linux下安装Perl的步骤,并提供了一个简单的Perl程序示例。同时,还展示了运行该程序的结果。 ... [详细]
  • JSCoverage-->JavaScript测试覆盖率检测工具(转),Go语言社区,Golang程序员人脉社 ... [详细]
  • 一、选择器性能优化建议1.总是从#id选择器来继承这是jQuery选择器的一条黄金法则。jQuery选择一个元素最快的方法就是用ID来选择了。1$(#content).hide() ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • Python字典推导式及循环列表生成字典方法
    本文介绍了Python中使用字典推导式和循环列表生成字典的方法,包括通过循环列表生成相应的字典,并给出了执行结果。详细讲解了代码实现过程。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • 小程序wxs中的时间格式化以及格式化时间和date时间互转
    本文介绍了在小程序wxs中进行时间格式化操作的问题,并提供了解决方法。同时还介绍了格式化时间和date时间的互相转换的方法。 ... [详细]
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
  • JavaScript与DOM(上)——也适用于新手 – 深入理解JavaScript系列 23
    本文是《JavaScript深度解析》系列文章第23篇(共51篇)文档对象模 ... [详细]
  • 凡客诚品官方网站的前端改进建议
    打开http:www.vancl.com发现采用的Asp.net,这点我感到很欣慰,毕竟国内采用.net技术体系的优秀网站少之又少。好奇之余右键-查看源 ... [详细]
  • 高仿CSDN社区树形图 .
    一直感觉CSDN社区的树形结构特别的人性化,直观化。最近做系统的时候需要用到这个树形结构,于是模仿CSDN的树形结构做了一个自己的树形结构, ... [详细]
  • 动态json文件php(json拼接动态数据)
    本文目录一览:1、如何php将一个动态的数组转换为json的格式 ... [详细]
  • 启动浏览器、设置profile&加载插件
    一、Driver下载地址:http:docs.seleniumhq.orgdownload二、启动firefox浏览器(不需要下载驱动,原生支持)1、firefox安装在默认路径下 ... [详细]
author-avatar
k172ausoreor_878
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有