热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DOM应用遍历网页中的元素

在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都

在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改......等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都是围绕如何遍历 HTML 中的表单(form)并枚举出表单域的属性为目标的,对于网页中的其它元素,比如图象、连接、脚本等等,应用同样的方法都可以轻松实现。

二、网页的文档层次结构

IE 浏览器,采用 DOM(文档对象模型)来管理网页的数据。它通过一个容器(IWebBrowser2/IHTMLWindow2)来装载网页文档(IHTMLDocument2),而一个文档,又可以由 0 或多个贞(frame)组成,管理这些贞的接口叫“框架集合(IHTMLFramesCollection2)”,而每个贞的容器又是IHTMLWindow2,和IWebBrowser2一样,它也装载着各自的文档(IHTMLDocument2)。因此,我们的第一个任务,就是想方设法能够得到IHTMLDocument2的接口。因为文档可能包含贞,而贞又包含着子文档,子文档可能再包含贞......,如此要得到所有的文档,这里有一个递归遍历的处理过程。

得到文档(IHTMLDocument2)后,下一步任务就是要设法取得表单了(IHTMLFormElement)。因为在一个文档中可以包含 0 或多个表单(form),而管理这些表单的又是一个表单集合(IHTMLElementCollection),所以必须先得到集合,然后再枚举出所有的表单条目了。

得到表单(IHTMLFormElement)后,接下来的事情就简单了,逐个提取表单中的元素(也叫表单域 IHTMLInputElement)就可以读写这些域的属性了。

说了半天,我估计初次接触的朋友一定没有听懂:( 呵呵,还是用图的方式表示一下吧,这样比较清晰一些。

 技术分享

三、程序实现

<1> 取得 IHTMLDocument2 的接口指针。根据IE浏览器的运行方式,有多种不同的方式可以获取文档指针。

 <1.1> 如果你在程序中使用MFC的 CHtmlView 视来浏览网页。

取得文档的方法最简单,调用 CHtmlView::GetHtmlDocument() 函数。

<1.2> 如果你的程序中使用了“Web 浏览器” 的ActiveX 控件。

取得文档的方法也比较简单,调用 CWebBrowser2::GetDocument() 函数。

<1.3> 如果你的程序是用 ATL 写的 ActiveX 控件。

那么需要调用 IOleClientSite::GetContainer 得到 IOleContainer 接口,然后就可以通过 QueryInterface() 查询得到 IHTMLDocument2 的接口。主要代码如下:

1.CComPtr spContainer;
2.m_spClientSite->GetContainer( &spContainer );
3.CComQIPtr spDoc = spContainer;
4.if ( spDoc )
5.{
6.// 已经得到了 IHTMLDocument2 的接口指针
7.}

<1.4> 如果你的程序是用 MFC 写的 ActiveX 控件。

那么需要调用 COleControl::GetClientSite() 得到 IOleContainer 接口,然后的操作和<1.3>是一致的了。

<1.5> IE 浏览器作为独立的进程正在运行。

每个运行的浏览器(IE 和 资源浏览器)都会在 ShellWindows 中进行登记,因此我们要通过 IShellWindows 取得实例(示例程序中使用的就是这个方法)。主要代码如下:

01.#include
02.#include
03. 
04.void FindFromShell()
05.{
06.CComPtr< IShellWindows > spShellWin;
07.HRESULT hr = spShellWin.CoCreateInstance( CLSID_ShellWindows );
08.if ( FAILED( hr ) )    return;
09. 
10.long nCount=0;
11.spShellWin->get_Count(&nCount);   // 取得浏览器实例个数
12. 
13.for(long i=0; i spDisp;
14.hr=spShellWin->Item(CComVariant( i ), &spDisp );
15.if ( FAILED( hr ) )   continue;
16. 
17.CComQIPtr< IWebBrowser2 > spBrowser = spDisp;
18.if ( !spBrowser )     continue;
19. 
20.spDisp.Release();
21.hr = spBrowser->get_Document( &spDisp );
22.if ( FAILED ( hr ) )  continue;
23. 
24.CComQIPtr< IHTMLDocument2 > spDoc = spDisp;
25.if ( !spDoc )         continue;
26. 
27.// 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
28.}
29.}

<1.6> IE 浏览器控件被一个进程包装在一个子窗口中。那么你首先要得到那个进程的顶层窗口句柄(使用 FindWindow() 函数,或其它任何可行的方法),然后枚举所有子窗口,通过判断窗口类名是否是“Internet Explorer_Server”,从而得到浏览器的窗口句柄,再向窗口发消息取得文档的接口指针。主要代码如下:

01.#include
02.#include
03.#include
04.#pragma comment ( lib, "oleacc" )
05. 
06.BOOL CALLBACK EnumChildProc(HWND hwnd,LPARAM lParam)
07.{
08.TCHAR szClassName[100];
09. 
10.::GetClassName( hwnd,  &szClassName,  sizeof(szClassName) );
11.if ( _tcscmp( szClassName,  _T("Internet Explorer_Server") ) == 0 )
12.{
13.*(HWND*)lParam = hwnd;
14.return FALSE;       // 找到第一个 IE 控件的子窗口就停止
15.}
16.else    return TRUE;        // 继续枚举子窗口
17.};
18. 
19.void FindFromHwnd(HWND hWnd)
20.{
21.HWND hWndChild=NULL;
22.::EnumChildWindows( hWnd, EnumChildProc, (LPARAM)&hWndChild );
23.if(NULL == hWndChild)   return;
24. 
25.UINT nMsg = ::RegisterWindowMessage( _T("WM_HTML_GETOBJECT") );
26.LRESULT lRes;
27.::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (DWORD*) &lRes );
28. 
29.CComPtr spDoc;
30.HRESULT hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (LPVOID *) &spDoc );
31.if ( FAILED ( hr ) )    return;
32. 
33.// 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
34.}

<2> 得到了 IHTMLDocument2 接口指针后,如果网页是单贞的,那么转第<4>步骤。如果是多贞(有子框架)则还需要遍历所有的子框架。这些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指针的方法比较简单,取属性 IHTMLDocument2::get_frames()。

<3> 首先取得子框架的总数目 IHTMLFramesCollection::get_length(),接着就可以循环调用 IHTMLFramesCollection::item()函数一个一个地取得子框架 IHTMLWindow2 指针,然后转第<1>步。

<4> 一个文档中可能拥有多个表单,因此还是同样的道理,先要取得表单的集合(IHTMLElementCollection,其实这个不光是表单的集合,其他元素的集合,比如图片集合也是用它)。这个操作也很简单,取得属性 IHTMLDocument2::get_forms()。

<5> 属性 IHTMLElementCollection::get_length() 得到表单总数目,就可以循环取得每一个表单指针了 IHTMLElementCollection::item()。

<6> 在第<5>步中的item()函数,得到的是一个IDispatch的指针,你通过QueryInterface()查询,就可以得到 某类型输入的指针,代码如下:

01.// 假设 spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指针
02.CComQIPtr      spInputText(spDisp);
03.CComQIPtr    spInputButton(spDisp);
04.CComQIPtr    spInputHidden(spDisp);
05.......
06.if ( spInputText )
07.{
08.//如果是文本输入表单域
09.}
10.else if ( spInputButton )
11.{
12.//如果是按纽输入表单域
13.}
14.else if ( spInputHiddent )
15.{
16.//如果是隐藏输入表单域
17.}
18.else if ........    //其它输入类型

上面的方法,由于使用具体类型的接口指针,因此程序的效率比较高。但是通过 QueryInterface 接口查询,然后再进行条件判断显然是比较烦琐的,所以这个方法适合于特定的已知网页设计内容的程序。在示例程序中,我则是直接使用 IDispatch 接口进行操作的,这个方式执行起来稍微慢一些,但程序比较简单。主要代码和说明如下:

01.#include
02.CComModule  _Module;    // 由于需要使用 CComDispatchDriver 的 IDispatch 包装类ATL智能指针,所以这个是必须的
03.#include
04.......
05.long nElemCount=0;      //表单域的总数目
06.spFormElement->get_length( &nElemCount );
07. 
08.for(long j=0; j
09.{
10.CComDispatchDriver spInputElement;  // IDispatch 的智能指针
11.spFormElement->item( CComVariant( j ), CComVariant(), &spInputElement );
12. 
13.CComVariant vName,vVal,vType;   // 域名称,域值,域类型
14.spInputElement.GetPropertyByName( L"name", &vName );
15.spInputElement.GetPropertyByName( L"value",&vVal  );
16.spInputElement.GetPropertyByName( L"type", &vType );
17.// 使用 IDispatch 的智能指针的好处就是:象上面这样读取、设置属性很简单
18.// 另外调用 Invoke 函数也异常方便,Invoke0(),Invoke1(),Invoke2()....
19.......
20.}

四、结束语

示例程序在 VC6 下编译执行通过。运行方法:随便启动几个 IE 浏览网页,最好是有表单输入的网页。然后执行示例的 EXE 程序即可。到这里,就到这里了......祝大家学习快乐 ^-^

DOM应用---遍历网页中的元素


推荐阅读
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 后台获取视图对应的字符串
    1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 猜字母游戏
    猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • CentOS 6.5安装VMware Tools及共享文件夹显示问题解决方法
    本文介绍了在CentOS 6.5上安装VMware Tools及解决共享文件夹显示问题的方法。包括清空CD/DVD使用的ISO镜像文件、创建挂载目录、改变光驱设备的读写权限等步骤。最后给出了拷贝解压VMware Tools的操作。 ... [详细]
  • position属性absolute与relative的区别和用法详解
    本文详细解读了CSS中的position属性absolute和relative的区别和用法。通过解释绝对定位和相对定位的含义,以及配合TOP、RIGHT、BOTTOM、LEFT进行定位的方式,说明了它们的特性和能够实现的效果。同时指出了在网页居中时使用Absolute可能会出错的原因,即以浏览器左上角为原始点进行定位,不会随着分辨率的变化而变化位置。最后总结了一些使用这两个属性的技巧。 ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
author-avatar
用户gum5gltoo8
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有