无需正则表达式连小白也会用的html源码任意内容提取工具

博主:秋蝉秋蝉 3年前 (2021) 1.06 K 0条评论

平时想从一些网页中提取一些内容,比如是栏目标题,或者是css属性,又或者是网页中的超链接,或者网页中的图片地址,又或者其他一些内容,我想你可能会使用正则表达式来处理
没错,正则表达式的确是不错的选择,那么今天我给大家推荐一款可以脱离复杂的正则表达式,仅仅需要分析一下简单的页面,写入需要提取的标签名和响应的属性,即可随心所欲的提取任何逆向提取的内容

没错,就是在线工具之 
在线HTML源码任意内容提取BeautifulSoup版

这款工具有什么神奇之处呢?下面会为大家讲解一下响应的使用场景 可以在以后的页面内容提取中,得心应手,事半功倍

首先我们随便找个网页来提取一下页面中的超链接

首先我们打开
http://icp.bugscaner.com/ 这个页面,我想提取里面的最新备案号

我们首先用谷歌浏览器查看元素,鼠标移动节点,使得整个最新备案号被选中,如下图


然后我们复制ul这段代码粘贴到

这里,提取规则该怎么写呢?我们查看元素观察标签元素不难发现,最新备案号既包含在title属性中,也包含在a标签文本中,如下图


那么我们的规则可以这样写
方法1:

方法2:

可以看到,都可以完美的提取出最新的备案号结果

下面再演示一下提取网页中的所有图片


比如我想提取
http://crack.bugscaner.com/article/ 这个页面的所有图片,那么选取元素如法炮制


又或者我想提取http://dns.bugscaner.com/icp.bugscaner.com.html 查询的结果



我想提取页面中的所有网址的标题,没问题

想提取页面中的历史查询网址


没问题


是不是很方便,,这样以后顺手提取点什么东西,就方便多了,网站页面中为了照顾新手,内置了多种使用示例,聪明你的我想应该一看就会
还有更高阶的玩法,就是配合正则表达式使用

更多玩法,大家可以自行研究,理论上来讲,可以提取任何逆向提取的内容,无需正则表达式,就这么任性
使用过程中有什么问题可以发邮件给我!

秋蝉博客www.100msh.net
The End

发布于:2021-04-09,除非注明,否则均为秋蝉'sblog原创文章,转载请注明出处。