无需正则表达式连小白也会用的html源码任意内容提取工具

秋蝉 3年前 (2021) 1.06 K 0条评论

平时想从一些网页中提取一些内容,比如是栏目标题,或者是css属性,又或者是网页中的超链接,或者网页中的图片地址,又或者其他一些内容,我想你可能会使用正则表达式来处理
没错，正则表达式的确是不错的选择,那么今天我给大家推荐一款可以脱离复杂的正则表达式,仅仅需要分析一下简单的页面,写入需要提取的标签名和响应的属性,即可随心所欲的提取任何逆向提取的内容

没错，就是在线工具之在线HTML源码任意内容提取BeautifulSoup版

这款工具有什么神奇之处呢？下面会为大家讲解一下响应的使用场景可以在以后的页面内容提取中,得心应手，事半功倍

首先我们随便找个网页来提取一下页面中的超链接

首先我们打开 http://icp.bugscaner.com/ 这个页面,我想提取里面的最新备案号

我们首先用谷歌浏览器查看元素，鼠标移动节点,使得整个最新备案号被选中,如下图

然后我们复制ul这段代码粘贴到

这里,提取规则该怎么写呢？我们查看元素观察标签元素不难发现,最新备案号既包含在title属性中,也包含在a标签文本中，如下图

那么我们的规则可以这样写
方法1：

方法2：

可以看到，都可以完美的提取出最新的备案号结果

下面再演示一下提取网页中的所有图片

比如我想提取 http://crack.bugscaner.com/article/ 这个页面的所有图片，那么选取元素如法炮制

又或者我想提取 http://dns.bugscaner.com/icp.bugscaner.com.html 查询的结果

我想提取页面中的所有网址的标题,没问题

想提取页面中的历史查询网址

没问题

是不是很方便,，这样以后顺手提取点什么东西,就方便多了,网站页面中为了照顾新手,内置了多种使用示例,聪明你的我想应该一看就会
还有更高阶的玩法,就是配合正则表达式使用

更多玩法,大家可以自行研究,理论上来讲,可以提取任何逆向提取的内容,无需正则表达式,就这么任性
使用过程中有什么问题可以发邮件给我！

秋蝉博客www.100msh.net

The End

发布于：2021-04-09，除非注明，否则均为秋蝉'sblog原创文章，转载请注明出处。

标签：html源码任意内容提取工具

无需正则表达式连小白也会用的html源码任意内容提取工具

发表评论再考虑下

还没有评论，来说两句吧...

相关文章

发表评论再考虑下

还没有评论，来说两句吧...