产品介绍

提供简单、强大的网页信息提取服务

Web 内容结构化之网页正文.

URL2Article 用来提取并解析网页中的正文区域,实现网页正文提取标题提取发布日期提取下一页链接提取等。该服务提供的 RESTful API 接口每月被调用超过6百万次。


正文提取

正文识别

精准识别网页的正文部分,提取的内容将不含有任何广告、导航和其他非正文内容。

格式转化

提取的内容可以转化为以下3种形式,默认为html形式:

  • html: 输出正文的 html 格式,保留包括链接、图片和其他媒体在内的所有内容。并会对内容做进一步优化,智能清除正文中的广告、清除html标签中与内容无关的相关属性等。
  • text: 输出 txt 格式,保留正文的文字部分,并且通过智能排版引擎最大程度保留内容的排版,基本能达到和浏览器一致的排版效果。
  • raw html: 输出正文的 html 格式,原样保留原生网页的正文部分,不对内容做任何优化处理。

发布信息提取

标题识别

不是简单地通过提取<title>标签来实现,而是通过分析与正文的上下文关联来智能地识别标题,从而实现精准的正文标题提取。

发布日期识别

智能识别文章的发布日期。

惰性图片解析

支持惰性图片解析

解决目标网页使用图片延时加载技术时,无法获取图片真实路径的问题。通过智能识别正文中的惰性图片,并自动将图片地址解析为真实地址。对于部分无法识别的图片会保留全部属性,方便开发者之后自行适配。


下一页链接提取

下一页链接识别

智能识别当前网页的下一页。如果网页的内容被分为多页,可以选择提取该网页的下一页链接从而做进一步提取。


:这里的下一页指的是与当前页面正文内容是连续的(如一篇文章的下一部分),而不是并列的(如一篇文章后的下一篇文章)


请查看 URL2Article API 使用文档 来了解如何使用。

Demo 演示


开发中...


Feedback