URL2io_

提供简单、强大的智能信息处理服务

了解更多

URL2io 产品简介


Article

URL2Article 用来对网页进行结构化解析,

智能识别网页正文、标题、下一页链接等。

...

了解更多

NLP 引擎

URL2NLP 用来对文本信息进行智能处理,

提供中文分词、词性标注、关键词提取等功能。

...

了解更多

Vue.py

开源的声明式、组件化 Python UI 框架,

在 Jupyter 中快速构建可视化数据分析应用。

...

了解更多

URL2Article 用来提取并解析网页中的正文区域,实现网页正文提取标题提取发布日期提取下一页链接提取等。该服务提供的 RESTful API 接口每月被调用超过6百万次。

正文提取

正文识别

精准识别网页的正文部分,提取的内容将不含有任何广告、导航和其他非正文内容。


格式转化

提取的内容可以转化为以下3种形式,默认为html形式:

  • html: 输出正文的 html 格式,保留包括链接、图片和其他媒体在内的所有内容。并会对内容做进一步优化,智能清除正文中的广告、清除html标签中与内容无关的相关属性等。
  • text: 输出 txt 格式,保留正文的文字部分,并且通过智能排版引擎最大程度保留内容的排版,基本能达到和浏览器一致的排版效果。
  • markdown: 输出 markdown 格式,保留正文的文字部分,并且通过智能排版引擎转化为 markdown 格式。
  • raw html: 输出正文的 html 格式,原样保留原生网页的正文部分,不对内容做任何优化处理。

发布信息提取

标题识别

不是简单地通过提取<title>标签来实现,而是通过分析与正文的上下文关联来智能地识别标题,从而实现精准的正文标题提取。


发布日期识别

智能识别文章的发布日期。

惰性图片解析

支持惰性图片解析

解决目标网页使用图片延时加载技术时,无法获取图片真实路径的问题。通过智能识别正文中的惰性图片,并自动将图片地址解析为真实地址。对于部分无法识别的图片会保留全部属性,方便开发者之后自行适配。


下一页链接提取

下一页链接识别

智能识别当前网页的下一页。如果网页的内容被分为多页,可以选择提取该网页的下一页链接从而做进一步提取。


:这里的下一页指的是与当前页面正文内容是连续的(如一篇文章的下一部分),而不是并列的(如一篇文章后的下一篇文章)

请查看 URL2Article API 使用文档 来了解如何使用。
文本信息智能处理

URL2NLP 用来对文本信息进行智能处理,提供中文分词、词性标注、关键词提取等功能。

中文分词

中文分词

分词是大多数自然语言问题中最基本的步骤,而中文在书写时,词之间并不会通过分隔符来进行分割。

为了满足中文自然语言处理的需要,URL2NLP提供了一套分词系统,支持中文分词、新词发现、去停用词等功能。

词性标注

词性标注

支持对分词后的词语进行词性标注, 词性标注方法与ICTCLAS汉语词性标注集兼容。 但URL2NLP的词性标注多达57种,比ICTCLAS的39种更多。

关键词提取

关键词提取

关键词提取引擎可以提取出文本中最有代表性的关键词,并给出对应的权重。

请查看 URL2NLP API 使用文档 来了解如何使用。



交付方式与解决方案

提供SaaS版、云镜像版、私有云版三种产品形态,覆盖各种使用场景。
三种产品形态在使用上完全一致,用户可以无缝、快速地进行切换


  • 云镜像版

    云镜像版(推荐)

    云镜像版是将 URL2io API 镜像部署在高性能云主机上的服务方式,提供多种云主机规格,对性能配置具备更好的可控性。同时,我们会提供运维支持服务,为您免除运维烦恼。

    了解更多

  • 私有云版

    私有云版

    私有云版是将 URL2io API 镜像部署在用户自有的数据中心,满足用户更高的安全合规和私密性要求。

    联系我们




他们正在使用 URL2io

URL2io 正在运用 AI 技术帮助更多企业,提升产品的用户体验和商业价值





Feedback