Web数据提取是一种信息获取,它的主要目的是从非结构的或者是半结构化的Web数据源,自动提取为结构化的信息。了解更多
* 金融数据 * 房地产数据 * 产品报价数据 * 复制一个在线数据库 * 动态Web内容 * 建立创新的新服务 *销售领先 * 捕获交友网站信息 * 捕获竞标信息 * 从在线工作网站上捕获工作广告信息等等。点击这里查看示例
随着万维网的发展,具备不同主题的在线数据已经非常庞大。通常,用户通过浏览器或关键词搜索获取Web数据,这些传统的方法有它们自身的限制和缺陷。浏览器浏览这种方法不适合找出具体数据项,因为跟随的数据链接经常导致数据丢失,更不要说有多么的浪费时间了。关键词检索能够更加有效率,但是通常返回巨大的数据量。互联网上的数据不像数据库中的数据那样具备结构化模式。简单地说 - 获取网上的信息不是人的能力所能及的。
当数据提取能够从网上获取数据时,转换并以合适的方式传送他们到网站上,例如:XML文件、数据库、电子表格等等。
网站是不同的。从一个网站到另一个网站,数据表现不同,且数据结构会有大的改变。还有,网站通过不同的编码和HTML元素显示它们的内容。这对于Web提取工具来说是一个最直接的挑战是:能够从变化的资源中提取数据。
传统的提取Web信息的方式是嵌套(Wrappers),写指定的程序。这些程序对以每一次提取来说是特定的。他们事实上是从网站上绘制数据,转换并输出他们(这可以是另一个网站,XML文件,数据库,电子表格,为第三方应用软件输入,实际上任何结构的数据源)。对于嵌套来说,主要的挑战是在感兴趣的数据与不感兴趣的数据之间进行区分,处理多级的,非刚性的体现在Web上的数据。
由于时间消耗在开发和维护上,人工开发嵌套会有很多的缺点。这就是为什么像Unit Miner这样的高级软件使用脚本语言,这样能够从根本上缩短开发过程。另一个优点是更加灵活 -脚本语言是能够在文档结构中操作较少的修改,从而不需要维护工作。我们关心的是能够提供数据提取解决方案,并给予合理的价格 - 这就是为什么我们建立基本的模板,这些模板能够帮助快速地开发定制Web数据提取应用软件。