基于Hadoop的Clearinghouse系统架构设计

基于Hadoop的Clearinghouse系统架构设计

2024-11-10 16:06

Clearinghouse(数据交换中心)是随着异构组织之间共享空间数据而产生的，它的目标是建立一个虚拟空间数据机制，用来收集空间数据的元数据和发布服务，以便高效的获取空间数据，同时利用空间数据提供决策支持。通常建立Clearinghouse的基本途径是通过一套元数据标准，收集各个组织中空间数据的元数据，通过服务接口帮助用户确定存在哪些数据，以及获取这些数据的方式等。但是随着各个组织中的空间数据的快速增长，其元数据条目也在不断增多。

Clearinghouse的功能概括如下：

(1)是一个可查询的信息目录。它覆盖所有参与信息共享的地理区域，为用户提供了对相关地理信息进行查询、发布等操作的工具。这个信息目录包含的不是数据本身，而是关于数据的信息，即元数据。

(2)是一个虚拟信息空间。在这里，可以通过简单操作来搜寻和定位感兴趣的地理信息。它是采用统一的元数据，相同的查询和检索协议，以及用于各种元数据收集的注册系统来完成的，可借以实现信息挖掘。

(3)是一个集中式服务系统。所有地理数据的元数据都存放在clearinghouse中，客户端采用现有的Web技术，通过查询元数据来获取数字化地理信息。

在大数据环境下，Clearinghouse存在和需要解决如下问题：

1）数据量大，增长快。

这里所涉及的数据量比传统事务处理大得多，且随时间的推移而累积。在这种环境下对任何一种数据处理平台的一个关键性要求是它必须具有快速的支持系统扩展的应变能力。

2）分析需求：复杂的数据挖掘算法

根据TDWI对大数据分析的报告，数据分析由常规分析转向深度分析。深度分析包括数据关联分析、回归分析等复杂分析。

以上就是本篇文章【基于Hadoop的Clearinghouse系统架构设计】的全部内容了，欢迎阅览！文章地址：http://ktsh.xhstdz.com/quote/3420.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://ktsh.xhstdz.com/mobile/ , 查看更多