摘 要:网格计算被称为继Internet和Web技术之后的“第三个信息技术浪潮”,旨在使用户能够利用Internet上的强大的、异构的、分布的资源,包括计算资源、存储资源、通信资源、软件资源、信息资源和知识资源等。本文详细叙述了网格计算的体系结构,并对网格计算的实现进行了初步尝试,并指出其中要解决的重要问题。
关键词:网格计算 网格系统 体系结构
1.引言
第一代Internet把遍布于世界各地的计算机用TCP/IP协议连接在一起,实现了计算机硬件的连通;第二代Internet则通过Web信息浏览及电子商务应用等信息服务,实现了全球网页的连通;第三代Internet将试图实现互联网上各种资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源和知识资源等,就像一台超级计算机一样为用户提供一体化信息服务,这就是网格计算[1-4]。因此,网格也被称为继Internet和Web之后的“第三个信息技术浪潮”。
网格计算环境要求不影响网格节点本地的管理和自主性,不改变网格节点原有的操作系统、网络协议和服务,保证用户和远程节点的安全性,允许远程节点选择加入或退出系统,尽量使用已存在的标准的技术以便应用兼容已有,并能提供可靠的容错机制。一个理想的网格计算应类似当前的Web服务,可以构建在当前所有硬件和软件平台上,给用户提供完全透明的计算环境,对用户而言,它把众多异构的资源变成了同构的虚拟计算环境,用户分享网上资源,就如同个人独立使用一台超级计算机一样。
网格计算技术的应用领域十分广泛,从生物基因工程领域的基因测序,到高能物理领域更深层次物质结构的研究,再到气象、地震的预报预测,再到环境保护、制造业的设计与生产、电子商务等,这些重大科学领域的计算问题促使科学家使用网格技术聚集分散的计算能力,形成超级计算的能力,共同完成计算问题,并从中享受一体化的、动态变化的、可灵活控制的、智能的、协作式的信息服务,以满足对高性能计算网格即信息网格的巨大需求。
据美国《福布斯》杂志预测, 网格技术将在2004~2005年出现一个高峰, 推动信息产业市场的持续高速发展,在2020年产生一个年产值为20万亿美元的大工业。2005年之前是网格浪潮正酝酿涌动的时刻,中国科技界应积极地投入到网格研究,并争取参与到以后的国际科技界中制定网格技术标准。
网格计算系统具有资源分布性、管理多重性、动态多样性、结构可扩展性等特点。网格计算的设计主要是指网格体系结构的设计。网格体系结构是关于如何建造网格的技术,包括对网格基本组成部分和各部分功能的定义和描述,以及网格各部分相互关系与集成方法的定义。网格体系结构是网格的骨架和灵魂,是网格最核心的技术,只有建立合理的网格体系结构,才能够设计和建造好网格,才能够使网格有效地发挥作用。本文介绍了网格计算(Grid Computing)的体系结构和特点,通过分析典型的网格计算系统,了解网格计算的思想、技术和现状。最后,对网格计算的实现进行了初步尝试,并指出其中要解决的重要问题。
2.网格计算的结构
网格体系结构是关于如何构建网格的技术。它需能够标识出网格的基本组成成分,能够清楚地说明网格整体是由哪些关键部分结合在一起形成的,还必须能够对各个部分的功能、目的、特点等进行清晰地描述,使人们能够了解各个组成部分的作用。
2.1 网格计算的基本层次
网格计算系统可以分为三个基本层次: 资源层、中间件层和应用层。
资源层是构成网格系统的硬件基础,包括各种计算资源,如高速互连的异构计算机、数据库、科学仪器、文件和超级计算系统等,这些计算资源通过网络设备连接起来。资源层虽然实现了计算资源在物理上的连通,但从逻辑上看,这些资源仍然是孤立的,资源共享问题仍然没有得到解决。因此,必须在资源层的基础上通过网格中间件层来完成广域计算资源的有效共享。
中间件层是网格计算的核心,它在资源层的基础上实现广域计算资源的有效共享,负责提供远程进程管理、资源分配、存储访问、登录、认证、安全性和服务质量等。它是指一系列工具和协议软件,其功能是屏蔽网格资源层中计算资源的分布、异构特性,向网格应用层提供透明一致的使用接口。该层也称为网格操作系统(Grid Operating System),它同时需要提供用户编程接口和相应的环境,以支持网格应用的开发。
网格应用层是用户需求的具体体现。它提供系统能接受的语言,配置其他一些支持工程应用、数据库访问的软件,还可提供Web服务接口,使用户可以使用Web方式提交其作业并取得计算结果。在网格操作系统的支持下,网格用户可以使用应用层提供的工具或环境开发各种应用系统。
2.2 网格体系结构
到目前为止,较为成熟的网格体系结构有两个:一个是Ian Foster博士等在早些时候提出的5层沙漏结构,另一个是IBM公司与Ian Foster博士提出的开放网格服务结构OGSA(Open Grid Services Architecture)。
五层沙漏体系结构是以协议为中心的协议结构,自下而上分别为:构造层、连接层、资源层、汇集层和应用层。上层协议可调用下层协议的服务。网格内的全局应用都通过协议提供的服务来调用操作系统。该体系结构的各层功能定义如下:
第一层为构造层(Fabric):该层组件实现了基于底层特定资源的高层共享操作。它的功能是向上提供网格中可供共享的资源,它们是物理或逻辑实体,常用的资源包括处理能力、存储系统、目录、网格资源、分布式文件系统、分布式计算机池、计算机集群等。Toolkit中相应组件负责监测可用的软硬件资源的特性、当前负荷、状态等信息,并将其打包供上层协议调用。
第二层为连接层(Connectivity):该层定义了网格中网络处理的核心通信与认证协议。通信协议使构造层资源间的数据交换成为可能。认证协议基于通信服务提供了确认用户和资源身份的安全机制。在Toolkit中,相应组件采用基于公钥的网格安全基础协议(GSI)。在此协议中提供一次登录、委托授权、局域安全方案整合、基于用户的信任关系等功能。资源间的数据交换通过传输、路由及名字解析实现。
第三层为资源层(Resource):该层建立在连接层的通信和认证协议之上,定义了一些关于安全协商、使用共享功能计费、监控等方面的协议。它的作用是对单个资源实施控制,与可用资源进行安全握手、对资源做初始化、监测资源运行状况、统计与付费等有关的资源使用数据。在Toolkit中有一系列组件用来实现资源注册、资源分配和资源监视。
第四层为汇聚层(Collective):这层的作用是将资源层提交的受控资源汇聚在一起,供虚拟组织的应用程序共享、调用。为了对来自应用的共享进行管理和控制,汇聚层提供目录服务、资源分配、日程安排、资源代理、资源监测诊断、网格启动、负荷控制、账户管理等多种功能。
第五层为应用层(Applications):这层是网格用户的应用程序。应用程序通过各层的API调用相应的服务,再通过服务调用网格上的资源来完成任务。应用程序的开发涉及大量库函数,为便于网格应用程序的开发,需要构建支持网格计算的库函数。
3.典型实验系统及其体系结构
在国外,最著名的网格计算研究是美国的Globus项目。该项目的主要研究目标有两个:其一是网格技术的研究;其二是相应软件的开发和标准的制定。同时,Globus项目还涉及到网格应用的开发及试验床的建立。
Globus将Grid技术Web Services技术结合在一起,以利用需要的Web Service的属性。例如,Service的描述和发现,从Service描述中自动生成客户端和服务器端的代码;从Service描述到交互操作网络协议的绑定;为更高层服务提供开放标准、服务和工具的兼容性;以及广泛的商业支持等。他们把Grid和Web Services技术的结合和扩展称为0GSA(0pen Grid Services Architecture),即开放式网格服务体系结构。它被称为是“下一代的网格体系结构”。这一结构的意义,在于它将网格从以科学与工程计算为中心的学术研究领域,扩展到更广泛的以分布式系统服务集成为主要特征的社会经济活动领域。
OGSA最突出的思想就是以“服务”为中心。在OGSA框架中,将一切都抽象为服务,包括计算机、程序、数据、仪器设备等。这种观念有利于通过统一的标准接口来管理和使用网格。这种基于网格服务概念的体系结构可以简单的表示为“网格服务=接口/行为+服务数据”。
以网格服务为中心的OGSA模型具有两个优点:(1)由于网格环境中所有的组件都是虚拟化的,因此,通过提供一组相对统一的核心接口,所有的网格服务都基于这些接口实现,就可以很容易地构造出具有层次结构的更高级别的服务,这些服务可以跨越不同的服务层次,以一种统一的方式来看待;(2)虚拟化也使得将多个逻辑资源实际映射到相同的物理资源上成为可能,在对服务进行组合时不必考虑具体的实现,可以以底层资源组成为基础,在虚拟组织(Virtual Organization)中进行资源管理。
4.网格的应用与实施设想
网格研究起源于美国政府过去十年来资助的高性能计算科研项目。这类研究的目标是将跨地域的多台高性能计算机、大型数据库、贵重科研设备(电子显微镜、雷达阵列、粒子加速器、天文望远镜等等)、通信设备、可视化设备和各种传感器等整合成一个巨大的超级计算机系统,支持科学计算和科学研究。这方面的代表性研究工作包括美国国家科学基金会资助的NPACI、“国家技术网格”(NTG)、分布式万亿次级计算设施(DTF),美国能源部的ASCI Grid,以及欧盟的Data Grid等。
还有一类研究的侧重点是智能信息处理,它与网格研究的共同点是如何消除信息孤岛和知识孤岛,实现信息资源和知识资源的智能共享。这方面研究常见的名词包括语义网(Semantic Web)、知识管理(Knowledge Management)、知识本体(Ontology)、智能主体(Agents)、信息网格、知识网格、一体化智能信息平台等等。
网格计算虽然致力于高速互联网、高性能计算机、大型数据库、远程设备等连通和一体化,但网格计算的根本特征应该是资源共享而不是规模巨大,完全可以根据需要建造企业内部网格、局域网网格、家庭网格和个人网格,因此网格计算的应用将涉及人们工作和生活的方方面面。例如电子政务中的一站式办公,制造企业中的异地设计、制造、海量数据的管理和资源共享,先进芯片的设计,生物信息科学研究,社保系统中的养老金防冒领、跨地区就医保费支付等业务和应用,都可以用网格技术来解决。
我国的科学研究、国民经济和社会发展也已对网格技术提出了很多需求,只是使用了不同的术语。比如,在银行界叫“业务集中”,航空、船舶、汽车行业叫“广域虚拟设计环境”,资源环境领域叫“单一数据源”,电子商务和电子政务中则称为“资源共享”与“协同工作”。 企业界的研究包括内容分发(Contents Delivery)、服务分发(Service Delivery)、电子服务(E-service)、实时企业计算(Real-Time Enterprise Computing,简称RTEC)、分布式计算、Per-to-Peer Computing(简称P2P)等等。这些名词所代表的技术有一个共同点,即将互联网上的资源整合成一台超级服务器,有效地提供内容服务、计算服务、存储服务、交易服务等等。另一个共同点是这些技术会尽量利用现有的Internet/Web技术,以便早出产品。当然这些技术也各有小的区别。比如,P2P强调打破Client/Server或Browser/Server的主从模式,用对等模式(或无服务器模式)实现超级服务器的功能。RTEC则强调对企业级在线事务处理的实时支持。真正的网格研究会尽量使用Internet/Web技术,但不排除突破Web的限制。
在第一代与第二代Internet协议的研究开发中,我国丧失了机会。在第三代Internet协议的制定中我们应该发挥作用。网格的重要技术标准将在2004~2005年出现,这将给我国带来新的机会。我国应该积极主动地参与国际上的网格研究开发和国际标准的制定,同时要遵循国际标准、结合国情开发出我国自己的网格技术及其应用系统。我国对网格计算的研究起步较晚,但在网格计算关键技术的研究方面与国外差距不大。目前,我国的网格计算研究主要集中于中科院计算所、国防科技大学、江南计算所、清华大学等几家在高性能计算方面有较强实力的研究单位。从1999年底到2001年初,中科院计算所联合国内十几家科研单位,共同承担了“863”重点项目——“国家高性能计算环境”(Nationa1 High Performance Computing Environment,简称NHPCE)的研发任务。该项目的目标是建立一个计算资源广域分布、支持异构特性的计算网格示范系统,它把我国的8个高性能计算中心通过Internet连接起来,进行统一的资源管理、信息管理和用户管理,并在此基础上开发了多个需要高性能计算能力的网格应用系统,取得了一系列研究成果。
新疆大学计算中心有22个机房,计算机总台数1370台,其中Compaq D220 计算机500台、联想开天4600计算机600台、联想 本月2000计算机 220 台,各类服务器31台,其中DELL PowerEdge 6650机架式服务器3台、DELL PowerEdge 4600机架式服务器10台、DELL PowerEdge 2650机架式服务器10台、DELL PowerEdge 4600塔式服务器2台、HP 服务器5台、HP E60 服务器1台,图形工作站1台,实验仪器设备971台。其他各院系有各类教学用计算机1043台,各类服务器40余台。
在新疆大学校园网络内,许多用户需要进行科学实验计算机模拟和实验结果处理大量复杂的计算工作,需要高性能的计算机或工作站。采用计算网格可以充分利用学校已有的计算机资源,为这些用户提供快捷且便利的高性能计算环境,且节省购买大型系统的费用。
校园网内的计算网格支持属于不同管理域的计算机节点参与计算和资源共享,要形成一个性能优良的校园网格计算系统必须实现以下功能:具有单一映像空间,实现异构数据的格式转换,提供虚拟文件服务,把分散在各地的主机节点映射成一个统一入口的虚拟机器;支持网格节点自治,保证各个节点的自主权;支持高效安全与容错;通过中间件来保证异构硬件和软件的互操作性,进行资源的统一管理和调度。
为构建基于校园网的网格计算系统,可采用一种基于校园网的网格计算模型I-GRID[5]。I-GRID以校园骨干网作为主要的通信网络,用快速以太网作为节点之间的通信媒介。I-GRID不考虑系统节点的物理拓扑结构,在逻辑上把每个节点看作是等价的,任何节点之间通过物理网络均可到达。I-GRID为用户提供了基于Web服务器和命令行的接口服务,远程用户可通过Web访问系统,本地用户可通过命令行访问系统。目前,I-GRID系统支持的计算机平台分别是PC/x86/Linux、PC/x86/Win9x、Sun Ultra/Sparc/Solaris和IBM RS6000/PowerPC/AIX。这些系统分布在校园网络可达的任何地理位置,也可以由属于不同的管理域管理。因此,凡是具有上述CPU和操作系统的计算机系统,均可申请加入I-GRID计算网格,并且作为其中的一个节点,为其他用户提供计算和数据资源。
网格计算汇聚各种异构计算系统,形成高性能的联合计算环境,使用计算网格,可以节省购买高性能计算设备的成本和复杂计算的费用,具有广阔的应用前景,同时它也能让人们透明地使用计算、存储等其他资源。
参考文献:
Foster I, Kesselman C eds. The Grid: Blueprint for a New Computing Infrastructure. Morgan-Kaufmann, San Francisco, CA, 1998;oster I , Kesselman C , Nick J , Tuecke S. Grid Services for Distributed Systems Integration, Computer, 2002, 35(6) : 37~46;Foster I,Kesselman C ,Tuecke anatomy of the grid : Enabling scalable virtual organizations. International Journal of Supercomputer Applications, 2001, 15(3) : 200~222
徐志伟,李伟,织女星网格的体系结构研究,计算机研究与发展, 2002 ,39(8) : 923~929
桂小林,钱德沛,基于Internet的网格计算模型研究,西安交通大学学报,2001 35(10) :1008~1011
作者简介:于炯,男,39,硕士,新疆大学计算中心副主任,副教授,新疆大学硕士研究生导师,自治区教育厅信息化专家组成员,2000年获自治区优秀专业工作者称号。多年来一直从事计算机网络研究与应用工作,1995年以来,主持了3项自治区科技厅、自治区教育厅科学与技术研究课题,6项自治区横向课题,一项研究成果获国家档案局科技成果奖(部级)。在国内外期刊和国内外会议发表论文20余篇。2002年12月至2003年12月:在加拿大国家研究院信息所作访问学者,研究方向为计算机网络和信息网络安全。