教育科研

Education research

您的位置:首页 > 成功案例 > 教育科研

浙江大学网络运维管理项目

项目背景
     浙江大学是教育部直属、省部共建的普通高等学校,是首批进入国家“211工程”和“985工程”建设的若干所重点大学之一,是一所有着百年辉煌历史的名校。经过长期的建设与发展,浙江大学以严谨的求是学风和执著的创新精神为国家培养了大批优秀人才、创造出了丰硕的科研成果。
    近年来,随着学校的发展,电子化建设逐步深入,取得了突出成绩,已从根本上改变了传统校园网络管理模式,建立了在计算机和通信网络基础上的电子校园网系统、管理信息系统和数据库服务系统等,形成了一个多功能开放的校园电子化体系。
    1998年,同根同源的浙江大学、杭州大学、浙江农业大学、浙江医科大学合并组建新的浙江大学。总共有六个校区,分别是:玉泉、湖滨、西溪、之江、华家池和紫荆港。校舍总建筑面积193余万平方米。IT网络覆盖全部六个校区,之间通过专线相互连接。有各类网络设备3000余台,包括CISCO交换机、CISCO路由器、H3C交换机、华为交换机、华为路由器,JUNIPER路由器、JUNIPER防火墙、JUNIPER的BRAS设备等;HP、DELL、IBM、联想等机架式服务器逾百台;HP、IBM的小型机以及IBM存储设备等。其网络规模已然十分庞大,分布结构也较为离散。
    IT网络要保障如此大规模学校的各项信息化业务的正常运行,必然相当复杂,为了满足业务不断扩容,逐年还将增加各种IT资源,例如:
    ·网络设备:交换机、路由器、集线器…
    ·主机设备:PC、服务器、小型机、服务器集群…
    ·安全设备:防火墙、防病毒、入侵检测、漏洞扫描…
    ·……
    随着网络技术和学校的发展,学校对网络的依赖性越来越高,一旦网络出现故障,将直接威胁到正常的教学教务和管理工作。同时由于各种设备和系统的操作监测方式都是不同的,各有各的特点,自成体系。现在问题出现了,IT管理和维护人员面对数十种或上百种网络资源和越来越复杂的业务系统,如何高效、快速的管理和使用好这样一个集多种网络设备、多种主机、多种操作系统、多种数据库及其他各类应用服务组成的业务系统;如何在这样一个大数据量、高实时、并发事务频繁、增长迅速、关联关系复杂的信息系统发生故障和性能瓶颈时快速定位故障;如何通过对系统运行历史的分析和统计找出困扰系统运行的潜在的深层次“慢性病”等,都是摆在网络管理员面前严峻的挑战。
    浙江大学的网络管理员在系统与网络维护过程中也遇到了很多棘手问题,例如:
    ·缺乏对网络设备、服务器和各种应用服务的有效监控,无法及时了解全网、整个业务系统的运行状态;
    ·缺乏对业务系统集中监控的手段,对校园网的维护主要靠维护人员手工登录设备进行监控;
    ·监控方式不直观,排查实时费力,且有较高的专业要求,由于网络维护人力资源紧张,经常难以在规定的时间内找问题症结所在,造成业务终端时间过长;
    ·设备数量众多,且是复杂变化的动态系统,不同的子系统之间关系错综复杂,造成IT数据更新困难,需要耗费大量人力,且速度慢。
    ·现有的工作方式被动。有不少漏洞,只有到问题暴露之后,才能收到投诉,经常对工作效率造成影响;
    ·……

    不仅如此,校园IT管理的维护人力资源往往比较紧张,运维部门疲于应付各种突发事件,加班加点处理各种重复事件和故障,工作任务繁重,身心疲惫。由于没有科学有效的管理和监测手段,无法提前发现事故征兆,无法快速定位故障根源,无法准确的分析事件相关性,也就无法快速的解决问题,也无法避免同类问题的重复发生。由此引发了被服务对象(员工)不断抱怨和投诉“技术人员服务水平太低,总在解决问题,也总解决不了问题!”

客户网络环境
    浙江大学网络运维管理项目涵盖的设备包括CISCO交换机、CISCO路由器、H3C交换机、华为交换机、华为路由器,JUNIPER路由器、JUNIPER防火墙、JUNIPER的BRAS设备等;服务器包括HP、DELL、IBM、联想等机架式服务器;HP、IBM的小型机;IBM存储等。浙江大学网络规模庞大,超过3000台网络设备,上百台服务器和其他设备。项目分成多期实施,一期实现设备节点的管理规模在1000台以上;以后逐期实施,做到全网管理。
 

客户评价和Apex典型应用
    泰信科技的工程师在总结教育行业网络设计与实施经验的基础上,提出了以泰信科技Apex ITManager系列中NetManager与FlowManager两款产品为核心的整体网络管理解决方案。网络运维和服务管理系统可以很好的满足以上的需求。
    浙江大学的网络运维人员在使用过Apex ITManager系列产品之后,感到Apex ITManager给日常运维工作带来了极大的便利,变被动式管理为主动管理,实现了量化管理,保证了网络运行质量。
浙江大学网络管理项目一期实现管理规模在1000台,采用集中式部署,即在中心管理机房设置一台独立Apex网络运维管理服务器,将Oracle数据库部署在此网管服务器上。
 

c.jpg

图1:部署方案


    中心Apex服务器可以通过校园网访问每个学校网络设备的SNMP服务,轮询收集设备性能和故障信息。网络管理员只需安装Aepx管理端软件远程登录Aepx中心服务器进行网络管理及监控即可。Apex管理端软件可以安装在现有的管理员工作站或笔记本上,便于远程管理维护。每台网络设备均不需要安装任何agent。
    在Apex NetManager上分别为每个分校设立管理员账户,分配管理员权限,只允许管理员管理本校区的网络;管理中心管理员账号拥有全局设置权限,可以对全局进行管理和查看。
    所有的告警信息都集中在Apex中心服务器上。通过系统进行了告警的过滤,关联等动作之后,展现在管理员面前的是系统分析得出的最关键以及最详细的问题信息。登陆管理界面查看问题详细情况,迅速确定问题根源,排除潜在危险。
    作为网管员,需要即时了解到自身内部网络中全网及各子网的的部署结构,掌握各网络设备及主机之间的连接情况,了解各主机的基本信息和接入位置,但由于网络规模庞大,地域分散,因此拓扑自动发现与重构,速度快,发现准确等特性恰好可以帮助网管员完成这个基础却又十分重要的工作:
    ·网管员可以根据学校进行手动划分,实现分层分区域展示和全图形化管理,现在可以迅速在分布式的网络中对故障进行区域定位;
    ·网管员通过Apex真实展示设备机架以及连接状况,了解此设备各个端口工作状态、告警情况、资源利用情况、链路链接信息等,再也不用经常跑到机房去看端口空置、拉线找链接关系,通过远程关闭/开启设备端口功能,再也不用楼上楼下跑来跑去拔线插线排除故障,故障定位和排除故障速度要比过去提高一倍以上;
    ·网管员通过Apex FlowManager流量分析,在物理拓扑图上便捷的查看流量信息,实时准确掌握每一条链路的流量大小;还可依靠数据的统计分析,发现网络性能瓶颈,为优化网络结构,提升网络性能提供有益的信息;
    ·网元设备通过Apex NetManager中的设备实时性能分析,通过单图多节点和多图多节点实时展示,可以随时对总流量、进/出流量、丢包速率、错包速率、进/出包速度、包转发速度、CPU、内存、设备响应时间等关键参数进行查看,相对于过去的,网管员现在可以实时掌握整网状态;
    ·通过Quickview提供最新告警/事件、端口流量、网络设备响应时间、设备CPU、内存、全局故障告警统计等信息排名。网络高风险点往往就在其中,大大节省了网络管理员排查和定位故障的时间。
    ·在出现问题的时候,通过颜色、声音、短信、Email等不同方式的告警,并同时将故障源设备快速定位到拓扑图上,大大缩短了网管员故障排查时间;
    ·Apex NetManager可以进行告警级别设定,不同级别的问题告警由不同颜色标识,网管员可以根据低级别的告警做出事先判断,主动避免一些问题变成严重的故障,做到事前预防;
    ·Apex NetManager提供针对不同类型的服务性能监控,让网管员对服务进程、内存、系统负载、线程池、数据库连接池等各种参数一目了然,大大提高了对服务器维护的工作效率,保障服务器的稳定持续高效运作;
    ·Apex NetManager系统运维流程管理,提供运维流程、工单管理、资产管理、统一告警管理、知识管理、报表管理、服务质量管理等功能,使网管员的运维工作规范化、流程化和标准化。

上海泰信科技有限公司 版权所有 | 沪ICP备05079988号