登录 支付宝登陆 [免费注册] 会员中心 在线支付 

IT基础设施运维系列故事之监控与故障

个网络社区的发展大致经历这样的阶段:创立、推广、成熟、衰落,这里面的涉及到三种经常在社区活动的人群:网友、斑竹、社区管理层,这些人群是社区的共生系统,而斑竹在这套体系中却起着核心的作用。我们的主人公就是一位混了10年论坛的IT精英人士,虽然已经不再当担任斑竹了,但通过他转发过来的一些IT运维管理的论坛“精华贴”,从中我们不难发现,IT运维管理其实还真不是一件容易的事。
  IT运维管理论坛十大雷人回复
  1) 我这边的综合业务系统运行在Windows Server服务器上,每次重新启动之后感觉运行速度还可以,但运行一段时间就感觉缓慢异常。一直找不到问题,虽然重新启动能让用户继续访问,但这也不是办法呀…(回帖:你可以设定一个脚本,每天重新启动就行了)
  2) 外地办事处的员工总反映到总部网络访问时断时续,我让他们停止了所有的下载操作,但网络缓慢的问题从路由器、防火墙、核心交换上我都看不出问题所在…(回帖:你让他们搬回来就行了)
  3) 公司的文档控制服务器的公用磁盘总是时不时的“爆满”,由于这台服务器还有邮件服务的角色,除了磁盘配额限制之外,我想在撑满磁盘之前就删掉临时文件,不然邮件服务会停止…哪位高人有招?(回帖:本公司销售各种服务器原装硬盘,为您解忧是我们服务的宗旨。)
  4) 之前我发现运维的活计其实挺轻松的,看看日志,如果没问题就OK。现在的问题是,我们服务器已经到了100台了,我每天就是日志,然后还是日志…活不下去了…(回帖:不用看日志,等着,哪台上不去了就修那个,我试过,这样能加薪)
  5) 一套核心系统的Oracle数据库,在业务高峰期常常出现数据库响应非常缓慢的现象。发生故障的时间通常出现在上午11 点左右和下午16~17 点左右。在出现故障时,对数据库的任何操作,包括连接数据库都非常缓慢。故障通常持续几分钟至十几分钟,之后就自动恢复正常。求优化思路…(回帖:采用北京市机动车限号机制,完全可以解决你的问题。)
  6) 新来的头儿,告诉我网络中断10分钟就扣钱,扣XXX,我X。谁能说出网络不断的方法,双链路除外…(跟帖超过100楼,不过都是骂街的多)
  7) 一朝天子一朝臣,集团CIO换了10多位了,来个新O就卖一堆设备,还什么牌子都有,哥们看手册看的头大,还写多P监控脚本,谁有招写一个脚本都管起来,我看CPU、内存就行,跪求…(等你当O了,都给它们换成一个牌子的。)
  8) 我这10楼的主任反映上不去网,其他人有的行,有的不行,我一赌气把楼层交换机上闪得利害的灯所对应的网线拔了,但别人还是上不去(跟帖多为“先都拔了,一个一个在插,就能找到了”)
  9) ERP一直稳定,后来上了一个新的LIMS质量控制系统,访问就出现问题了,但也不是总有问题。网络问题?ERP服务器问题?LIMS系统问题?(回帖:楼主是买药的,黑心人的事。经过我们查证,LIMS系统确实医疗行业的应用软件)
  10) 1楼:网慢?2楼:我比你慢…3楼:我比沙发慢…
  别总拿IT系统故障说事儿
  设备繁杂多变、网络缓慢、核心业务服务器宕机、资源负载到达极限、子业务系统出现故障、网络故障频频、海量的系统日志……等等。从论坛帖子中的提问到一条条的回复,我们看到了很多无奈、无助,有笑谈也有可悲,而这也恰恰说明了IT运维管理包含的内容有时候超出了技术人员的“一个人战斗”的范畴。从技术人员的角度上来说,故障管理才是他们最为关心的。但从企业管理者的角度上看,更多的则是管理观念如何落实,既让IT技术人员从疲惫的状态下解脱出来,又能实现永不间断的目标。
  你我都希望自己的 IT 系统能够7×24小时不间断运行,或者达到99999的可用性标准,但这种情况几乎是不可能的。为何呢?IT系统故障是不可抗拒的因素。任何计算机系统都会有出现故障的时候,可能发生在测试阶段,也可能发生在系统刚刚上线,还可能发生在已经稳定运行很多年的系统上,又可能发生在系统一个小小的升级之后。而这些系统出现故障所带来的负面影响则可大可小,小到一个终端的软件无法使用,大到整个系统瘫痪,所有业务不能办理。但如果一个IT部门别总拿IT系统故障说事儿,也显得太敷衍了事,因为这是作为与不作为的问题。
  以论坛上的哪些事来说,上来就谈一些先进的管理理念,如ITIL、ITSM、BSM,这就成了“灌水帖”了。我们知道,企业业务系统的稳定性提出了越来越高的要求,因此,对于承载这些业务系统的基础架构,监控到不到位才是IT运维管里的立足之本。从这些帖子中不难发现,现在的IT环境极难控制,桌面、网络设备和服务器管理的成本非常高,发帖者在故障面前普遍显得很被动。因此,要分析出网络为何慢?数据库为何慢?何时服务器达到了负载的极限,这些都需要一个长期监控的结果,没有监控的数据,就谈不上优化。当然,由于缺乏工具和资源,应用程序和服务的整体运行状况是未知的,我们也就无法及时恢复故障。
  北塔软件的孙永杰先生也是一位网络社区的明星人物,他认为:“在IT部门还依然被动的情况下,面对时而发生的IT故障和问题时会变得越来越沮丧,管理员不知道向谁寻求帮助,在四处发帖求救时,故障本身却在那里依然存在。此阶段的用户最希望的是把网络、路由器、交换机、服务器等纳入一个监控平台上进行管理,保证其运行不出问题。当然,实现IT基础设施监控的目标不仅基于当下的情况,因为这将使得IT部门可以立足长远。”
  故事的主人公没有了当初的狂热,浮躁,多了几许成熟、从容与淡定。可真的要去重操旧业,当这个IT管理论坛的版主,心里还真是发虚。他深信,也许有一些人已经筹措了整套的想法,但管理手段(一个电话或一封邮件)和工具落后,仍会导致很多故障反复出现。如果在上百台服务器和几十个业务系统面前,依然让他用手工的方式去运维,必然导致自己砰然“发飙”。

上一篇:LuManager的有关知识

下一篇:未来集中管理之路:多维管理视角