DBA的道义
最近发的BLOG主要是从粉丝网的博客上搬过来的,我会逐渐把有价值的文章搬过来。最近比较忙,很久没有写新的案例了,请大家原谅。
前一阵子给客户处理一个故障,这个故障已经重复发生了多次,几乎半个月不到就会重现。在Metalink上开了个tar,由于很多日志缺失,Oracle方面也无法进行继续的分析。
我接到资料后,第一反应是存在BUG,但是随着我分析了几十个类似的BUG后,发现虽然在表象上很类似,但是没有一个真正吻合。通过经验,我将疑点放到了OS上,并提出了优化方案。由于日志方面的缺失,很多东西只能靠猜测。做过调整后,我在报告里提出,这个问题还没有完全定位,如果调整后2个月故障未重现,说明这次调整是成功的,但也不能说是彻底解决了这个问题。因此系统监控还要继续,开的tar也要继续跟进,也许Oracle那边会提出一些好的建议。
客户的系统是一个十分重要的系统,如果出现故障将会承受十分巨大的经济损失,还会导致大客户的流失。因此客户对我的这个结论并不放心。虽然已经过去了半个多月,故障没有重现,但是客户还是不放心,因此他们又找了一家公司协助诊断这个故障,那家公司很快给出了一个故障分析报告,在报告里,用十分肯定的口气确定了这个故障和2个BUG有关。建议客户按照BUG报告上的内容进行处理。
客户告诉我,说问题的原因找到了,北京一家公司,用了不到一天就定位了这个问题。我问他最终的结论是什么,客户就说了那2个BUG,我说你把报告给我看看,肯定有问题,因为这两个BUG我都分析过,其中一个第一时间我也怀疑是问题的根源,后来随着分析的深入被第一时间排除了。另外一个BUG在我们这个平台上根本不肯能存在,因为在我们的平台上根本没有这个模块。后来我也看了这份报告的部分章节,真是一把辛酸泪,满纸荒唐言。整个报告从格式、语气上来说都十分严谨,分析也是丝丝入扣,让人不得不信服。对于缺乏足够专业知识的客户来说,这种报告的杀伤力是巨大的,一切都是用十分肯定的口气,让人觉得十分的可信。我把报告中的疑点一点一点的和客户解释后,他觉得有种上当受骗的感觉。
无疑,那份报告在商业上是成功的,如果没有我的介入,可能这份报告会带来巨大的商业价值。而我写报告的习惯是问题的分析过程十分明晰,我会把我的观点一览无余的告诉客户,包括我无法确定的事实。对于客户来说,最希望的是听到好消息,对于坏消息,他们虽然愿意知道,但是坏消息总是会让他们的心里产生一定的阴影。但是无论如何,我的原则是让客户知道他们应该知道的,我不会隐瞒任何东西,我会把我没有把握的东西第一时间让客户知道,是或者不是或者可能是,我绝对不会乱用词汇,我想这也是一个DBA应有的道德。商业利益是应该建立在一定的道义基础上的,不能为了商业利益而采用欺骗的手段,让客户蒙受更大的损失。因为在第三方服务市场,客户最大的担心就是第三方的服务水平和服务能力。欺骗可以短期内获得商业价值,但是从长期来看,这种方式会导致客户对第三方服务失去信心,从而危及整个行业。我曾经代表原厂去为客户做过一次巡检。巡检结束后,给客户提出了一份详细的报告,客户看了以后告诉我,以前他们是第三方做的服务,做巡检后也发现不了什么问题,比较而言,原厂虽然贵一点,但是更有价值,他们今后将会选择原厂服务。听到这话我感觉很不是滋味,不到位的服务不仅仅意味着丢失一个客户,还可能丢失一个正在兴起的市场。和原厂相比,第三方服务有很多先天的不足,需要用我们更加到位的服务,才能在这个市场中获得一定的份额。
那个问题虽然我已经有了9成把握,但是由于大量的日志缺失,我确实无法100%定位问题,那么如果我在报告里不把疑问列出来,客户可能很放心的放松警惕,放弃了继续的系统进行监控,那么下一次故障发生的时候,客户失去了一次定位问题的机会,遭受更大的损失。
发表于 猫为啥爱抓鼠 在 2008年10月10日, 04:51 下午 CST #
发表于 qsxing 在 2008年12月02日, 10:52 下午 CST #