热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

SQLServer数据库Suspect解决案例

生产环境:SQLServer2008R2ActivePassiveNodes,WindowsServer2008R2SP1Cluster,vSphere5.x发生起始6am接到ApplicationTeam报告BiztalkMsgBoxDb进入suspect模式,不可以访问。报告事件,减少用户压力简单的和AppManager电话了下,了解

生产环境: SQL Server 2008 R2 Active/Passive Nodes,Windows Server 2008 R2 SP1 Cluster, vSphere 5.x 发生起始 6 am 接到Application Team报告 BiztalkMsgBoxDb进入suspect模式,不可以访问。 报告事件,减少用户压力 简单的和App Manager电话了下,了解

  生产环境:

  SQL Server 2008 R2 Active/Passive Nodes,Windows Server 2008 R2 SP1 Cluster, vSphere 5.x

  发生起始

  6 am 接到Application Team报告 BiztalkMsgBoxDb进入suspect模式,不可以访问。

  报告事件,减少用户压力

  简单的和App Manager电话了下,了解他们Apps层面down time,在Ticket中录入大概发生时间,事件描述,最近有没有发生过任何变更事件。如果没有Ticket系统,请群发email给相关人员。电话Incident Manager管理所有的事件更新,这样做的好处:使惊慌失措的人们知道发生了什么,减少他们的压力。

  整理一下自己

  6:30 am很多人的电话总让自己神经紧张,简单的brainstorm一下suspect可能发生的原因:文件组(数据和日志)的损坏?磁盘爆满/SAN Disk出错?备份还在吧?

  察看Error Log,定位起始出错信息

  6:40 am查找到最初的错误,发生在成功的 Log backup以后的1分钟,错误信息显示:OS Error导致了LogWriter的log flush (写日志)失败。不能写日志会导致数据suspect.

  2014-03-17 03:15:56.05 spid5s Error: 17053, Severity: 16, State: 1.

  2014-03-17 03:15:56.05 spid5s LogWriter: Operating system error1117(failed to retrieve text for this error. Reason: 15105) encountered.

  2014-03-17 03:15:56.05 spid5s Write error during log flush.

  2014-03-17 03:15:56.05 spid79 Error: 9001, Severity: 21, State: 4.

  2014-03-17 03:15:56.05 spid79 The log for database 'BizTalkMsgBoxDb' isnot available. Check the event log for related error messages. Resolve anyerrors and restart the database.

  2014-03-17 03:15:56.05 spid85 Error: 9001, Severity: 21, State: 4.

  分析错误:

  1117 OS错误,有关磁盘。日志文件还在,磁盘没有满。可以考虑对log file迁移。

  第一次尝试 DBCC Repair

  (任何尝试的基础都是要明白:你的动作,不会使情况变得更糟糕)

  命令 ALTER DATABASE [xxxxxx]SET EMERGENCY;

  命令出错, 数据库被锁,不能alter database ,直接放弃DBCC CHECKDB (N'xxxxxxx', REPAIR_ALLOW_DATA_LOSS) WITH NO_INFOMSGS, ALL_ERRORMSGS;修复。

  为什么要放弃: DBCC Repair 要求数据库在 emergency模式下,它会试图利用现有log 把数据库恢复到一致性上(consistent recover)。如果 log有问题, 那么它 会重建 log ( 个人认为这就是repair allow data loss的意思) .对于一个100 GB以上的数据库, rebuild log可能花费数小时,考虑到recovery time object (RTO)和 SLA (service level agreement) , 都不允许数据库 downtime 很久 (事后的反思)。幸运的是不能alter database,错误信息直接指明了database log locked, 暗示了数据库 log可能没有 corrupt, 那么没有必要着急dbcc repair了。

  事后反思,武断的认为log file corrupted 是错误的,dbcc repair作为 methodology 的第一步也是不合时宜的,应为没有向用户确认是否可以丢失过去15分钟的active transaction (虽然客户还在睡觉) ( 每15 分钟的事务日志备份),更何况它还会让数据库 downtime更久,8点上班前未必恢复的了,可能都没有database backup restore快。作为methodology第一步应该首先确认是否file corrupted 并且联系server team是否有IO异常。

  第二次尝试 迁移日志文件

  遇到 resource lock 的问题,通常的 第一反应都是kill 或者 重启资源。这里限于自己技能不足或者没有建立正确的methodology,第一时间发现不了lock的资源,所以选择了重启资源

  应为是Windows Cluster,所以不用detach/attach数据库,直接failover到passive server,数据库在failover后等效的重起和实例恢复了。现在日志文件可写,数据库恢复到Active.

  暂时解决了问题,然后将数据库switch over到原来的 active服务器。没有出错,证明不是磁盘本身的问题。可能是磁盘接口问题。同时查看了event viewer除了log backup没有发现其他。Sp_who2也没有发现可疑的database lock排除了数据库进程锁住数据库或者logfile.

  建立问题

  7 am,让Server Team检查磁盘,怀疑EVA SAN出问题。 现在只知道起始错误和解决方法。作为一个问题,留给Problem Manager继续更进,用来避免以后发生同样的问题。

  总结:遇到 log file 导致的 数据库挂起,,解决方法学首先是(1)确认磁盘问题,然后是(2 ) 确认数据库process lock,然后是(3)确认是否 corrupt, 这些 check up 做完后再针对(1) (2)(3) 提出解决方案。从(1) 到 (3)严重性也越高, 所以恢复后数据丢失的可能性也越高。要和客户确认在线修复的风险。最后的稻草自然是平时完备的数据备份方案和定期的数据库恢复执行计划。

推荐阅读
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文介绍了在Hibernate配置lazy=false时无法加载数据的问题,通过采用OpenSessionInView模式和修改数据库服务器版本解决了该问题。详细描述了问题的出现和解决过程,包括运行环境和数据库的配置信息。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中,客户端和服务器协商定义一个特殊的分隔符号,只要没有发送分隔符号,就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤,并提供了相关的命令和配置示例。 ... [详细]
  • 本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术,可以实现在输入某个id后,通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用,以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况,并解释了JavaScript等待服务器响应的机制。 ... [详细]
  • 如何在联想win10专业版中修改账户名称
    本文介绍了在联想win10专业版中修改账户名称的方法,包括在计算机管理中找到要修改的账户,通过重命名来修改登录名和属性来修改显示名称。同时指出了windows10家庭版无法使用此方法的限制。 ... [详细]
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 电脑公司win7剪切板位置及使用方法
    本文介绍了电脑公司win7剪切板的位置和使用方法。剪切板一般位于c:\windows\system32目录,程序名为clipbrd.exe。通过在搜索栏中输入cmd打开命令提示符窗口,并输入clip /?即可调用剪贴板查看器。赶紧来试试看吧!更多精彩文章请关注本站。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
author-avatar
Ycandy
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有