事件起因:近期有研发反应,某数据库从08切换到12环境后,不定期出现写操作提交延迟的问题;
事件分析:在排除了系统资源争用等问题后,初步分析可能由于网络抖动导致同步模式alwayson节点经常出现会话超时等待提交的问题导致。
经过排查,扩展事件里发现不定期出现35202错误,这是一条副本连接恢复的消息。
由于机房网络环境复杂,数据库服务器和应用服务器混用一个交换机,在业务高峰期时,因上联端口流量打满而导致连接失败的情况屡有发生。
既然短期内无法改造网络环境,那就从SQLSERVER服务器自身出发,只对数据同步的部分进行改造;
现有环境:
SQL AG:为两节点的同步模式,两个节点各有一块网卡连接到交换机,没有直连心跳线(WSFC也不再要求有独立的心跳网络)
改造方案:
1、两个节点各启用一块网卡,采用直连方式进行通信,同时配置私有地址
Server_A:10.0.0.11
Server_B:10.0.0.12
2、删除两个节点的endpoint,手动重新创建Listener_IP为直连IP的endpoint
3、更改AG中,每个副本的endpoint_url
4、等待数据重新同步;
其中第三步的脚本如下,要在两个节点上分别操作,注意Listener_IP为直连网卡的IP
1 /* ***** Object: Endpoint [Hadr_endpoint] Script Date: 2015/1/6 16:06:17 ***** */ 2 DROP ENDPOINT [ Hadr_endpoint ] 3 GO 4 5 /* ***** Object: Endpoint [Hadr_endpoint] Script Date: 2015/1/6 16:06:17 ***** */ 6 CREATE ENDPOINT [ Hadr_endpoint ] 7 STATE = STARTED 8 AS TCP (LISTENER_PORT = 5022 , LISTENER_IP = ( 10.0 . 0.11 )) 9 FOR DATA_MIRRORING (ROLE = ALL , AUTHENTICATION = WINDOWS NEGOTIATE 10 , ENCRYPTION = REQUIRED ALGORITHM AES) 11 GO
第四步的脚本如下,在主副本执行即可
1 ALTER AVAILABILITY GROUP [ Alwayson01 ] 2 MODIFY REPLICA ON N ' Node_01 ' WITH (ENDPOINT_URL = N ' TCP://10.0.0.11:5022 ' ) 3 4 ALTER AVAILABILITY GROUP [ Alwayson01 ] 5 MODIFY REPLICA ON N ' Node_02 ' WITH (ENDPOINT_URL = N ' TCP://10.0.0.12:5022 ' )
注意:删除endpoint后两副本即为未同步状态,但侦听器和AG组中的数据库不受影响,对应用而言,主副本的服务仍然正常;
参考文章:
http://blogs.msdn.com/b/alwaysonpro/archive/2013/11/01/configuring-a-dedicated-network-for-replicating-changes-from-primary-to-secondary-replica.aspx