Jul 20

[原]解决IBM x460网络ping故障 雨

linuxing , 18:02 , 基础知识 » 故障处理 , 评论(0) , 引用(0) , 阅读(21259) , Via 本站原创 | |
   客户反应,由两套IBM x460组成的Oracle 10g RAC集群,出现ping任何IP地址,都会出现0.000ms的故障。
一、故障描述
◎硬件架构:
每套x460是由两台x460堆叠而成的,每台带1块双口的网卡,也就是一套4个口,实际使用到其中的2个口,一个接路由器,一个接交叉线连接到另外一套中,做心跳。
每套带两块HBA卡,连接到DS4300盘柜中,实现冗余。
◎软件架构:
引用
操作系统:红旗 DC Server 5.0 for x86_64 SP1
应用:Oracle 10g R2 RAC

◎现在遇到的问题是:
ping 机器IP(127.0.0.10)、本机IP和对方的心跳IP地址,都会出现很明显的延迟,5ms以上。
其中还会出现一些0.000ms的信息。
引用
# ping 127.0.0.1
PING 127.0.0.1 (127.0.0.1) 56(84) bytes of data.
64 bytes from 127.0.0.1: icmp_seq=0 ttl=64 time=3.75 ms
64 bytes from 127.0.0.1: icmp_seq=1 ttl=64 time=5.52 ms
64 bytes from 127.0.0.1: icmp_seq=2 ttl=64 time=3.84 ms
64 bytes from 127.0.0.1: icmp_seq=3 ttl=64 time=0.000ms
64 bytes from 127.0.0.1: icmp_seq=4 ttl=64 time=4.41 ms
64 bytes from 127.0.0.1: icmp_seq=5 ttl=64 time=6.25 ms

--- 127.0.0.1 ping statistics ---
6 packets transmitted, 6 received, 0% packet loss, time 11091ms
rtt min/avg/max/mdev = 0.084/0.092/0.107/0.009 ms, pipe 2


本机IP:
点击在新窗口中浏览此图片
心跳IP:
点击在新窗口中浏览此图片

二、故障解决
1、升级网卡驱动
参考IBM的官方资料,把原bcm5700驱动升级为tg3,并屏蔽不用的两个网卡;
修改/etc/modprobe文件,把:
引用
eth0 bcm5700
eth1 bcm5700
eth2 bcm5700
eth3 bcm5700

改为:
引用
eth0 tg3
#eth1 tg3
eth2 tg3
#eth3 tg3

※可使用mii-tool或ethtool工具确认网卡是否处于联通状态。
2、升级核心
单纯升级网卡驱动,未能解决问题,故决定升级到SP2核心。
引用
rpm -ivh kernel-smp-2.6.9-42.7AX.x86_64.rpm
rpm -ivh kernel-smp-devel-2.6.9-42.7AX.x86_64.rpm
rpm -ivh kernel-smp-driver-a320raid-3.00.071-2.6.9_42.7AX_9.x86_64.rpm
rpm -ivh kernel-smp-driver-aarich2-6.00.086.I308-2.6.9_42.7AX_7.x86_64.rpm
rpm -ivh kernel-smp-driver-aarich-6.00.086.I308-2.6.9_42.7AX_7.x86_64.rpm
rpm -ivh kernel-source-2.6.9-42.7AX.x86_64.rpm
rpm -Uvh kernel-utils-2.4-13.1.83.4AX.x86_64.rpm
rpm -Uvh mkinitrd-4.2.1.8-1.2AX.x86_64.rpm

而从SP2核心开始,自带两个qla2300驱动,一个支持failover,另外一个不支持。所以,需要修改/etc/modprobe.conf文件;
把:
引用
alias scsi_hostadapter1 qla2300

修改为:
引用
alias scsi_hostadapter1 qla2300fo

※可参考/lib/modules/2.6.9-42.7AXsmp/kernel/drivers/scsi/中的qla2xxx和qla2xxxfo目录信息
最后,重新初始化initrd.img文件:
# cd /boot/
# mkinitrd -f initrd-2.6.9-34.21AXsmp.img 2.6.9-42.7AXsmp

保存后,重启服务器,并选择从新核心启动。故障解决。
◎若确认新核心能正常使用,可修改/boot/grub/menu.lst文件的核心启动顺序。

三、回顾
该问题,应是旧核心无法正确识别x460的硬件架构导致的。其他x系列机器,没发现类似的故障。
发表评论
表情
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
记住我
昵称   密码   游客无需密码
网址   电邮   [注册]