[原]红旗上使用multipath复合多条路径

[原]jQuery中html()方法在IE 和 FireFox 的差别

[原]OpenVPN在Win7下的使用

May 6

linuxing , 13:29 , 基础知识 » 硬件处理 , 评论(3) , 引用(0) , 阅读(41841) , Via 本站原创

大 | 中 | 小

某项目用到HDS（Hitachi Storage Systems）的一款高端存储Universal Storage Platform VM (USP VM)，其支持多个链路以负载均衡的方式同时访问存储上的逻辑设备。这里，我会使用linux下的device-multipath来符合各条链路。

一、什么是multipath
普通的电脑主机都是一个硬盘挂接到一个总线上，这里是一对一的关系。而到了有光纤组成的SAN环境，由于主机和存储通过了光纤交换机连接，这样的话，就构成了多对多的关系。也就是说，主机到存储可以有多条路径可以选择。主机到存储之间的IO由多条路径可以选择。
既然，每个主机到所对应的存储可以经过几条不同的路径，如果是同时使用的话，I/O流量如何分配？其中一条路径坏掉了，如何处理？还有在操作系统的角度来看，每条路径，操作系统会认为是一个实际存在的物理盘，但实际上只是通向同一个物理盘的不同路径而已，这样是在使用的时候，就给用户带来了困惑。多路径软件就是为了解决上面的问题应运而生的。多路径的主要功能就是和存储设备一起配合实现如下功能：

引用

1. 故障的切换和恢复
2. IO流量的负载均衡
3. 磁盘的虚拟化

二、为什么使用multipath
由于多路径软件是需要和存储在一起配合使用的，不同的厂商基于不同的操作系统，都提供了不同的版本。并且有的厂商，软件和硬件也不是一起卖的，如果要使用多路径软件的话，可能还需要向厂商购买license才行。比如EMC公司基于linux下的多路径软件，就需要单独的购买license。
其中，EMC提供的就是PowerPath，HDS提供的就是HDLM，更多的存储厂商提供的软件，可参考这里。
所以说，除了我下面使用的device-multipath方式外，对于HDS存储来说，还可以使用HDLM软件（驱动）来处理。但涉及的问题有两个：

引用

1. HDLM没有提供源码，而自带的核心模块又没有对应红旗的核心版本，也就是说，如果要用的话，必须把红旗的核心改为红帽的核心才能加载该驱动；
2. HDLM的光盘坏了，这CDR光盘拿到手上就是坏的，后来又代理商从网上下载的镜像也是坏的。%>_<%

当然，使用系统自带的免费多路径软件包，同时也是一个比较通用的包，可以支持大多数存储厂商的设备，即使是一些不是出名的厂商，通过对配置文件进行稍作修改，也是可以支持并运行的很好的。
※ 请与IBM的RDAC、Qlogic的failover驱动区分开，它们都仅提供了Failover的功能，不支持Load Balance方式。但multipath根据选择的策略不同，可支持多种方式，如：Failover、Multipath等。

三、multipath的组成
我这里以红旗 DC Server 5.0 SP2 for x86_64为例，虽然版本比较老，但下面的配置方式基本适用后面的所有版本，Asianux 3.0也自带该套件。

引用

# cat /etc/redflag-release
Red Flag DC Server release 5.0 (Trinity SP2)
# uname -a
Linux localhost.localdomain 2.6.9-42.7AXsmp #1 SMP Tue Jan 9 19:47:42 EST 2007 x86_64 x86_64 x86_64 GNU/Linux
# rpm -qa|grep device
device-mapper-1.02.07-4.0
device-mapper-multipath-0.4.5-16.1
device-mapper-1.02.07-4.0

可见，一套完整的multipath由下面几部分组成：
1. device-mapper-multipath
提供multipathd和multipath等工具和multipath.conf等配置文件。这些工具通过device mapper的ioctr的接口创建和配置multipath设备（调用device-mapper的用户空间库。创建的多路径设备会在/dev/mapper中）；

2. device-mapper
device-mapper包括两大部分：内核部分和用户部分。
内核部分由device-mapper核心（multipath.ko）和一些target driver（dm-multipath.ko）构成。dm-mod.ko是实现multipath的基础，dm-multipath其实是dm的一个target驱动。核心完成设备的映射，而target根据映射关系和自身特点具体处理从mappered device 下来的i/o。同时，在核心部分，提供了一个接口，用户通过ioctr可和内核部分通信，以指导内核驱动的行为，比如如何创建mappered device，这些device的属性等。
用户空间部分包括device-mapper这个包。其中包括dmsetup工具和一些帮助创建和配置mappered device的库。这些库主要抽象，封装了与ioctr通信的接口，以便方便创建和配置mappered device。device-mapper-multipath的程序中就需要调用这些库；

3. scsi_id
其包含在udev程序包中，可以在multipath.conf中配置该程序来获取scsi设备的序号。通过序号，便可以判断多个路径对应了同一设备。这个是多路径实现的关键。scsi_id是通过sg驱动，向设备发送EVPD page80或page83 的inquery命令来查询scsi设备的标识。但一些设备并不支持EVPD 的inquery命令，所以他们无法被用来生成multipath设备。但可以改写scsi_id，为不能提供scsi设备标识的设备虚拟一个标识符，并输出到标准输出。
multipath程序在创建multipath设备时，会调用scsi_id，从其标准输出中获得该设备的scsi id。在改写时，需要修改scsi_id程序的返回值为0。因为在multipath程序中，会检查该直来确定scsi id是否已经成功得到。

四、配置multipath
原理看了一堆，实际配置还是比较简单的。配置文件只有一个：/etc/multipath.conf 。配置前，请用fdisk -l 确认已可正确识别盘柜的所有LUN，HDS支持多链路负载均衡，因此每条链路都是正常的；而如果是类似EMC CX300这样仅支持负载均衡的设备，则冗余的链路会出现I/O Error的错误。
multipath.conf的配置参数、默认值，可参考：

引用

/usr/share/doc/device-mapper-multipath-0.4.5/multipath.conf.annotated

1、编辑黑名单
默认情况下，multipath会把所有设备都加入到黑名单（devnode "*"），也就是禁止使用。所以，我们首先需要取消该设置，把配置文件修改为类似下面的内容：

引用

devnode_blacklist {
        #devnode "*"
        devnode "hda"
        wwid 3600508e000000000dc7200032e08af0b
}

这里禁止使用hda，也就是光驱。另外，还使用wwid限制使用本地的sda设备。这个wwid，可通过下面的命令获得：

引用

# scsi_id -g -u -s /block/sda
3600508e000000000dc7200032e08af0b

2、编辑默认规则
不同的device-mapper-multipath或操作系统发行版，其默认的规则都有点不同，以红旗 DC Server 5.0 SP2 for x86_64为例，其path_grouping_policy默认为failover，也就是主备的方式。这明显不符合我们的要求。（HDS支持多路径负载均衡，EMC CX300等只支持Failover）。
所以，我们需要修改默认的规则：

引用

defaults {
       udev_dir                /dev
       path_grouping_policy    multibus
       failback                immediate
       no_path_retry           fail
       user_friendly_name      yes
}

关键是path_grouping_policy一项，其他选项可参考说明文档。

3、启动服务及生成映射
执行：

# modprobe dm-multipath
# service multipathd start
# multipath -v0

4、查看复合后的设备
执行：

# multipath -ll

会看到类似下面的信息：

引用

mpath0 (360060e80058e980000008e9800000007)
[size=20 GB][features="0"][hwhandler="0"]
\_ round-robin 0 [prio=1][active]
\_ 3:0:0:7  sdaa 65:160 [active][ready]
\_ round-robin 0 [prio=1][enabled]
\_ 4:0:0:7  sdas 66:192 [active][ready]
\_ round-robin 0 [prio=1][enabled]
\_ 5:0:0:7  sdbk 67:224 [active][ready]
\_ round-robin 0 [prio=1][enabled]
\_ 2:0:0:7  sdi  8:128  [active][ready]

这说明，已由四条链路sdaa/sdas/sdbk/sdi复合成一条链路，设备名为mpath0。
状态正常的话，把multipathd设置为自启动：

# chkconfig multipathd on

5、使用mpath设备
用multipath生成映射后，会在/dev目录下产生多个指向同一条链路的设备：

引用

/dev/mapper/mpathn
/dev/mpath/mpathn
/dev/dm-n

但它们的来源是完全不同的：

引用

/dev/mapper/mpathn 是multipath虚拟出来的多路径设备，我们应该使用这个设备；
/dev/mpath/mpathn 是udev设备管理器创建的，实际上就是指向下面的dm-n设备，仅为了方便，不能用来挂载；
/dev/dm-n 是软件内部自身使用的，不能被软件以外使用，不可挂载。

简单来说，就是我们应该使用/dev/mapper/下的设备符。对该设备即可用fdisk进行分区，或创建为pv。

6、分区或创建lvm
以前，我考虑到从系统iostat看到的都是dm-n的设备，所以一直都是直接对dm-n操作。但这会产生一个问题，就是没法分区。而对/dev/mapper/mpathn设备操作就没有这问题。只要要注意，用fdisk分区并保存后，必须刷新multipath的映射表，以便其创建分区对应的设备符，例如：

引用

# fdisk -l /dev/mapper/mpath0

Disk /dev/mapper/mpath0: 214.7 GB, 214748364800 bytes
255 heads, 63 sectors/track, 26108 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

              Device Boot      Start         End      Blocks   Id  System
/dev/mapper/mpath0p1               1       26108   209712478+  83  Linux
# multipath -F
# multipath -v0
# ll /dev/mapper/mpath0p1
brw-rw----  1 root disk 253, 2  5月  7 07:40 /dev/mapper/mpath0p1

同样的，mpathn或其分区都可用来做pv使用：

# pvcreate /dev/mapper/mpath0p1
# vgcreate test /dev/mapper/mpath0p1
# lvcreate -L 1g -n lv1 test
# lvdisplay
# mkfs.ext3 /dev/test/lv1

※ 注意：
根据网上的资料，有部分multipath版本存在与lvm兼容的问题。具体表现是，使用device-mapper设备创建lvm完成，重启后，虽然lvm仍存在，但/dev/mapper下的设备丢失。可以参考：这里。
我在红旗 DC 5.0 标准版上曾遇到该问题，但SP2 似乎没有发现。不过，为了防止可能的意外，建议还是修改一下lvm的配置文件/etc/lvm/lvm.conf，加入：

引用

types=["device-mapper", 1]

7、其他
最简单的测试方法，是用dd往磁盘读写数据，然后用iostat观察各通道的流量和状态，以判断Failover或负载均衡方式是否正常：

# dd if=/dev/zero of=/dev/mapper/mpath0
# iostat -k 2

另外，如果是在由多台服务器构建集群环境中，为了让每台服务器识别的mpathn设备顺序一直，需进行wwid的绑定工作，请参考后面“自定义设备名称”中的内容。

五、答疑
1、为什么黑名单中不直接使用devnode "sda" 呢？
因为按Linux对设备的编号，当设备从sda到sdz时，后一个设备应该是sdaa。而multipath对黑名单的设置是以匹配的方式进行的，也就是说，如果你设置为devnode "sda"，那么除了sda为，sdaa、sdab等的设备（通道）都会被加入到黑名单中，而禁止使用。当然，你也可以参考配置文件中的样式，以正规表达式的形式进行描述：devnode "^sda$"。
但考虑到每次重启后，udev分配的盘符可能都不同（没有做udev绑定的情况），所以，我觉得以wwid的方式处理更可靠。

2、为存储定制特定的策略
在前面的配置中，我们已经在/etc/mulitpah.conf中配置了多路径的默认path_grouping_policy为multibus。但有时候，同一台机器上如果连接了一个以上的存储时，可能默认规则并不完全适用。这时，我们可以给特定的存储定制多路径符合的策略。

a、mulipath命令
该命令提供了一个-p的参数，可以修改默认策略，参数有：

引用

-p policy       force all maps to specified policy :
           failover             1 path per priority group
           multibus             all paths in 1 priority group
           group_by_serial      1 priority group per serial
           group_by_prio        1 priority group per priority lvl
           group_by_node_name   1 priority group per target node

例如，执行：

# multipath -F
# multipath -p failover -v0

有如下结果：

引用

mpath18 (360060e8010463ef004f2b79f00000006)
[size=320 GB][features="0"][hwhandler="0"]
\_ round-robin 0 [prio=2][active]
\_ 5:0:0:6  sdaf 65:240 [active][ready]
\_ 4:0:0:6  sdv  65:80  [active][ready]
\_ round-robin 0 [enabled]
\_ 2:0:0:6  sdb  8:16   [active][ready]
\_ 3:0:0:6  sdl  8:176  [active][ready]

这说明，当你对mpath1设备读写时，sdaf、sdv 会处于active状态，都有数据流，但sdb、sdl 组成的链路是enabled，作为ready情况。这为Failover（主备）情况，仅当sdaf、sdv组成的链路出现问题时，才会切换到sdb、sdl 的链路上。

b、修改配置文件
可以在配置文件中为指定的存储定义策略。首先，可以用multipath -v3 -ll 看看存储的信息，例如，我这里的机器就同时连接了两个不同的存储：

引用

===== path info sdaa (mask 0x5) =====
bus = 1
dev_t = 65:160
size = 10487040
vendor = HITACHI
product = OPEN-V
rev = 6006
h:b:t:l = 2:0:1:24
tgt_node_name = 0x50060e80058e9800
path checker = readsector0 (internal default)
state = 2
uid = 360060e80058e980000008e9800000058 (cache)
===== path info sdaf (mask 0x5) =====
bus = 1
dev_t = 65:240
size = 671088640
vendor = HITACHI
product = DF600F
rev = 0000
h:b:t:l = 3:0:0:6
tgt_node_name = 0x50060e8010463ef1
path checker = readsector0 (internal default)
state = 2
uid = 360060e8010463ef004f2b79f00000006 (cache)

默认情况下，multipath已经支持大部分常见的存储型号（可见multipath.conf.defaults），但不同的multipath版本可能都有些不同。这时，建议参考存储的官方文档，例如HDS的User and Reference Guide上，就有相关的说明：

引用

devices {
       device {
    vendor                 "HITACHI"                 //厂商名称
    product             "OPEN-V"            //产品型号
    path_grouping_policy         group_by_prio                 //默认的路径组策略
    getuid_callout             "/sbin/scsi_id -p 0x80 -g -u -s /block/%n" //获得唯一设备号使用的默认程序
    path_checker             readsector0                     //决定路径状态的方法
    path_selector             "round-robin 0"             //选择那条路径进行下一个IO操作的方法
    prio_callout             "/sbin/mpath_prio_alua /dev/%n"        //获取有限级数值使用的默认程序
    failback             immediate                 //故障恢复的模式
    hardware_handler         "0"                     //确认用来在路径切换和IO错误时，执行特定的操作的模块。
    no_path_retry             queue                     //在disable queue之前系统尝试使用失效路径的次数的数值
    rr_min_io             100                     //在当前的用户组中，在切换到另外一条路径之前的IO请求的数目
       }
}

※ 千万不要写错path_checker（可能值有：readsector0, tur, emc_clariion, hp_sw, directio）。不清楚的，可从存储的官方资料获得。

3、自定义设备名称
默认情况下，multipath会根据multipath.conf.defaults中的定义，生成mpathn的设备名。当然，我们也可以自行定义。不过，更主要的原因是：当我们有多台服务器以相同的方式连接到存储时，每台服务器识别出来的mpathn顺序可能不同。为了组成集群，我们需要固定每台机器识别的设备名顺序是一致的（绑定wwid）。
修改配置文件，加入：

引用

multipaths {
       multipath {
              wwid                360060e80058e980000008e9800000007
              alias                 mpath0
       }
}

重新刷新multipath映射表后，mpath0就与该wwid设备一一对应起来。除了别名alias外，还可以为该设备定义其他属性，请参考multipath.conf上的样式。把该配置赋值到其他同一集群的机器上，则每台机器识别的mpathn设备顺序将是一致的。
※ 注意：1、绑定后，需重新生成路径的映射表；2、当加入该wwid绑定后，没有绑定的设备将不能使用，用-ll 也无法看到这些设备，但/var/lib/multipath/bindings 中可见。

4、如何排错
以下几个命令和文件都对排错有帮助：

# multipath -v3 -ll
# dmsetup ls
# multipathd -k
> > show config
> >reconfigure
> >show paths
> > CTRL-D

文件：

引用

/var/lib/multipath/bindings
/dev/mapper/
# cat /sys/block/sda/device/vendor
# cat /sys/block/sda/device/model