Nov 15
    常用Linux 等类Unix 平台的用户都可能会发现,du与df 的经过经常会不一致。其中,最常见的情况是,df 显示的已使用磁盘占用率比du 统计出来的结果要大很多。原因,主要是由于两者计算结果的方式不同。为了更清楚的说明问题,我下面做了一个简单的模拟实验。
Tags: , ,
Aug 27
    用户报障,说在一台安装了Asianux 3.0 的机器上测试网络时,发现拔掉某网卡的网线后,该网卡上的IP 地址仍可继续ping 通,怀疑硬件或系统配置有问题。经查证,这实际上是因为核心中arp_ignore 参数的默认设置导致的。月初时,我才写了一篇[原]有关arp_ignore 与arp_announce 参数的设置的文章,这次为了更清晰的说明问题,特模拟一个实验。
Tags:
Aug 24
    很久以前,曾在分析Linux死机故障一文中提到SysRq大法。而有时候,系统发生故障,核心仍在运行,键盘可用,但无法登陆或重启。这时,如果有打开SysRq功能的话,也可以利用SysRq的一些快捷键来实现安全关机的。
Tags: ,
Aug 20
    为了提高DNS 解析的记录,很多操作系统都会提供缓存DNS 记录的功能,但是,这可能会为测试DNS 服务或域名设定带来麻烦。为了测试出准确的结果,我们需要强制刷新本地 DNS 缓存记录。这里提供Windows 与 Linux 客户端上的操作说明。
Tags: ,
Aug 5
    早上看到一篇关于arp_ignore 设置值不同引起的故障问题:由于arp_ignore 为默认值0(即对ARP请求时,只要该IP在本地的机器任意网卡设备上存在都会响应)。当某机器同时通过一条以上路径到达相同的目标时,该默认值可能会引起故障。
Tags: ,
May 18
    还是之前的项目,在进行Oracle 的切换测试时,当把已经绑定成bond0的两个网卡上的网线都拔掉,发现系统会丢失网关,并增加了一条指向心跳网卡bond1的新路由,必须手动调整才能恢复。经过多方面的排查,最后发现是Oracle RAC 中VIP(浮动IP)属性设置不正确导致的问题,经用srvctl modify nodeapps调整后,问题解决。
Tags: ,
May 15
    某项目,使用红旗DC Server 5.0 for x86_64 SP2,运行Oracle RAC 10.2.0.4。而应用服务器上的应用通过Oracle客户端来连接,为常连接的方式。当进行应用的压力测试时,发现数据库服务器在运行一段时间(约3个小时后),系统会失去响应。当做了大量的系统状态及内存使用情况的分析后,发现系统失去响应的原因是,Oracle不断的申请内存,直到内存消耗完所导致的。深究其原因,是由于系统的核心参数vm.nr_hugepages与SGA的大小不匹配,Oracle并没有使用HugePages来分配SGA,而是在不断的消耗系统其它内存。
May 12
    某项目中,发现每次机器重启后,时间都比正常时间快了8个小时。但按[原]解决服务器重启后,时间自动变更的问题的方法处理,仍无法解决。后发现机器是IBM x3850 M2的,在使用hwclock从BIOS读、往BIOS写会失败:
引用
# hwclock -r
select() to /dev/rtc to wait for clock tick timed out
# clock
select() to /dev/rtc to wait for clock tick timed out

这时,必须加入--directisa参数才能成功。故怀疑问题原因是系统启动时,无法从BIOS获取正确的时间导致。
Tags: ,
Apr 27
    过去曾写过一遍日志,描述了如何为Firefox安装java插件的情况,见《手动安装FireFox java插件》。当时的平台是红旗 DC Server 5.0 SP2 for x86,由于java的问题,该方式并不适用于x86_64平台。经过多天的查询和测试,下面我总结一下不同平台下的情况。
Tags: ,
Jul 25
    是的,我知道ext3文件系统上,一旦文件被删除(rm -rf ),就几乎没有恢复的可能。而且从ext3文件系统的FAQ中提到的一条也能印证这点:
引用
Q: How can I recover (undelete) deleted files from my ext3 partition?
Actually, you can’t! This is what one of the developers, Andreas Dilger, said about it:
In order to ensure that ext3 can safely resume an unlink after a crash, it actually zeros out the block pointers in the inode, whereas ext2 just marks these blocks as unused in the block bitmaps and marks the inode as “deleted” and leaves the block pointers alone.
Your only hope is to “grep” for parts of your files that have been deleted and hope for the best.

但是,但是,这不是事实的全部,被删除文件的所有信息可能都还在磁盘上,包括块指针。ext3grep通过分析文件系统日志,实现了恢复被删除文件的功能。
Tags: , , ,
Jul 12
    目前服务器上配置的CPU是越来越多,并且,单个物理CPU中也包括了更多的核心。以Intel E5504为例,一个CPU就拥有4个核心,并发的速度得到明显的提高。其中,部分CPU还同时拥有超线程技术,这样,系统中识别出来的核心数量会更多。要让系统正确的识别出所有可用的CPU核心,系统使用Linux kernel是个关键,例如使用smp或largesmp,打开kernel编译时的支持等。当然,kernel越新,兼容性通常会更好。
    但我接下来要举出的案例,确与kernel关系不大,因此该kernel(红旗 DC Server 5.0 SP3)已经被确认可支持多大64个物理core,而且支持双核、四核、六核等架构。该问题的解决过程,由zhengyiyun#redflag-linux.com提供,我觉得相当值得借鉴。
Tags: ,
Jun 5
    某项目中,使用双服务器、单盘柜构建Oracle RAC集群环境。但在配置OCFS2磁盘时,格式化分区正常,挂载分区时报错:
引用
[root@rac1 /]# mount -t ocfs2 -o datavolume /dev/sdb1 /mnt/disk
mount.ocfs2: Invalid argument while mounting /dev/sdb1 on /mnt/disk. Check 'dmesg' for more information on this error.

    经分析,该问题与kernel中的ocfs2模块驱动有关。
Tags:
分页: 2/4 第一页 上页 1 2 3 4 下页 最后页 [ 显示模式: 摘要 | 列表 ]