「四川联想代理」网络工程师如何解决数据中心联想服务器网络连接问题

成都联想服务器总代理 71 2023-05-26 https://www.lenovocd.com/ 成都联想服务器总代理

网络连接是当今计算世界的一项关键要求。成都联想服务器经销商任何优秀的服务器系统管理员都知道,为失败做计划是工作的一部分。然而,无论您在设置中构建了多少冗余,总有可能出现意外问题。您必须了解帮助您解决令人不快的意外的工具和程序。

成都联想服务器代理商

对于许多系统管理员来说,故障排除是工作中有趣的部分(无论如何,我对“乐趣”的衡量标准),有一天在工作中,我有机会对我的故障排除能力进行测试。在我实验室的一台服务器上,我注意到日志中的条目显示了断断续续的连接。我很惊讶,因为我在我的设置中实现了相当多的冗余,所以我决定进行调查。

使用绑定或组合配置,您可以将Red Hat Enterprise Linux (RHEL) 服务器配置为使用多个网络交换机端口来增加性能和冗余。根据网络交换机的功能,有多种可能的配置。假设网络交换机可以执行 802.3ad 链路聚合组 (LAG),您可以使用多个服务器网络接口卡 (NIC) 将网络交换机上的多个网络接口逻辑捆绑到 RHEL 服务器到绑定或组合设备中。

配置

这是我的服务器网络的外观图。在故障排除步骤中参考此内容。具体来说,请注意team1和team10 NIC 组合配置。服务器使用 team1 进行数据连接,使用 team10 进行存储连接。如果您希望重现设置,可以在文章末尾找到配置脚本。

首先,我使用以下命令验证了配置:

如果其中一个绑定设备中的两个 NIC 都有问题,则网络 ping 将停止。但是,如果其中一个 NIC 有问题而另一个没有问题怎么办?在这种情况下,事情会继续运行,这正是网络团队设备配置的重点,那么您如何判断是否存在问题?你在找什么?假设您使用 Grafana 之类的工具配置了网络带宽图表,您的网络容量图表会显示一些有趣的东西吗?图表是否会显示正在使用的容量的一半?你甚至会注意到吗?

使用 ethtool 显示网卡状态

监控网卡链接状态是个好主意。根据您的监控软件,您可能有也可能没有该功能。RHEL 有几种方法可以检查链接状态ethtool,包括ip.

我们下面以ethtool为例:

下面我们以ip命令为例:

您可以在上面的两个命令中看到Link detected: no或者state DOWN。但是,如果我的监控软件每 5 分钟甚至每 3 分钟检查一次链路断开状态怎么办?它会每 15 到 20 秒或随机时间捕获一个具有间歇性连接的 NIC 吗?

检查链路状态一致性

如何判断连接是否断断续续?您可以查看向下计数enp9s0。

从这个teamdctl命令的输出可以看出, 8241有很多起伏。

您还能在哪里找到这些信息?日志文件呢?系统是否记录了这些?

网络链路状态每两到三秒抖动一次。这是一个实验室服务器,并没有正确设置和配置所有监控。

我偶然发现了它,因为我有dmesg -T在登录系统时运行的习惯。dmesg代表诊断消息,该命令打印出内核的消息缓冲区。该-T选项在事件发生时打印时间戳。dmesg消息都被记录并写入日志文件中的磁盘以进行保管。

解决这个问题

这是问题根源的图片:稍微拉伸的网络电缆导致端口每分钟上下多次上下波动。

以下是一些要点:

不要假设容错不需要被监控。

了解错误消息的去向以及应监控哪些关键字。

抽查“错误”、“警告”和“失败”等术语的错误日志。你错过了什么吗?

手动使配置为冗余的组件失效,看看会发生什么。什么被记录?故障如何影响系统和性能?提前知道你应该寻找什么。

为所有重要的事情设置监控和警报。

发生问题时,请进行根本原因分析以更好地了解原因。

对于我的问题,查看我的日志指出了我实际移动了带轮子的机架的日期。我记得将其移出以在另一台服务器上进行一些维护,可能是当电缆过度拉伸时。快速更换跳线,我又重新开始工作了。

参考:配置脚本

下面是两个 NetworkManagernmcli脚本,用于将两个双端口 NIC 配置为使用 LACP 的组合设备。第一个双端口 1GB NIC 配置为team1,另一个配置为team10,一个双端口 10GB NIC。

这是 team1 配置脚本:

team10 配置脚本如下所示:

成都联想代理www.lenovocd.com


【公司名称】成都鸿盛广达科技有限公司

【代理级别】成都联想服务器总代理

【销售经理】成都鸿盛广达科技有限公司

【联系方式】座机:028-85952921 手机:13981931555

【公司地址】成都市武侯区人民南路四段一号时代数码广场A座17楼