Net nu een server echt actief verkeer moest doen, liep het verkeer “droevig” door het netwerk.
Iedere keer stopte het en viel de machine uit de proxmox cluster. Aangezien deze omgeving wel productie draait, maar niet van dien aard dat als er een storing is die langer duurt, dat ik grote problemen heb, ben ik gaan zoeken.
Mar 27 21:18:45 pm-14 corosync[1273]: [TOTEM ] Token has not been received in 3712 ms
Mar 27 21:18:45 pm-14 kernel: e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang: TDH <c7> TDT <1> next_to_use <1> next_to_clean <c6> buffer_info[next_to_clean]: time_stamp <1000aeafc> next_to_watch <c7> jiffies <1000afb80> next_to_watch.status <0> MAC Status <40080083> PHY Status <796d> PHY 1000BASE-T Status <3800> PHY Extended Status <3000> PCI Status <10>
Mar 27 21:18:46 pm-14 corosync[1273]: [TOTEM ] A processor failed, forming new configuration: token timed out (4950ms), waiting 5940ms for consensus.
Mar 27 21:18:47 pm-14 kernel: e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang: TDH <c7> TDT <1> next_to_use <1> next_to_clean <c6> buffer_info[next_to_clean]: time_stamp <1000aeafc> next_to_watch <c7> jiffies <1000b0341> next_to_watch.status <0> MAC Status <40080083> PHY Status <796d> PHY 1000BASE-T Status <3800> PHY Extended Status <3000> PCI Status <10>
Mar 27 21:18:47 pm-14 kernel: e1000e 0000:00:1f.6 eno1: NETDEV WATCHDOG: CPU: 1: transmit queue 0 timed out 6400 ms
Mar 27 21:18:47 pm-14 kernel: e1000e 0000:00:1f.6 eno1: Reset adapter unexpectedly
Mar 27 21:18:47 pm-14 kernel: vmbr0: port 1(eno1) entered disabled state
Mar 27 21:18:51 pm-14 kernel: e1000e 0000:00:1f.6 eno1: NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
Mar 27 21:18:51 pm-14 kernel: vmbr0: port 1(eno1) entered blocking state
Mar 27 21:18:51 pm-14 kernel: vmbr0: port 1(eno1) entered forwarding state
Ik kwam twee artikelen tegen die bruikbaar waren en dit bleek de work around te zijn.
ethtool -K eno1 tso off gso off gro off
Het schakelt bepaalde ontvangst en send functies om netwerk verkeer te offloaden uit.
Het probleem was hierna als sneeuw voor de zon verdwenen.
De forum thread waar het beschreven staat:
https://forum.proxmox.com/threads/e1000e-reset-adapter-unexpectedly.87769/