Zscaler Blog

Erhalten Sie die neuesten Zscaler Blog-Updates in Ihrem Posteingang

Diagnose von Problemen mit der Netzwerkleistung in standortunabhängigen Unternehmen

SANJIT GANGULI - Vice President, Product Strategy

April 01, 2021 - 6 Lesezeit: Min

Zero-Trust-Architektur

Inhalt

Artikel
Weitere Blogs

Heimnetzwerke und lokale Internetanbieter (Internet Service Providers, ISP) sind heute fester Bestandteil der Netzwerkinfrastruktur von Unternehmen. Das ist die neue Realität, mit der IT-Teams sich auseinandersetzen müssen – ob sie wollen oder nicht. Dabei sind sie gefordert, ihre Maßnahmen zur Überwachung und Diagnose von Performanceproblemen auf Heimnetzwerke auszuweiten, um Mitarbeitern reibungslose Abläufe zu ermöglichen. Das bedeutet auch, dass ein methodisches Umdenken in der IT stattfinden muss: User befinden sich nicht mehr notwendigerweise im Büro und Anwendungen nicht im Rechenzentrum. Herkömmliche Herangehensweisen sind bei der Behebung von Performanceproblemen daher nicht mehr zielführend.

Lösungen für das Digital Experience Monitoring (DEM) verkörpern einen neuen Ansatz, mit dem sich die Herausforderungen heutiger Netzwerkinfrastrukturen bewältigen lassen. DEM-Tools kombinieren Maßnahmen zur Überwachung von synthetischen Transaktionen, Netzwerkpfaden und Endgeräten, um Probleme aus Sicht der Enduser zu erfassen, zu evaluieren und zu diagnostizieren.

Mit dem DEM-Ansatz rückt das Heimnetzwerk in den Fokus und Desktop-, Netzwerk- und Sicherheitsteams erhalten die Möglichkeit, Performanceprobleme anhand konkreter Schritte zu diagnostizieren:

Schritt 1: Objektive Messung der digitalen User Experience

Schritt 2: Ausschluss der Anwendung als Ursache

Schritt 3: Untersuchung von Endgerät und Netzwerk:

WLAN-bezogene Probleme
Residential Gateway
Lokale ISP-Verbindung

Zuverlässige Lokalisierung von Netzwerkproblemen mit Zscaler Digital Experience

Als führender Anbieter von Cloud-Sicherheit hat Zscaler mit Zscaler Digital Experience (ZDX) kürzlich eine eigene DEM-Lösung vorgestellt, die integraler Bestandteil seiner Zero Trust Exchange ist.

Das letzte Jahr hat die Arbeitswelt verändert: Ein Großteil der Arbeitnehmer befindet sich nun außerhalb des klassischen Unternehmensperimeters. Für IT-Teams bedeutet das, dass sie für die User Experience von Anwendern mit verschiedensten Heimnetzwerkverbindungen verantwortlich sind, von denen sich viele ihrer direkten Kontrolle entziehen.

Unternehmen benötigen transparenten Einblick in den gesamten Traffic zu sämtlichen Ressourcen in ihren dezentralen Netzwerken. DEM-Lösungen schließen die Transparenzlücken herkömmlicher Überwachungstools und unterstützen Netzwerk- und Sicherheitsteams, indem sie gemeinsam nutzbare Daten zur Optimierung der Endanwendererfahrung bereitstellen – unabhängig vom Standort dieser User.

Auf dieser Grundlage lassen sich komplexe Probleme mit dem Heimnetzwerk erkennen: Dabei wird die digitale User Experience umfassend analysiert, die Anwendung als Ursache eines Fehlers ausgeschlossen und sein tatsächlicher Ursprung – dieser kann etwa beim Endgerät oder auf dem Netzwerkpfad zwischen User und Anwendungshost liegen – lokalisiert.

Diagnose im Detail – Schritt 1: Objektive Messung der echten digitalen User Experience

Berichtet ein User außerhalb des Büros von einer beeinträchtigten Anwendungsleistung, ist es Aufgabe der IT, diese Feststellung objektiv zu überprüfen. Zu diesem Zweck bietet es sich an, synthetische Transaktionen über das Endgerät des Users als Methode heranzuziehen. Mithilfe einer synthetischen GET-Anfrage an die Anwendungs-URL erhalten IT-Teams Einblicke und Messdaten zu Seitenladezeiten im Browser des Geräts. Kontinuierliches User-Monitoring ermöglicht die Ermittlung der erwarteten Baseline-Performance, die im Fall auftretender Probleme als Vergleichsgrundlage dient. Im Folgenden soll die Analyse mit ZDX anhand eines Beispielszenarios veranschaulicht werden.

Grafik 1

Abbildung 1: Spitzen bei gemessenen Seitenladezeiten einer kritischen öffentlich sichtbaren Anwendung

Zunächst lohnt sich ein näherer Blick auf die in Abbildung 1 erfassten Seitenladezeiten. Die Messdaten verweisen darauf, dass sich die Anwendererfahrung innerhalb einiger Stunden drastisch verschlechtert hat. In der Folge kam es zu mehreren Ausfällen (hier hervorgehoben durch die roten Kreise).

Diagnose im Detail – Schritt 2: Ausschluss der Anwendung als Fehlerursache

Bei den Seitenladezeiten lassen sich also deutliche Leistungseinbußen feststellen. Aus dieser Erkenntnis folgt der nächste Untersuchungsschritt, in dem ermittelt werden soll, ob diese Schwächen auf die Anwendung zurückzuführen sind. Um diese Frage beantworten zu können, wird zuerst die anwendungsspezifische Serverantwortzeit (Server Response Time, SRT) gemessen. Das Ergebnis gibt Aufschluss darüber, wie lange ein Server benötigt, um auf den erstmaligen GET-Befehl eines Browsers zu antworten.

Abbildung 2: Korrelation von Serverantwortzeit und Seitenladezeit

Mit einigen Einschränkungen lässt eine hohe Korrelation zwischen der Erhöhung der Seitenladezeit und der SRT (siehe Abbildung 2 oben) darauf schließen, dass die Performanceprobleme tatsächlich durch die Anwendung verursacht worden sein könnten. Dies gilt jedoch unter der Voraussetzung, dass die End-to-End-Netzwerklatenz während des erfassten Zeitraums stabil geblieben ist.

Abbildung 3: Leistungsstabilität bei der Netzwerklatenz im Zeitverlauf

Tatsächlich zeigen die Messungen während der erhöhten Seitenladezeiten eine relativ stabile Netzwerklatenz an. In Verbindung mit der SRT-Korrelation liefert dies einen weiteren Beleg dafür, dass die Anwendung selbst für die beeinträchtigte User Experience verantwortlich ist.

Diagnose im Detail – Schritt 3: Untersuchung von Endgerät und Netzwerk

Probleme bei der User Experience können auch vom Endgerät ausgehen. Als Nächstes ist es daher sinnvoll, sich der Überprüfung von WLAN und Client-Gerät zuzuwenden.

WLAN-bezogene Probleme

Auch der Zustand des WLAN-Netzwerks am User-Standort kann sich auf die Performance auswirken. Metriken zu Seitenladezeiten geben Aufschluss darüber, ob es Leistungsabfälle bei der Anwendererfahrung gegeben hat. Auch hier ist es wichtig, die End-to-End-Netzwerklatenz im Blick zu behalten: Hat sie im betrachteten Zeitraum ebenfalls zugenommen? Treten Anstiege bei Seitenladezeiten und Netzwerklatenz gemeinsam auf, liegt die Ursache der verminderten Leistung im Pfad des Endgeräts.

Geht ein starker Rückgang der Signalstärke oder Bandbreite am WLAN-Zugriffspunkt mit langen Seitenladezeiten oder hoher Latenz einher? Dann liegt es nahe, dass die WLAN-Signalstärke am Standort des Users die Probleme verursacht. Durch einfache Verringerung des Abstands zum Zugriffspunkt kann hier womöglich bereits Abhilfe geschaffen werden. Doch häufig spielen noch andere Faktoren wie Signalstörungen oder Fehlkonfigurationen in den Netzwerkeinstellungen eine Rolle.

Abbildung 4: Korrelation von Anwendungsperformance und WLAN-Signalstärke sowie Bandbreite

Sowohl unter Windows als auch unter MacOS stehen Metriken zur geschätzten Bandbreite für jede Drahtlosnetzwerkkarte zur Verfügung. Aufgezeichnete Schwankungen in der verfügbaren Bandbreite können beispielsweise durch ein schwaches Signal oder Interferenzen ausgelöst werden.

Abbildung 5: Schwankungen in Metriken zur Netzwerkbandbreite

Residential Gateway

Nicht alle Heimnetzwerke sind gleich: Liegen die Gründe für einen Leistungsabfall weder bei der Anwendung noch beim Endgerät, sollte das lokale Gateway des Users überprüft werden. Häufig hängen Performanceprobleme damit zusammen, dass dort veraltete Firmware installiert ist.

In der Abbildung ist die Aktivität des Endgeräts „gateway_mac_address“ dargestellt. Hierbei handelt es sich um die angegebene MAC-Adresse der Gateway-Schnittstelle. Die MAC-Adresse des Users unterliegt häufigen Änderungen und die Antwort „NA“ tritt gemeinsam mit erhöhten Seitenladezeiten und Verbindungsunterbrechungen auf.

Abbildung 6: Anwendungsübergreifende Auswirkung von vereinzelt auftretenden Ladeproblemen/Ausfällen

Abbildung 7: Diagnosedaten zu Flapping der Gateway-Schnittstelle bei MAC-Adressen

Ein solches Muster weist auf eine instabile Verbindung zum Gateway der Heimumgebung hin. In diesem Fall ergab die Untersuchung, dass ein bekanntes Problems mit der Firmware-Version vorlag, die auf dem Gateway ausgeführt wurde. Der Fehler konnte durch ein Firmware-Upgrade behoben werden.

Lokale ISP-Verbindung

Nachdem nun Anwendung und Endgerät als Fehlerursache ausgeschlossen werden konnten, folgt zuletzt die Analyse der Netzwerkverbindung. Die Hops zwischen Endgerät und Anwendung umfassen das Heimnetzwerk, die lokale ISP-Verbindung, die Internet-Backbone-Verbindung und (in einigen Fällen) eine Verbindung mit einem Weiterleitungsproxy. Ist die Netzwerkverbindung des lokalen ISP Ursache des Problems, sollte eingegrenzt werden, welcher Hop in diesem Zusammenhang ausschlaggebend ist.

Entscheidende Informationen liefern dabei über das Usergerät erfasste ausgehende Pfadverfolgungen in Kombination mit solchen aus einem Weiterleitungsproxy (diese Option steht Bestandskunden von Zscaler zur Verfügung).

Im unten stehenden Beispiel korrelieren gestiegene Seitenladezeiten mit erhöhter Netzwerklatenz (mit Spitzenwerten bei über 500 ms). Eine Hop-by-Hop-Analyse zeigt, dass Latenz insbesondere während der letzten Meile auftritt (hier kam es bei Internetanbietern während der Pandemie häufig zu erheblichen Verzögerungen aufgrund unregelmäßiger oder instabiler lokaler Verbindungen). Dieselbe Analyse hätte Latenzprobleme zum Beispiel genauso gut einem bestimmten Internet-Backbone-Hop oder Weiterleitungsproxy-Hop zuordnen können.

Abbildung 8: Rückgang der Anwendungsperformance bei Seitenladezeiten

Abbildung 9: Schwankungen bei der Netzwerklatenz auf der letzten Meile

Mit einem Tool für Digital Experience Monitoring (DEM) lässt sich die Anwendererfahrung in Echtzeit überwachen, sodass Ursachen von Ausfällen oder Unterbrechungen besser ermittelt werden können. Auf dieser Grundlage lassen sich Verbindungsprobleme von Endusern proaktiv erkennen und beheben. Ein DEM-Tool erfüllt dabei folgende Funktionen:

Erfassung von Performancedaten zur Analyse von Ressourcen und Ereignissen auf Endgeräten, u. a. CPU-Performance und Speichernutzung sowie WLAN-Verbindungsproblemen, die sich auf die User Experience der Endanwender auswirken
Messung der Performance von Cloud-Pfaden zur Analyse von End-to-End- und Hop-by-Hop-Netzwerkverbindungen vom Usergerät zur Cloud-Anwendung
Überwachung der Anwendungsperformance zur Messung von Metriken wie Antwortzeit, DNS-Auflösung usw.

Indem sie den Überblick über Metriken und Statistiken zu Endusern behalten, können Unternehmen Ausfallzeiten proaktiv verhindern und die Produktivität ihrer Mitarbeiter an jedem Ort sicherstellen.

Als führender Anbieter von SASE-Netzwerksicherheit hat Zscaler mit Zscaler Digital Experience (ZDX) kürzlich eine eigene DEM-Lösung vorgestellt, die eng in seine Sicherheitsplattform eingebunden ist. Weitere Informationen finden Sie auf der Website von Zscaler.