Der Blog

Vom Chaos zu umsetzbaren Erkenntnissen mit PagerDuty Integrationen und -Automatisierung

von Tiago Barbosa 14. November 2023 | 7 min Lesezeit

Wir schreiben das Jahr 2023. In der heutigen Welt verlässt sich jedes Unternehmen und jeder Einzelne, unabhängig von seiner Branche, auf Software, um die Produktivität zu steigern. Unsere Benutzer erwarten, dass unsere Technologie jederzeit verfügbar und zuverlässig ist. Wenn Ihre Software Unternehmen innerhalb eines Landes während der regulären Geschäftszeiten dient, erwarten sie, dass sie während dieser gesamten Zeit verfügbar ist. Einfach richtig?

Wenn Ihre Software jedoch rund um die Uhr Kunden auf der ganzen Welt bedient und geringe Latenzzeiten erforderlich sind, müssen Sie Ihre Dienste in mehreren Regionen ausführen und Teams haben, die die Kunden an verschiedenen Standorten unterstützen.

Das zweite Szenario mag zwar komplexer erscheinen, aber es gelten die gleichen Prinzipien. Unweigerlich wird etwas unerwartet schiefgehen und in Stresszeiten, wie z. B. bei Vorfällen und Dienstausfällen, wird Chaos ausbrechen. Seien Sie also vorbereitet.

Sinn aus dem Chaos machen

Unsere heutigen Dienste sind verteilt und nutzen verschiedene Plattformen, Hardware- und Softwarekomponenten, von denen wir einige nicht einmal selbst verwalten. Immer wenn etwas kaputt geht, befinden wir uns im „Lösen des Rätsels“-Modus. Obwohl ich mit den Abenteuern von Sherlock Holmes aufgewachsen bin, mache ich das nicht gern unter Druck. Es ist Zeit, das zu ändern!

PagerDuty Operations Cloud dient als zentraler Hub für alle Ereignisse, die von einem beliebigen Tool ausgehen, das Sie bereits verwenden. Sie müssen dafür weder die CI/CD-Plattform, das ITSM noch die Überwachungstools ändern, die Sie verwenden. Sie integrieren sie einfach in PagerDuty, indem Sie unsere über 700 integrierten Integrationen nutzen oder Ihre eigene benutzerdefinierte Integration mithilfe unserer Events- oder REST-APIs erstellen.

Sobald Sie Integrationen für Ihre Dienste aktiviert haben, verarbeiten und aggregieren die AIOps-Funktionen von PagerDuty Ereignisse auf intelligente Weise und verknüpfen sie mit den Zieldiensten. Dadurch wird die Anzahl der erstellten Vorfälle reduziert und vorhandene Vorfälle werden mit relevanten Informationen angereichert, die Ihnen dabei helfen, die Grundursache des Problems zu ermitteln.

Aus Sicht eines Incident Responders möchten Sie benachrichtigt werden, sobald ein Problem erkannt wird, und Zugriff auf alle Informationen darüber haben, was vor und nach dem Auslösen des Vorfalls passiert ist. Die PagerDuty -Integration mit Amazon Cloudwatch ist ein Beispiel für eine Integration, die es Ihnen ermöglicht, benachrichtigt zu werden, sobald Ihre Ressourcen in einen Alarmzustand geraten. In AWS ausgelöste Alarme generieren Warnungen in PagerDuty , die zu Vorfällen führen können.

Screenshot of AWS Cloudwatch Alarm in Alarm status

Screenshot of PagerDuty alert triggered by Amazon Cloudwatch alarm

Ein weiteres Beispiel besteht darin, dass GitHub alle an der Codebasis vorgenommenen Änderungen an PagerDuty sendet, damit der Incident Responder weiß, wann etwas Neues bereitgestellt wurde, und die potenziellen Auswirkungen dieser Änderungen analysieren kann.

Screenshot example of PagerDuty integration with GitHub

Verwenden der APIs

Es kann Situationen geben, in denen die integrierten Integrationen nicht ausreichen und Sie Ihre eigenen Integrationen erstellen müssen. Dies können Sie erreichen, indem Sie entweder Ereignisse-API oder der REST API .

Für Integrationen, die eine höhere Frequenz erfordern, wie z. B. Überwachungs- oder Beobachtungstools, empfehlen wir die Verwendung der Events API aufgrund ihrer höheren Ratenbegrenzungen und Zuverlässigkeit. Es ist jedoch wichtig, sich dessen bewusst zu sein API-Antwortcodes und Ansätze zum Wiederholen Ihre Anfragen im Fehlerfall.

Über die API gesendete Ereignisse werden an einen PagerDuty Dienst weitergeleitet und verarbeitet. Sie können zur Erstellung eines neuen Alarms und/oder Vorfalls oder zur Aktualisierung oder Lösung eines bestehenden Alarms und/oder Vorfalls führen.

Die Events-API unterstützt zwei Arten von Ereignissen:

  • Veranstaltungen – Überwachungstools sollten je nach Ereignistyp ein Triggerereignis an PagerDuty senden, um ein neues Problem zu melden oder ein bestehendes Problem zu aktualisieren.
  • Änderungsereignisse – Mit der Change Events API können Sie Informationsereignisse über aktuelle Änderungen, wie z. B. Codebereitstellungen und Systemkonfigurationsänderungen, von jedem System aus senden, das eine ausgehende HTTP-Verbindung herstellen kann. Diese Ereignisse erstellen keine Vorfälle und senden keine Benachrichtigungen, werden jedoch im Kontext von Vorfällen auf demselben PagerDuty Dienst angezeigt.

Um Ihre Ereignisse effektiv weiterzuleiten, verwendet die Events-API zwei verschiedene Endpunkte: https://Veranstaltungen [.eu].pagerduty.com/v2/enqueue für Warnereignisse , Und https://Veranstaltungen [.eu].pagerduty.com/v2/change/enqueue für Änderungsereignisse . Wenn du Fügen Sie die Events API v2-Integration hinzu zu Ihrem Dienst erhalten Sie die URLs für Ihr Konto zusammen mit einem Integrationsschlüssel für Ihren Dienst (siehe Abbildung unten).

Screenshot of Events API service integration

Damit können Sie praktisch jeden Dienst, jedes Tool oder jede Plattform in die PagerDuty Operations Cloud integrieren, ohne auf die von PagerDuty bereitgestellten nativen Integrationen angewiesen zu sein.

Dormain Drewitz, PagerDutys VP of Platform Advocacy, hatte kürzlich ein Gespräch mit Nakul Bhagat vom Produktteam über die APIs von PagerDuty. Worth Aufpassen wenn Sie weitere Einzelheiten zu ihrer Verwendung suchen.

Die richtigen Leute zur richtigen Zeit

Jetzt, da alle Dateneinblicke in die PagerDuty Operations Cloud fließen und an die richtigen Dienste weitergeleitet werden, müssen Sie die richtigen Personen zur richtigen Zeit einbeziehen. Für Einsatzkräfte Dies wird erreicht durch die Definition Teams , Bereitschaftspläne Und Eskalationsrichtlinien . Für Andere Stakeholder Dies geschieht typischerweise durch die Verwendung von Statusseiten , Status Updates oder von Hinzufügen als Abonnenten zu einem aktiven Vorfall .

Zusätzlich zu den für Benutzerkonten konfigurierten Benachrichtigungsmechanismen bietet PagerDuty eine Reihe von Integrationen und Erweiterungen, die es Teams ermöglichen, bei den Tools zu bleiben, die sie bereits täglich nutzen. Dadurch wird die Notwendigkeit eines Kontextwechsels verringert und eine einfachere Einführung ermöglicht.

Wenn Sie beispielsweise PagerDuty Integrationen für vorhandene Kommunikationsplattformen wie Slack oder Microsoft Teams aktivieren, können Sie jede Person in der Organisation benachrichtigen, einen Beitrag leisten und darüber informieren, was bei einem bestimmten Vorfall passiert, der möglicherweise Probleme in verschiedenen Teilen des Unternehmens verursacht. Die Erstellung von Vorfallkanälen und das Hinzufügen relevanter Responder und Stakeholder zu ihnen kann automatisiert werden mit Vorfall-Workflows .

Screenshot of major incident workflow example

Wenn Sie diese Schritte befolgen, sind Sie gut vorbereitet, um einen angemessenen Service-Support zu bieten. Das Ergebnis sind zufriedenere Kunden als je zuvor. Aber können Sie noch einen Schritt weiter gehen?

Zeitersparnis durch Automatisierung

Automatisierung spielt in PagerDuty Operations Cloud eine wichtige Rolle, da Sie damit sich wiederholende Aufgaben automatisieren und eingeschränkte Funktionen sicher und selbständig für andere bereitstellen können (siehe Beispiele). Hier ). Indem Sie Automatisierung in Ihren Arbeitsablauf integrieren, können Sie die Wahrscheinlichkeit von Fehlern verringern und die Effizienz der Ingenieure steigern, die sie nutzen.

Beim Ausführen von Diensten auf einer Cloud-Plattform gibt es mehrere potenzielle Fehlerquellen, noch bevor sie die Anwendung erreichen. Sie können die Plattformdiagnose automatisieren mit Prozessautomatisierung oder Runbook-Automatisierung innerhalb Vorfall-Workflows . Anstatt die vollständigen Protokolle zu sichern, können Sie diese Diagnosen in einem lesbaren Format in Ihrer Vorfallzeitleiste ausgeben.

Screenshot-Beispiel für Vorfallnotizen, die aus der Prozessautomatisierung hinzugefügt wurden

Auf diese Weise können nicht nur die Einsatzkräfte schnell erkennen, wo die Probleme liegen, sondern auch andere Beteiligte sind über die Arbeiten zur Lösung des Vorfalls informiert.

Ein Schritt auf einmal

In diesem Blogbeitrag haben Sie erfahren, wie PagerDuty Operations Cloud Störungen reduziert und eine effektive Vorfallslösung ermöglicht. Bei richtiger Umsetzung kann eine Strategie zur Vorfallsbewältigung und Bereitschaft erhebliche Vorteile bringen. Ihre Kunden werden zufriedener sein, Ihr Geschäft wird florieren und Ihre Teams werden mit ihrer Arbeit und dem erworbenen Wissen zufriedener sein.

Allerdings ist es wichtig, die Bedeutung von Tools allein nicht zu unterschätzen. Beginnen Sie mit kleinen Schritten, sammeln Sie Erkenntnisse, beziehen Sie andere ein und konzentrieren Sie sich auf das, was für Ihre Kunden und Ihr Unternehmen relevant ist.

Lass uns wissen was du denkst!

Nutzen Sie bereits unsere REST- oder Event-APIs? Lassen Sie es uns wissen, indem Sie dieses kleine Umfrage !

Werden Sie Mitglied unseres Community-Foren oder wenden Sie sich an community-team@pagerduty.com . Wir würden gerne hören, was Sie von den neuen Funktionen halten und was Sie sich für die Zukunft wünschen.