Verstoring uitgaande gesprekken en verbinding verbroken

Incident Report for Dstny

Postmortem

Incident Slogan: Gebruikers konden geen oproepen plaatsen of ontvangen

Impact: Major

Prioriteit: Hoog

Starttijd: 10 december 2025, 11:37

Eindtijd: 10 december 2025, 12:13

Samenvatting

Op 10 december 2025, tussen 11:37 en 12:13, konden een deel van de ConnectMe-gebruikers geen oproepen plaatsen of ontvangen. Het probleem ontstond na een stroomonderbreking in een van onze datacenters, waardoor een core-netwerkrouter onverwacht opnieuw opstartte. Dit kortstondige verlies van connectiviteit veroorzaakte een ongebruikelijke toestand op een van de servers, waardoor deze niet meer correct reageerde. Het incident werd om 12:13 opgelost na handmatige interventie om de getroffen service opnieuw te starten.

Root Cause

Een kortstondige netwerkonderbreking, afkomstig van een core-router in het datacenter, creëerde een zeldzame fouttoestand op één server. Toen de server werd getroffen door het tijdelijke verlies van connectiviteit, kwam deze in een ongezonde toestand terecht en probeerde opnieuw op te starten. Echter, een afsluitproces dat bedoeld was voor gecontroleerde onderhoudsacties werd onterecht geactiveerd en bleef hangen. Dit verhinderde dat de server zijn normale herstelprocedure kon voltooien en hield deze in een onbruikbare toestand.

Incidentoplossing

De eerste herstelpogingen richtten zich op het opnieuw opstarten van de defecte server, maar dit mislukte omdat de server werd geblokkeerd door een vastgelopen afsluitproces. Engineers hebben vervolgens verbinding gemaakt met de onderliggende serverhost en het proces dat herstel verhinderde handmatig verwijderd. Nadat dit was gedaan, heeft het platform de service automatisch opnieuw uitgerold, waardoor de oproepfunctionaliteit voor alle getroffen gebruikers werd hersteld.

De netwerkconnectiviteit was al hersteld nadat de datacenterrouter opnieuw was opgestart, dus er waren op dat moment geen verdere acties nodig aan de netwerkzijde.

Mitigerende Acties

  • Verbeter alerting door replica- en health-check-fouten naar een kritieke ernst te verhogen, zodat problemen worden gedetecteerd.
  • Update het gedrag van de service zodat onderhoud gerelateerde afsluitstappen niet worden geactiveerd tijdens eenvoudige health-check-fouten.
  • Pas de routeringsconfiguratie aan voor een legacy IP-prefix om afhankelijkheid van oudere netwerkpaden te verwijderen, waardoor de blootstelling tijdens toekomstige netwerkgebeurtenissen wordt verminderd.
  • Samen met de datacenterprovider loopt nog een onderzoek naar de oorzaak van de stroomonderbreking zodat we herhaling kunnen voorkomen.
Posted Dec 24, 2025 - 08:41 CET

Resolved

We hebben geen verdere meldingen ontvangen, dus deze verstoring is afgesloten. Onze engineers zullen de oorzaak onderzoeken en een RCA opstellen, die we op deze pagina zullen delen.
Posted Dec 10, 2025 - 16:10 CET

Monitoring

Meerdere klanten hebben bevestigd dat alles weer operationeel is. Mocht je nog problemen ervaren gerelateerd aan deze melding neem contact op met onze servicedesk zodat we dit verder kunnen onderzoeken. We houden de diensten de komende uren onder verscherpt toezicht.

De volgende update zal zijn rond 16:00.

Onze excuses voor het ongemak.
Posted Dec 10, 2025 - 13:20 CET

Update

Onze engineers hebben e.e.a. kunnen herstellen waardoor het weer mogelijk zou moeten zijn om in te loggen in ConnectMe. Het kan zijn dat een herstart van de applicatie noodzakelijk is om weer in te kunnen loggen.
Posted Dec 10, 2025 - 12:26 CET

Investigating

Op dit moment ontvangen we meerdere meldingen waarbij uitgaande gesprekken mislukken, verbinding met server is verbroken en inloggen niet lukt op ConnectMe. We zijn de meldingen met de hoogste urgentie aan het onderzoeken.
Posted Dec 10, 2025 - 12:04 CET
This incident affected: Dstny UCaaS (ConnectMe, Core).