Accueil / Projets Wikimedia / Panne des sites Wikimedia du 6 août

Panne des sites Wikimedia du 6 août

Posted on

L’ensemble des sites Wikimedia a connu une panne mondiale lundi dernier qui a commencé à environ 13h15 heure française. Les sites étaient de nouveau accessibles, à 15h18 (à l’exception du site pour les mobiles qui n’a été rétabli qu’à 16h35). La panne a donc duré un peu plus de 2 heures, sans accès à Wikipédia et aux autres projets Wikimedia (Wikimedia Commons, Wiktionnaire, Wikisource, etc.).

Les équipes techniques de la Wikimedia Foundation ont détecté une perte de connectivité réseau entre leurs deux centres de données qui hébergent les sites. La panne a été provoquée par une rupture accidentelle, provoquée par un tiers, d’un câble de fibre optique reliant ces deux centres. Ils sont tous deux situés du coté Est des États-Unis, l’un à Ashburn en Virgine et l’autre à Tampa en Floride (la fondation a elle ses bureaux à San Francisco). Le centre de Ashburn assure la majeure partie du trafic mais il doit communiquer avec celui de Tampa, le centre historique, pour tout ce qui concerne les services de backend (les bases de données par exemple). Aussi sont-ils reliés entre eux par deux liaisons distinctes en fibre optique afin d’assurer une redondance. La rupture d’un câble n’aurait donc pas du provoquer cette panne puisque le second câble est justement là pour éviter cela.

Quelques-uns des serveurs Wikimedia…
(Victor Grigas, CC by SA)

Pour assurer aussi cette redondance, la fondation s’était assuré auprès du fournisseur réseau qu’il fournisse deux systèmes indépendants et distincts de multiplexage en longueur d’onde (DWDM) afin que Wikipédia et les autres sites Wikimedia soient toujours accessibles. Chacun de ces DWDM est acheminé par diverses fibres en utilisant les deux entrées du point de présence (POP) du centre de Tampa, rendant le système capable de délivrer deux flux de 10 Gio/s différemment routés tant que le segment métropolitain et le segment longue distance de l’onde nº1 sont sur la même route.

Le fournisseur réseau a effectué le diagnostic initial du trafic Wikimedia et a trouvé l’origine du problème : il se situait dans une section d’un segment de fibre pliée au travers duquel passent les flux Wikimedia. Le dommage sur le câble de fibre optique s’est produit dans ce segment de fibre pliée entraînant la perte de service. Entre temps l’équipe technique de la fondation avait redirigé le trafic vers le centre de Tampa. Bien que les deux liaisons soient ensuite redevenues opérationnelles, le trafic n’a volontairement pas été redirigé vers Ashburn tant que les causes de cette panne de service n’étaient pas précisément connues.

L’enquête qui a suivi a montré que le segment d’accès métropolitain de l’onde nº1 était mal acheminé, du même côté que le segment longue distance de l’onde nº2. La combinaison de la coupure du câble et de ce routage incorrect ont entraîné la perte des deux connexions réseau entre les deux centres de données.

Depuis, la fondation a demandé au fournisseur de vérifier le cheminement du trafic pour s’assurer qu’un tel point unique de défaillance ne subsiste plus sur leur réseau (qu’en cas de défaillance en un point donné, la connexion reste assurée).

(Victor Grigas, CC by SA)

La fondation est également en train de répliquer et de migrer le reste de ses services backend à eqiad (site d’Ashburn), créant ainsi une redondance complète du service entre les deux centres de données. L’objectif est que cela soit achevé au dernier trimestre 2012.

Bien que cette panne se soit produite en plein mois d’août, les réactions en France et à l’étranger tant sur les réseaux sociaux que dans les médias ont montré à tel point Wikipédia était devenu un service usuel pour beaucoup. Wikipédia est consultée chaque mois par plus de 20 millions de visiteurs uniques en France et par près de 470 millions dans le monde.

Le rapport original de la panne (en anglais) se trouve sur wikitech.wikimedia.org/.

Top