Ritter Kapital Handelssystem


Goldman Sachs Massive Trading Error Bären Eine furchterregende Ähnlichkeit mit dem, der Herde Ritter Capital Jetzt, wo wir mehr über gestern Optionen Traffic Fehler kosteten Goldman Sachs Hunderte von Millionen, wir wissen, dass es sieht aus wie ein großer massiver Handelsfehler - Knight Capitals 450 Millionen Trading-Glitch von 2012. Beide Goldmans Fehler gestern - ein System-Programmierung Fehler, der falsche Preisgrenzen in einer Reihe von Ticker-Symbole gesetzt - und Ritter Fehler - auch ein System-Programmierfehler, die Algorithmen kaufen hoch und verkaufen Low-Highlight die Tatsache, dass Komplexe, High-Speed-Computer-Software hat die Macht, um Märkte in eine tizzy gesetzt. Heres, wie weit Goldmans fehlerhafter Handel, der an Optionsbörsen im ganzen Land geschickt wurde, hat gestern (von Bloomberg) gesammelt: Der Handel kann etwa 400.000 Verträge für Unternehmen wie JPMorgan Chase amp Co. Johnson amp Johnson und Kellogg Co. auf der Grundlage von Daten für die 500 größten Trades. Nasdaq OMX PHLX prüft eine Liste von etwa 1.225 einzigartigen Verträgen auf 51 zugrunde liegenden Aktien, entsprechend seiner Händleralarm-E-Mail. Etwa 240 September 103 legte Aufträge für den iShares Russell 2000 Exchange Traded Fund um 1 um 9:32 Uhr a. m. New York Zeit heute, von so viel wie 3,32 zwei Minuten früher, Daten von Bloomberg zusammengestellt. Der nächste Handel wurde um 3,27 um 9:33 Uhr durchgeführt. Für Knight Capital kostete ein Programmierfehler die Firma ihre eigene Existenz. Goldman, auf der anderen Seite, sagt der Fehler wäre nicht materiell für die finanzielle Lage der Firma. Die Bank ist dafür bekannt, dass sie einige der anspruchsvollsten und leistungsfähigsten Trading-Technologie auf der Straße haben, aber sie reden über den Handel mit hoher Geschwindigkeit im Optionsmarkt hier. Als Unternehmen versuchen, Programme zu entwickeln, um die schnellsten und die schlechtesten, sagen einige Experten, Fehler gemacht werden können. Zurück um Ritterzeit sprach Business Insider mit Lev Lesokhin. Er arbeitet für CAST, ein Unternehmen, das inhärente Risiken in Finanzsoftware-Systemen visualisiert. Lesokhin erklärte, dass einige dieser Finanzfirmen arent genau genug auf das, was unter der Kapuze ihrer Computerprogramme ist, bezahlen - und das bedeutet, dass bizarre Dinge passieren können. Bei Ritter war das bizarre Ding Frankenstein-Code. Die meisten IT-Anwendungen haben toten Code, sagte Leskhin. Es ist dort nur hängen in der Code-Basis, aber keiner der Live-Module nennen es. Wenn du keine strukturelle Aufsicht hast, dann weißt du nicht, ob dein neuer Live-Code den toten Code anrufen könnte. In Ritter Fall war es. Der Live-Code nannte den toten Code zurück zum Leben und das Programm begann damit zu handeln. Warte früh, um zu sehen, was mit Goldman passiert ist. Was die Trades angeht, so könnten sie je nach den Regeln für einen offiziellen Fehler an den betreffenden Börsen (NYSE, NASDAQ, CBOE) gesperrt (storniert) werden. Mehr dazu kommen. Holen Sie sich die neuesten Goldman Sachs Aktienkurs hier. Pressemitteilung SEC Charges Ritter Kapital mit Verletzungen der Marktzugriffsregel FÜR IMMEDIATE RELEASE 2013-222 Washington DC 16. Oktober 2013 mdash Die Securities and Exchange Commission gab heute bekannt, dass Knight Capital Americas LLC zugestimmt hat Zahlen 12 Millionen, um Gebühren zu begleichen, dass es verletzt die Agentur rsquos Markt Zugangsregel in Verbindung mit dem firmrsquos 1. August 2012 Handelsvorfall, dass die Märkte gestört. Eine SEC-Untersuchung ergab, dass Knight Capital keine ausreichenden Garantien zur Verfügung hatte, um die Risiken des Zugangs zu den Märkten zu begrenzen, und scheiterte daran, den Eintritt von Millionen fehlerhafter Aufträge zu verhindern. Knight Capital hat auch keine angemessene Überprüfung der Wirksamkeit seiner Kontrollen durchgeführt. Dies ist die SECrsquos erste Vollstreckungsmaßnahme im Rahmen der Marktzugangsregel, die 2010 als Regel 15c3-5 verabschiedet wurde. LdquoDie Marktzugangsregel ist für den Schutz der Märkte wesentlich, und Knight Capitalrsquos Verletzungen setzen sowohl die Firma und die Märkte in Gefahr, rdquo sagte Andrew Ceresney, Co-Direktor der SECrsquos Abteilung der Durchsetzung. LdquoDas rasche Tempo des Handels in den heutigen Märkten und die potenziellen massiven Auswirkungen von Kontrollausfällen, müssen Makler-Händler auf die hohen Standards der Compliance für den sicheren und ordnungsgemäßen Betrieb der Märkte erforderlich gehalten werden. rdquo Daniel M. Hawke, Chef der SEC Enforcement Divisionrsquos Market Missbrauch Unit, hinzugefügt, ldquoBrokers und Händler müssen jede Komponente in jedem ihrer Systeme betrachten und sich fragen, was passieren würde, wenn die Komponente stört und welche Sicherheitsnetze vorhanden sind, um den Schaden zu begrenzen, den sie verursachen könnte. Ritter Capitalrsquos Misserfolg, diese Fragen zu stellen, hatte katastrophale Konsequenzen. rdquo Nach der SECrsquos-Ordnung machte Knight Capital zwei kritische Technologie-Fehltritte, die zum Handelsvorfall am 1. August 2012 führten. Knight Capital bewegte einen Abschnitt des Computer-Codes im Jahr 2005 zu einem Früheren Punkt in der Code-Sequenz in einem automatisierten Equity-Router, wodurch eine Funktion des Routers defekt. Obwohl diese Funktion nicht dazu bestimmt war, verwendet zu werden, ließ Knight es im Router zurück. Ende Juli 2012 bei der Vorbereitung auf die Teilnahme an der NYSErsquos neue Retail Liquidity Program, Ritter Capital falsch eingesetzt neue Code in den gleichen Router. Infolgedessen lösten bestimmte Aufträge, die für das NYSErsquos Programm in Frage kamen, die defekte Funktion im Knight Capitalrsquos Fräser aus, der dann nicht erkannt werden konnte, wann Aufträge gefüllt worden waren. Während der ersten 45 Minuten nach dem Börsengang am 1. August, Ritter Capitalrsquos Router schnell mehr als 4 Millionen Bestellungen in den Markt geschickt, wenn man versucht, nur 212 Kunden Bestellungen zu füllen. Knight Capital handelte mehr als 397 Millionen Aktien, erwarb mehrere Milliarden Dollar in unerwünschten Positionen und erlitt schließlich einen Verlust von mehr als 460 Millionen. Die SECrsquos-Order findet auch, dass ein internes Knight Capital-System 97 automatisierte E-Mails generiert hat, die an eine Gruppe von Personal ging. Die E-Mails referenzierten auf den Router und identifizierten einen Fehler, bevor die Märkte am 1. August eröffnet wurden. Diese Meldungen wurden durch den Code-Deployment-Fehler verursacht, aber Knight Capital hat am 1. August nicht darauf gehandelt. Obwohl Knight Capital diese Nachrichten nicht als System entworfen hat Warnungen, sie bot eine Gelegenheit, das Problem zu identifizieren und zu beheben, bevor die Märkte eröffnet wurden. Die SECrsquos-Auftragsgebühren Ritterkapital mit Verletzung der Marktzugangsregel auf folgende Weise: Hatte keine ausreichenden Kontrollen an einem Punkt unmittelbar vor der Einreichung von Aufträgen auf den Markt, wie z. B. eine Kontrolle, um Aufträge zu vergleichen, die den Router mit den eingegebenen verlassen haben. Vermeidung von Finanzrisikokontrollen, die nicht in der Lage waren, die Eintragung von Aufträgen zu verhindern, die die vorgegebenen Kapitalschwellen für das Unternehmen insgesamt überschritten haben. Verknüpfung nicht das Konto, das die Hinrichtungen am 1. August erhielt, um automatisierte Kontrollen in Bezug auf das Firmenrisiko insgesamt finanzielle Exposition. Habe keine ausreichenden Kontrollen und Prozeduren für Code-Deployment und Tests für seinen Equity Order Router. Hatte keine ausreichenden Kontrollen und schriftlichen Verfahren, um Mitarbeiterreaktionen auf signifikante technologische und Compliance-Vorfälle zu führen. Hat seine Geschäftstätigkeit im Zusammenhang mit ihrem Marktzugang nicht hinreichend überprüft, um die Gesamteffektivität der Risikomanagementkontrollen und der Aufsichtsverfahren zu gewährleisten. Seine Einschätzung konzentrierte sich weitgehend auf die Erstellung eines Bestands an bestehenden Kontrollen und stellte sicher, dass sie wie beabsichtigt funktionierten, anstatt sich auf solche Risiken wie möglich Fehlfunktionen in seinem automatisierten Order Router zu konzentrieren. Die Firma reagierte auch auf vorherige Ereignisse zu eng und hielt die Ursachen früherer Vorfälle nicht ausreichend. Keine ausreichende schriftliche Beschreibung der Risikomanagementkontrollen. Nicht in seiner 2012 jährlichen CEO-Zertifizierung bestätigt, dass Knight Capitalrsquos Risikomanagement Kontrollen und Aufsichtsmaßnahmen die Marktzugangsregel eingehalten haben. Der SECrsquos-Auftrag erhebt auch Ritterkapital mit Verletzungen der Regeln 200 (g) und 203 (b) der Regulierung SHO, die die ordnungsgemäße Kennzeichnung von Leerverkäufen und die Lokalisierung von Aktien zur Leihe für Leerverkäufe erfordern. Der SECrsquos-Auftrag verlangt, dass Knight Capital eine 12-Millionen-Strafe bezahlt und einen unabhängigen Berater beibehält, um eine umfassende Überprüfung der firmenübergreifenden Kontrollen und Verfahren durchzuführen, um die Einhaltung der Marktzugangsregel zu gewährleisten. Ohne die Erkenntnisse zuzulassen oder zu verleugnen, stimmte Knight Capital der SECrsquos-Ordnung zu, die das Unternehmen tadelt und es verlangt, dass es aufhört, diese Verletzungen zu begehen oder zu verletzen. Die SECrsquos-Untersuchung wurde von Mitarbeitern in der Marktmissbrauchseinheit durchgeführt, darunter Jason Burt, Carolyn Welshhans, William Max Hathaway und Ainsley Kerr. Der Fall wurde von Herrn Hawke und dem unitrsquos Co-stellvertretenden Chef Robert Cohen betreut. Das SECrsquos National Exam Program und die Division Trading und Markets stellten erhebliche Unterstützung zur Verfügung. Ich sprach auf einer Konferenz im vergangenen Jahr zu den Themen von DevOps, Konfiguration als Code und Continuous Delivery und verwendete die folgende Geschichte, um zu zeigen, wie wichtig die Bereitstellung vollautomatisch ist Und wiederholbar als Teil einer DevOpsContinuous Delivery Initiative. Seit dieser Konferenz bin ich von mehreren Leuten gefragt worden, um die Geschichte über meinen Blog zu teilen. Diese Geschichte ist wahr, das ist wirklich passiert. Das ist meine Erzählung von der Geschichte, die auf dem basiert, was ich gelesen habe (ich war nicht daran beteiligt). Dies ist die Geschichte, wie ein Unternehmen mit fast 400 Millionen in Vermögenswerten in 45 Minuten wegen eines gescheiterten Einsatzes in Konkurs ging. Hintergrund Ritter Kapital-Gruppe ist ein amerikanisches globales Finanzdienstleistungsunternehmen, das in der Marktherstellung engagiert. Elektronische Ausführung und institutionelle Verkäufe und Handel. Im Jahr 2012 war Knight der größte Händler in US-Aktien mit Marktanteil von rund 17 auf jeder der NYSE und NASDAQ. Knights Electronic Trading Group (ETG) verwaltete ein durchschnittliches tägliches Handelsvolumen von mehr als 3,3 Milliarden Trades täglich und handelte über 21 Milliarden Dollar täglich. Das ist kein Witz Am 31. Juli 2012 hatte Knight ungefähr 365 Millionen in Bargeld und Äquivalenten. Die NYSE hat am 1. August 2012 ein neues Retail-Liquidity-Programm eingeführt (ein Programm, das den Einzelhandelsanlegern durch Einzelhandelsmakler wie Knight am 1. August 2012 eine verbesserte Preisgestaltung ermöglicht. In Vorbereitung auf diese Veranstaltung hat Knight ihre automatisierte, hochgeschwindigkeitsalgorithmische Software aktualisiert Router, der Aufträge in den Markt für die Ausführung als SMARS bekannt sendet. Eine der Kernfunktionen von SMARS ist es, Aufträge von anderen Komponenten der Knights Trading-Plattform (übergeordnete Aufträge) zu erhalten und dann eine oder mehrere Kinderaufträge zur Ausführung zu senden. Mit anderen Worten, SMARS würde große Aufträge von der Handelsplattform erhalten und sie in mehrere kleinere Aufträge aufteilen, um ein Käufer-Match für das Volumen der Aktien zu finden. Je größer die übergeordnete Reihenfolge, desto mehr Kinderaufträge würden erzeugt. Das Update zu SMARS sollte den alten, unbenutzten Code, der als Power Peg-Funktionalität bezeichnet wird, ersetzen, den Knight in 8 Jahren nicht benutzt hatte (warum der Code, der seit 8 Jahren tot war, in der Codebasis noch vorhanden war, ist ein Rätsel, aber das ist Nicht der Punkt). Der Code, der aktualisiert wurde, hat eine alte Flagge umgestellt, die verwendet wurde, um die Power Peg-Funktionalität zu aktivieren. Der Code wurde sorgfältig geprüft und erwies sich als ordnungsgemäß und zuverlässig. Was könnte falsch gehen Was könnte Möglicherweise falsch gehen In der Tat Zwischen 27. Juli 2012 und 31. Juli 2012 Ritter manuell entfaltete die neue Software auf eine begrenzte Anzahl von Servern pro Tag acht (8) Server in allen. Dies ist, was die SEC-Einreichung über den manuellen Bereitstellungsprozess sagt (BTW, wenn es eine SEC-Anmeldung über Ihre Bereitstellung gibt, kann etwas schrecklich falsch gegangen sein). Während des Einsatzes des neuen Codes hat jedoch einer der Rittertechniker den neuen Code nicht auf einen der acht SMARS-Computer-Server kopiert. Knight hatte keinen zweiten Techniker, der diese Bereitstellung überprüfte und niemand bei Knight erkannte, dass der Power Peg-Code nicht vom achten Server entfernt worden war und der neue RLP-Code nicht hinzugefügt wurde. Ritter hatte keine schriftlichen Verfahren, die eine solche Überprüfung erforderten. SEC Filing Release Nr. 70694 16. Oktober 2013 Um 9:30 Uhr Eastern Time am 1. August 2012 eröffneten die Märkte und Knight begann im Auftrag ihrer Kunden Aufträge von Broker-Händlern für das neue Retail Liquidity Program zu verarbeiten. Die sieben (7) Server, die die korrekte SMARS-Implementierung hatten, begannen, diese Aufträge korrekt zu bearbeiten. Aufträge, die an den achten Server gesendet wurden, lösten die angeblich wiederverfügte Flagge aus und brachten den Toten den alten Power Peg Code zurück. Angriff der Killer-Code Zombies Es ist wichtig zu verstehen, was der tote Power Peg-Code zu tun war. Diese Funktionalität sollte dazu bestimmt sein, die Aktien bürgerlich gegen eine Elternordnung zu zählen, als Kinderaufträge ausgeführt wurden. Power Peg würde das System anweisen, die Befehlsaufträge zu stoppen, sobald die übergeordnete Bestellung erfüllt war. Grundsätzlich würde Power Peg die Kinderaufträge behalten und sie stoppen, sobald die übergeordnete Bestellung abgeschlossen war. Im Jahr 2005 hat Knight diese kumulative Tracking-Funktionalität zu einem früheren Stadium der Codeausführung bewegt und damit die Zählverfolgung von der Power Peg-Funktionalität entfernt. Als das Power Peg-Flag auf dem achten Server aktiviert wurde, fing die Power Peg-Funktionalität an, Kinderaufträge für die Ausführung zu leiten, aber war nicht die Verfolgung der Menge an Aktien gegen die übergeordnete Reihenfolge etwas wie eine endlose Schleife. 45 Minuten der Hölle Stellen Sie sich vor, was passieren würde, wenn Sie ein System hätten, das in der Lage wäre, automatisierte, schnell geschaltete Aufträge in den Markt zu schicken, ohne zu verfolgen, ob genug Aufträge ausgeführt worden sind. Ja, es war so schlimm. Als der Markt um 9:30 Uhr eröffnete, wussten die Leute schnell, dass etwas nicht stimmte. Um 9:31 Uhr war es für viele Leute an der Wall Street offensichtlich, dass etwas Ernstes passierte. Der Markt wurde mit Aufträgen aus dem ordentlichen für reguläre Handelsvolumina auf bestimmte Bestände überschwemmt. Um 9:32 Uhr waren viele Leute an der Wall Street gefragt, warum es nicht aufgehört hatte. Dies war eine Ewigkeit in High-Speed-Trading-Bedingungen. Warum hatte niemand den Kill-Switch auf was auch immer das System getan hat. Wie es sich herausstellt, gab es keinen Kill-Schalter. Während der ersten 45-minütigen Handelsrunden führten Ritterausführungen mehr als 50 des Handelsvolumens aus und trieben bestimmte Bestände über 10 ihres Wertes an. Infolgedessen verringerten sich andere Bestände im Wert auf die fehlerhaften Geschäfte. Um die Dinge noch schlimmer zu machen, begann das Knights-System, bereits früh um 8:01 Uhr (wenn SMARS Aufträge für den Pre-Market-Handel in Anspruch genommen hatte), automatisierte E-Mails zu senden. Die E-Mail-Nachrichten verweisen auf SMARS und haben einen Fehler als Power Peg deaktiviert. Zwischen 8:01 und 9:30 Uhr gab es 97 dieser E-Mails an Ritter Personal. Natürlich waren diese E-Mails nicht als Systemwarnungen konzipiert und deshalb sah sie niemand sofort an. Hoppla. Während der 45-Minuten der Hölle, die Ritter erlebt haben, versuchten sie mehrere Gegenmaßnahmen zu versuchen, die falschen Trades zu stoppen. Es gab keinen Kill-Switch (und keine dokumentierten Verfahren, wie man reagiert), so dass sie versuchten, das Problem in einem Live-Trading-Umfeld zu diagnostizieren, wo 8 Millionen Aktien jede Minute gehandelt wurden. Da sie nicht in der Lage waren zu bestimmen, was die falschen Aufträge verursacht, die sie durch die Deinstallation des neuen Codes von den Servern umgesetzt haben, wurde sie korrekt eingesetzt. Mit anderen Worten, sie haben den Arbeitscode entfernt und den gebrochenen Code verlassen. Dies verstärkte nur die Probleme, die zusätzliche übergeordnete Aufträge verursachten, um den Power Peg-Code auf allen Servern zu aktivieren, nicht nur der, der nicht korrekt eingesetzt wurde. Schließlich konnten sie das System nach 45 Minuten des Handels stoppen. In den ersten 45 Minuten war der Markt offen, der Power Peg Code erhielt und verarbeitete 212 Elternaufträge. Infolgedessen setzte SMARS Millionen von Kinderaufträgen in den Markt, was zu 4 Millionen Transaktionen gegen 154 Aktien für mehr als 397 Millionen Aktien führte. Für Sie Aktienmarkt-Junkies bedeutet dies, dass der Ritter etwa 3,5 Milliarden Netto-Long-Positionen in 80 Aktien und 3,15 Milliarden Netto-Short-Positionen in 74 Aktien angenommen. In Laien8217s Begriffe, Knight Capital Group realisiert einen 460 Millionen Verlust in 45 Minuten. Denken Sie daran, Ritter hat nur 365 Millionen in bar und Äquivalente. In 45-Minuten-Ritter ging von der größten Händler in US-Aktien und ein bedeutender Marktmacher in der NYSE und NASDAQ zu bankrott. Sie hatten 48 Stunden Zeit, um das notwendige Kapital zu erheben, um ihre Verluste zu decken (was sie mit einer Investition von 400 Millionen aus rund einem halben Dutzend Investoren zu tun hatten). Knight Capital Group wurde schließlich von Getco LLC (Dezember 2012) erworben und das fusionierte Unternehmen heißt jetzt KCG Holdings. Eine Lektion zum Lernen Die Ereignisse vom 1. August 2012 sollten eine Lehre für alle Entwicklungs - und Operations-Teams sein. Es ist nicht genug, um große Software zu bauen und zu testen, die Sie auch sicherstellen müssen, dass es geliefert wird, um korrekt zu vermarkten, damit Ihre Kunden den Wert erhalten, den Sie liefern (und damit Sie Ihr Unternehmen nicht bankrottieren). Die Ingenieure, die SMARS eingesetzt haben, sind nicht nur die Schuld daran, dass der Prozess, den Ritter eingerichtet hatte, nicht für das Risiko geeignet war, dem sie ausgesetzt waren. Darüber hinaus war ihr Prozess (oder dessen Fehlen) anfällig für Fehler. Jedes Mal, wenn Ihr Deployment-Prozess auf Menschen Lesung und nachfolgende Anweisungen, die Sie sich ausgesetzt sind, riskieren. Menschen machen Fehler. Die Fehler könnten in der Anweisung, in der Auslegung der Anweisungen oder in der Ausführung der Anweisungen sein. Deployments müssen automatisiert und wiederholbar und frei von möglichen menschlichen Fehlern wie möglich sein. Hatte Knight ein automatisiertes Bereitstellungssystem implementiert, das mit der Konfiguration, dem Einsatz und der Testautomatisierung kompatibel ist, ist der Fehler, der die Knightmare verursacht hätte, vermieden. Ein paar der Prinzipien für Continuous Delivery gelten hier (auch wenn Sie nicht einen vollständigen Continuous Delivery Prozess implementieren): Freigeben von Software sollte ein wiederholbarer, zuverlässiger Prozess sein. Automatisieren Sie so viel wie vernünftig Ein Szenario: Nehmen wir an, sie hatten sehr gute DevOps. Also alle Server würden synchron sein. Aber 8211 davon ausgehen, dass der neue Code einen Bug hatte. Also alle Server sind synchron, haben aber den gleichen Buggy Code. Was, wenn zwei Versionen des Codes, d. h. die letzten 2 Bereitstellungen hatte diesen Fehler. Also, sobald sie merken, dass etwas nicht stimmt, holt sie den Code zurück, der Bug ist immer noch still8230 Kostbare Minuten sind vergangen. Vielleicht 20 Minuten statt der 45 Minuten in deinem Artikel. Also in kurzen 8211 ihre Katastrophe Kill-Switch ist ein Code-Rollback-Einsatz in einer Live-Umgebung. Das wäre noch ein defektes Design. Was sie brauchen würde, wäre ein großer roter Schalter (fast wörtlich, irgendwo im Armaturenbrett), um sofort zu stoppen. Wo ist die Geschäftsregel, die sagt, dass es keinen Schaden gibt. VJ, wenn die Bereitstellung auf alle Server gearbeitet hatte, wäre es ok gewesen Aber in diesem Fall wurden 7 von 8 für ein Subsystem korrekt eingesetzt. Weil das schlechte Verhalten, sie rollten die anderen 7 Denken der neue Code in diesem Subsystem war das Problem. Das vervielfachte das Problem bis zum eventuellen Kill-Schalter. Katastrophen sind fast immer komplex In diesem Fall waren es schlechte Codierungspraktiken, plus fragwürdige Testcode-Inspektionspraktiken sowie ein Fehler bei der Bereitstellung sowie ein Rollback bei der Granularität des Subsystems und nicht für das gesamte System. Wenn du irgendwelche dieser Probleme beheben wirst, bekommst du eine Katastrophe. Eines der Dinge, die ich in Unternehmen gesehen habe, die die wahre Bedeutung und die Auswirkungen ihrer IT-Systeme nicht erkennt, ist, dass sie das Budget für Legacy-Code-Updates bieten. Zum Beispiel: I8217ve gesehen Situationen, in denen IT kein Budget hat. Es muss alles rechtfertigen, was es gegen einen Geschäftsaufwand macht. Das bedeutet immer wieder, um neue Projekte aufzurichten. Business sieht selten die Notwendigkeit, alte Software zu aktualisieren, die gerade arbeitet, also weigern sie sich dafür zu bezahlen. Das Ergebnis ist ein konstanter neuer Code, der von den günstigsten Codern möglich gemacht wird, während er nicht in die Technologien investiert, die letztlich die Leistung verbessern und das Risiko verringern würden. Warum, weil diese als 8220IT Probleme8221 gesehen werden und nicht die Einschätzung von was auch immer Projekt die IT-Leute arbeiten, so wird niemand dafür bezahlen. Ein toller Bericht über diese Praxis ist das Phoenix-Projekt von Gene Kim, Kevin Behr und George Spafford. Vielen Dank für die Anwendung des Gehirns auf den Hype. Wahrscheinlich sollte man fragen, warum die beteiligten Techniker die Schuld annehmen wollten, aber sie wurden nicht berechtigt, den eigenen Sender zu töten. Oh, genau das, warum hast du opsSRE sowieso an Ort und Stelle gesetzt. 8220R8221 ist für verantwortlich, aka Flammenköder. Ich habe ein bisschen über dieses Ereignis geschrieben, und ich würde jeden empfehlen, den SEC-Bericht als alles andere zu verwenden, als für das, was die SEC es brauchte. Kitchensoap20131029counterfactuals-Ritter-Hauptstadt Faszinierende lesen. Ich arbeitete an einem großen Auktionshaus für Obst und Gemüse einmal, wo eine neue Software-Version installiert und gescheitert war, was zu großen Verlusten an die Händler (wenn auch nicht so massiv wie diese). Auch dies war ein Fall von unsachgemäßem Einsatz und kein Rückfall. Die Lektion, die gelernt wird, ist, dass es Domains gibt, in denen Computer keine Entscheidung ohne menschliche Validierung treffen sollte. Was ist mit den Leuten, die ihre Arbeit verloren haben, weil, oops, da war ein Bug Was ist mit den anderen Firmen, die vielleicht in Trubble wegen der plötzlichen Änderung der Aktienwert Automation von 8220high Ebene Entscheidungen8221 ist zu behandeln sorgfältig8230 Nizza und pädagogischen Post Btw. Mit dem Cynefin-Framework bietet eine bessere Charakterisierung dieses 8216DevOps8217 Ausfalls Dieser Beitrag scheint aus einer DevOps-Perspektive geschrieben worden zu sein. Die vorgeschlagenen Lösungen sind im Einklang mit einer DevOps-Perspektive 8211 untersuchen den Release-Prozess, automatisieren mehr und Handwerk ein Kill-Switch mit Rollback-Fähigkeiten. Jemand kann die Post lesen und legte zu viel Wert auf den Rittertechniker, der den alten Code nicht auf einen der acht Server kopierte. Jemand kann eine Ursache - und Wirkungsbeziehung überschreiten. Jemand kann auf neue Regeln hineinstecken, um dies zu veranlassen, jemals wieder aufzutreten.8217 Ein stärkerer Ansatz kann investieren: 8211 Erhöhung der Vielfalt, um die Situation zu analysieren und bessere Möglichkeiten zu synthetisieren 8211 Verbessern Sie die Kommunikation zwischen den Spezialitäten 8211 Verbessern Sie die implizite Koordination zwischen den Spezialitäten 8211 Rekrutieren Sie Personen mit mehr Know-how zu schreiben und zu überprüfen Code Ein wichtiger Faktor, dass die Verbesserung der Fähigkeit des Teams von neun Jahren vor dem erheblichen Fehler Ereignis war falsch charakterisieren das System. In einem Cynefin-Framework verknüpft dieses Fehlen eines DevOps-Problems das System mit der Domäne 8220Obvious8221, wo es einfache Ursachen - und Wirkungsbeziehungen gibt, die von 8216professionals erkannt werden.8217 Der Fehler sollte nicht mit der Cynefin 8220Complicated8221 Domäne verknüpft werden, wo eine signifikante Analyse vorliegt Von 8216spezialisten8217 hätte das versagen verhindert Das System sollte mit der Cynefin 8220Complex8221 Domäne 8211 ein komplexes adaptives System verknüpft werden. Das System ist dispositional. Die gleichen Anfangsbedingungen werden nicht das gleiche Versagen (außer durch Unfall). Für weitere Informationen über Cynefin, besuchen Sie en. wikipedia. orgwikiCynefin und CognitiveEdge. Ich schätze Ihre Hervorhebung der stillschweigenden Faktoren in einer solchen Katastrophe. Wie der Autor arbeite ich auch in Operationen, und es ist leicht, in die gleichen alten Gedankenmuster auf Ursachen und Lösungen zu fallen. Ich freue mich besonders auf die Vielfalt (die in allen Formen kommt: Erfahrungsstufen, kulturelle und pädagogische Hintergründe, Skillsets, Alter usw.), wie ich denke, das ist ein starker Fahrer hinter dem Erfolg von DevOps selbst. Mit einer Vielzahl von Perspektiven, sowohl innerhalb als auch ohne Ihr Team, Blick auf Ihr Projekt hat ein starkes, nachweisbares Potenzial und kann helfen, Eindringlinge wie die, die in diesem Artikel aufgewachsen. Gt Warum Code, der seit 8 Jahren tot war, war noch in der Codebasis vorhanden, ist ein Mysterium, aber das ist nicht der Punkt Im Gegenteil, das ist genau der Punkt. Code mit unbenutzten und daher ungetesteten Konfigurationsmöglichkeiten ist eine Katastrophe, die darauf wartet zu passieren. Dies ist der Grund, warum I8217m sehr skeptisch über Feature-Flag-basierte Ansätze im Allgemeinen. Konfiguration ist so viel ein Teil Ihres Programms wie Code ist, und Konfigurationsänderungen sollten durch den gleichen Lebenszyklus gehen 8211 ziehen Anforderung, Code-Überprüfung, Release, Bereitstellung auf Staging 8211 wie jede andere Änderung. Wenn Ihr Release-Prozess zu schwer ist und Sie müssen schnell konfigurieren Änderungen an der Produktion, beheben Sie Ihre Release-Prozess. Es gab zu viele Fehler, um das epische Versagen nur DevOps zuzuschreiben (obwohl ich voll und ganz zustimme, dass Automatisierung und Test ist der einzige Weg): 8211 Keine Teamarbeit und Checklisten bei einem Update auf Produktionsservern. Jede Aktualisierung auf Produktion sollte ein Team über einander beobachten, und durch eine Checkliste. 8211 8 Jahre unbenutzter alter Code in Produktion. Das erzählt Ihnen viel über den Mangel an Verständnis über die Risiken der baumeln 8220unused8221 Code. 8211 Unzureichende Protokollierung aus dem Code und unzureichende Echtzeit-Protokollüberwachung, Korrelation und Analyse. Das hätte genügend Anhaltspunkte für die Ingenieure und Ops-Leute gegeben. 8211 Kein Hot-Hot-Failover zu einem Cluster mit der vorherigen Version. Das hätte nach 1 oder 2 Minuten alle Probleme aufgegeben. (Das ist der Fehler rote Taste, die der Artikel erwähnt) Wenn Sie auch schon seit langem Software, Systeme und Unternehmen architektonisch kennengelernt haben, wissen Sie, dass manche Bugs nur in der Wildnis gefangen werden und nicht während der Simulationen, genau wie Sie Die Maschinen werden nach unten gehen. Sie müssen sich in beiden Szenarien auf den schlimmsten Fall vorbereiten. Murphy8217s Gesetz ist so wahr in unserer Welt I8217ve gewesen in dem, was jetzt genannt wird der 8220DevOps8221 Raum für fast 20 Jahre, mehr als die Hälfte davon in der Finanzwelt. Ritter war sowohl ein Verkäufer als auch ein Konkurrent des Unternehmens, für das ich zurzeit arbeite. Bereitstellungsautomatisierung könnte geholfen haben. Könnte sein. Aber nur wenige Unternehmen können sich genau doppelte Umgebungen leisten, und dies wurde im Wesentlichen durch Umweltunterschiede verursacht. Auch eine automatisierte Validierung des Einsatzes hätte in diesem Fall nicht geholfen, wenn die Automatisierung nicht über den Umweltunterschied informiert hätte. Automatisierung ist nur so gut wie das Wissen der Leute, die es aufstellen. Wenn eine manuelle Installation nicht auf das alte System aufmerksam geworden wäre, dann gibt es eine gute Chance, dass das automatisierte System es auch nicht gewollt hat. Automatisierung eines Rollbacks ist auch nur so gut wie die Entscheidungsfindung, ob man den Roll-back machen soll. Und wenn die Automatisierung das alte System unbeabsichtigt gestartet hat, gibt es auch keine Garantie dafür, dass das Umschalten des zeitgenössischen Systems zurückgegangen wäre, das alte System 8211 hätten Sie auch nach einem automatisierten Rollback des zeitgenössischen Systems mit demselben Problem enden können. Das bringt mich zu einem letzten Punkt: Automatisierung ist eine Voraussetzung in großen, modernen Umgebungen. Aber über-Vertrauen auf sie kann zu den Leuten führen, die das System betreuen, das nicht bewusst ist, was it8217s tut. Automatisierung ist für die Validierung am nützlichsten, denn die Validierung der Dinge ist korrekt durchgeführt ist langweilig und einfach zu skimp auf, wenn manuell durchgeführt. Auch bei der Automatisierung, mit menschlichen Pausen oder menschlich betriebenen Schritten hilft sicherzustellen, dass diejenigen, die das System betreiben, das System kennen und wie es funktioniert, erheblich verbessert ihre Fähigkeit, Probleme zu beheben, Probleme zu diagnostizieren und geeignete Vorschläge zu machen, welche Schritte zu ergreifen Stoppen oder mildern ein Problem. Automatisierung ist ein Werkzeug, aber es ist nur ein Werkzeug, und es bedarf noch eines Handwerkers, um es entsprechend auszuführen. Kompetenz ist das, was macht und hält große Systeme großartig. Hat diesen Eintrag auf Garrett S. Y. Hampton gerebloggt und kommentiert: Incredible. DevOps sehen, dokumentieren und überprüfen Sie Ihre Bereitstellungen

Comments

Popular posts from this blog

Multi Optionen Allgemein Handel Llc Dubai

Forum Handel Emas Online

Gps Forex Roboter 2 Bewertungen