Ripensare l'affidabilità: cosa puoi (e cosa non puoi) imparare dagli incidenti

Blog

CasaCasa / Blog / Ripensare l'affidabilità: cosa puoi (e cosa non puoi) imparare dagli incidenti

Jun 30, 2023

Ripensare l'affidabilità: cosa puoi (e cosa non puoi) imparare dagli incidenti

Presentazioni sulla home page di InfoQ Ripensare l'affidabilità: cosa si può (e cosa non si può) imparare dagli incidenti Courtney Nash parla della ricerca raccolta dal VOID, sfidando le pratiche standard del settore per

Presentazioni sulla home page di InfoQ Ripensare l'affidabilità: cosa si può (e cosa non si può) imparare dagli incidenti

Courtney Nash parla della ricerca raccolta dal VOID, che mette in discussione le pratiche standard del settore per la risposta e l'analisi degli incidenti, come il monitoraggio dell'MMTR e l'utilizzo della metodologia RCA.

Courtney Nash è una ricercatrice focalizzata sulla sicurezza dei sistemi e sui guasti nei sistemi sociotecnici complessi. È sempre stata affascinata dal modo in cui le persone apprendono e dal modo in cui la memoria influenza il modo in cui risolvono i problemi. Negli ultimi vent'anni ha ricoperto diversi ruoli editoriali, di gestione dei programmi, di ricerca e di gestione presso Holloway, Fastly, O'Reilly Media, Microsoft e Amazon.

QCon Plus è una conferenza virtuale per ingegneri e architetti software senior che copre le tendenze, le migliori pratiche e le soluzioni sfruttate dalle organizzazioni software più innovative del mondo.

Prendi le decisioni giuste scoprendo in che modo gli sviluppatori software senior delle aziende early adopter stanno adottando le tendenze emergenti. Iscriviti ora!

Nash: Sono Courtney Nash. Sono qui per parlarvi di come ripensare l'affidabilità, di cosa possiamo e non possiamo imparare dalle metriche degli incidenti. Sono un bibliotecario Internet per gli incidenti presso Verica. Sono un ricercatore con una lunga esperienza in un sacco di posti diversi. Studiavo il cervello. Penso che le mountain bike siano la tecnologia più interessante che abbiamo mai inventato.

Sono qui per parlarti di questa cosa che ho creato chiamata VOID. Il database degli incidenti Verica Open è un luogo in cui i rapporti sugli incidenti pubblici relativi al software vengono raccolti e resi disponibili a chiunque. Il nostro obiettivo è aumentare la consapevolezza e la comprensione dei guasti basati sul software al fine di rendere Internet un luogo più resiliente e sicuro. Perché ce ne preoccupiamo? Perché da tempo il software è andato oltre l’hosting di immagini di gatti online per gestire trasporti, infrastrutture e hardware nei sistemi sanitari e dispositivi nei sistemi di voto e nei veicoli autonomi. Si prevede che questi moderni sistemi online funzionino 24 ore su 24, 7 giorni su 7, 365 giorni all'anno. Le crescenti pressioni con cui tutti voi avete a che fare, combinate con modelli software di servizi interconnessi sempre più automatizzati che funzionano nel cloud, hanno accelerato la complessità di questi sistemi. Come probabilmente già saprai, per esperienza diretta, quando questi sistemi complessi falliscono, falliscono in modi inaspettati e caotici. Tutti abbiamo degli incidenti. Sì, è un incendio nel cassonetto con un drago che dà fuoco a un vulcano. Penso che quello che affronti sia più simile a Calvin e Hobbes, dove c'è come un mostro sotto il letto e non sei mai sicuro di quando verrà fuori.

Il punto veramente importante è che l’industria tecnologica dispone di un immenso corpus di conoscenze mercificate che potremmo condividere per imparare gli uni dagli altri e promuovere la resilienza e la sicurezza del software. Se sei scettico al riguardo, lo capisco, potresti esserlo. C'è un precedente storico per questo. Non è il nostro settore, è un settore diverso. Negli anni ’90, negli Stati Uniti, la nostra industria aeronautica era in crisi, avevamo un record orribile in termini di sicurezza. Si verificavano regolarmente incidenti significativi con conseguenze elevate. L’industria collettivamente e dal basso ha deciso di riunirsi e provare a fare qualcosa al riguardo. Inizialmente una serie di piloti provenienti da diverse compagnie aeree si sono riuniti e hanno iniziato a condividere i dati sugli incidenti. Hanno iniziato a condividere le loro storie e i modelli di ciò che vedevano. Alla fine, altri settori dell'industria si sono uniti, gli organismi di regolamentazione, i controllori del traffico aereo, un numero enorme di persone sono state coinvolte per condividere i loro incidenti e trovare punti in comune e modelli. Nel corso di questa attività, e ovviamente di altre attività, il livello di sicurezza del nostro settore aereo è aumentato notevolmente. In effetti, non abbiamo avuto incidenti significativi finché non sono accadute alcune delle cose del Boeing MAX degli ultimi anni. È possibile farlo da zero come professionisti prima ancora che arrivassero gli addetti alla regolamentazione. È importante.