שאלה 100% uptime עבור יישום אינטרנט


קיבלנו "דרישת" מעניינת מלקוח היום.

הם רוצים 100% uptime עם מחוץ לאתר כשל על יישום אינטרנט. מנקודת המבט של יישום האינטרנט שלנו, זו אינה בעיה. זה נועד להיות מסוגל להרחבת על פני שרתי מסדי נתונים מרובים, וכו '

עם זאת, מתוך בעיה ברשת אני פשוט לא מצליח להבין איך לגרום לזה לעבוד.

בקיצור, היישום יחיה על שרתים בתוך הרשת של הלקוח. הוא נגיש על ידי אנשים פנימיים וחיצוניים כאחד. הם רוצים שנשמור על עותק מחוץ לאתר של המערכת, כי במקרה של כישלון חמור בחצרים שלהם מיד להרים להשתלט.

עכשיו אנחנו יודעים שאין שום דרך לפתור את זה עבור אנשים פנימיים (יונה הספק?), אבל הם רוצים את המשתמשים החיצוניים אפילו לא שם לב.

למען האמת, אין לי מושג מעורפל איך זה אפשרי. נראה כי אם הם מאבדים קישוריות לאינטרנט אז היינו צריכים לעשות שינוי DNS כדי להעביר את התנועה אל מכונות חיצוניות ... אשר, כמובן, לוקח זמן.

רעיונות?

עדכון

היה לי דיון עם הלקוח היום והם הבהיר בנושא.

הם תקועים על ידי 100% מספר, אומר היישום צריך להישאר פעיל גם במקרה של שיטפון. עם זאת, דרישה זו רק בעיטות אם אנו לארח אותו עבורם. הם אמרו שהם יטפלו דרישת uptime אם היישום חי לחלוטין על השרתים שלהם. אתה יכול לנחש את התגובה שלי.


310
2017-09-29 00:31




Dont להמעיט את זמן ההשבתה העצום שנגרם על ידי פריצה, להסתכל על סוני ברשת פלייסטיישן. אתה יכול להבטיח להם את אותו רעיון 100% uptime ואת הכסף / חומרה לגבות אותו. להבהיר עם הלקוח כי uptime 100% היא ציפייה בלתי אפשרי, אפילו techs גוגל יהיה מהסס למלמל "100% uptime". A btw רמז היא להסתכל לתוך באמצעות DNS דינמי, הם רק מטמון למשך 60 שניות, זה צריך לכלול OS שרתי DNS מקומיים. - Silverfire
אני אישית הפעל מלקוח זה מהר ככל האפשר. אני חושד שזה לא יהיה רעיון מטורף האחרון שלהם (מבחינה טכנולוגית). - GregD
הלוואי שיכולתי להקטין את הלקוח שלך. - joeqwerty
אם אתה מבין 100% uptime תודיע לי. אני יהיה ליצור עסק עם זה ולמכור אותו ל- Google. זה בלתי אפשרי להבטיח 100%. גם חברות כמו מיקרוסופט, אמזון או גוגל לא ילך כי גבוה כי הם יודעים שזה בלתי אפשרי. הטוב ביותר שראיתי הוא 99.999% ואפילו זה קטע (5 דקות בשנה). הטוב ביותר שאתה יכול לעשות הוא 99.99% אמין. - Matt
רק לפצות תג מחיר גבוה בטירוף לשים על הבקשה המטורפת שלהם. זה כנראה יחזיר אותם אל החושים שלהם. או, או שזה ישלח אותם לחפש מישהו מוכן לשקר להם. - Nate C-K


תשובות:


הנה ויקיפדיה's תרשים שימושי של רדיפה של תשע:

enter image description here

מעניין, רק 3 מתוך 20 האתרים המובילים היו מסוגלים להשיג את 5 המיתיות או 99.999% uptime בשנת 2007. הם היו Yahoo, AOL, ו Comcast. ב 4 החודשים הראשונים של 2008, חלק ביותר רשתות חברתיות פופולריות, אפילו לא התקרב לזה.

מן התרשים, זה צריך להיות ברור עד כמה מגוחך רדיפה של uptime 100% הוא ...


363
2017-09-29 01:03



Pingdom גם לא בודק כל שנייה. נוסף על כך, אלה שעשו חמשת נינים סביר עדיין היו שיבושים מקומיים כי Pingdom אולי לא זיהה, או תקלות שהפכו חלק מהשירותים זמין עדיין בעת ​​להגיב pings. - ceejayoz
אשר כשלעצמו עושה את חמשת Nines מפוקפק ... - GregD
בדיוק. ויש להם מיליארדי דולרים לעבוד איתם! - ceejayoz
מצטער להפריע לשיחה קורה, אבל השאלה של OP היה איך ללכת על שאיפה לקראת המטרה של uptime 100% ברמה הטכנית לא מושגית, אני בטוח שהוא יודע שזה לא תמיד אפשרי בגלל המופעים הטבעיים שקורים חומרה ואת הסביבה. האם נוכל לעזור לו בכך? - David d C e Freitas
כדי OP: ראיתי SLAs כי מובטחת uptime בהקשר של "מחוץ לתחזוקה רגילה". התחזוקה הרגילה של הקורס להיות קבועה זמן ההשבתה לחודש עבור עדכונים, תיקונים, וכו ', כי בדרך כלל מתרחשים ביום העמוס שלהם לפחות של החודש בשעות הפחות עמוס של החודש (בדרך כלל באמצע הלילה). הם חייבים להיות איזה סוג של ערכים עבור העסק שלהם לגבי העסק. אתה יכול להציע uptime טוב יותר (4 nines) עבורם רק באותם זמנים. - GregD


שאל אותם להגדיר 100% וכיצד הוא יימדד על פני איזה פרק זמן. הם כנראה מתכוון קרוב ל 100% כפי שהם יכולים להרשות לעצמם. תן להם את costings.

לפרט. אני כבר בדיונים עם לקוחות לאורך השנים עם דרישות מגוחך כביכול. בכל המקרים הם פשוט השתמשו בשפה לא מדויקת מספיק.

לעתים קרובות הם מסדרים דברים בדרכים שנראות מוחלטות - כמו 100%, אבל למעשה, על חקירה עמוקה יותר הם סבירים מספיק כדי לעשות את עלות / תועלת הניתוחים הנדרשים כאשר הציג עם costings כדי לצמצם נתונים הסיכונים. לשאול אותם איך הם יוכלו למדוד את הזמינות היא שאלה מכרעת. אם הם לא יודעים את זה אז אתה במצב שבו יש להציע להם כי זה צריך להגדיר הראשון.

הייתי שואל את הלקוח כדי להגדיר מה יקרה מבחינת ההשפעה העסקית / עלויות אם האתר ירד בנסיבות הבאות:

  • בשעות העמוס ביותר שלהם עבור x שעות
  • בשעות הפחות עסוקות שלהם עבור שעות x

וגם איך הם מודדים את זה.

בדרך זו אתה יכול לעבוד איתם כדי לקבוע את הרמה הנכונה של "100%". אני חושד על ידי שואל שאלות כאלה הם יוכלו לקבוע טוב יותר את דרישות אחרות "סדרי עדיפויות. לדוגמה הם עשויים לרצות לשלם רמות מסוימות של צד"ל ופשרה פונקציונליות אחרים כדי להשיג זאת.


186
2017-09-29 09:45



מוסכם. הם יכולים רק מתכוון "גבוה מאוד" uptime (90s העליון?) עם אסטרטגיה מוצקה כשל. אם לא, אז הסבר על סולם העלות מעורב בתקווה לשכנע אותם ... - Martin Dow
+1 עבור לא לקפוץ למסקנות, ובמקום רק שואל את הלקוח כדי להסביר מה הם צריכים לזכור. - sleske
אני מהדהד את "לא לקפוץ למסקנות" הצהרה ... אם הלקוח מתכוון uptime 100% (מינוס תחזוקה מתוזמנת) אז זה מאי להיות יותר של דרישה סבירה. - Tim Reddy
לגבי ההשפעה העסקית, אנחנו למעשה יודעים ולהבין את העסק שלהם לחלוטין את העלויות הכרוכות באתר יורד אינם פיננסיים. יותר לאורך השורות של הילידים להופיע עם קלשונים, תלויות פוטנציאל, וכו ';) רק לדמיין 40,000 אנשים להופיע ליד הדלת שלך לצרוח. זה מה שהם רוצים להימנע עם תשוקה. - NotMe
@ChrisLively כל סיבה נוספת יש הבנה בוגרת של הסיכון אז. הפרדיגמה הדומיננטית להנדסת בטיחות היא הערכת סיכונים הסתברותית. ישנן מערכות שעלולות להרוג (לא רק לעצבן) אלפי אנשים, והם עדיין יש סבירות נמוכה, מקווים היטב, אבל לא אפס של כישלון. - poolie


הלקוחות שלך הם משוגעים. 100% uptime הוא בלתי אפשרי לא משנה כמה כסף אתה מוציא על זה. פשוט ופשוט - בלתי אפשרי. תסתכל על גוגל, אמזון, וכו 'יש להם כמעט כמויות אינסופיות של כסף לזרוק על התשתית שלהם, ובכל זאת הם עדיין יש זמן השבתה. אתה צריך להעביר את המסר הזה אליהם, ואם הם ממשיכים להתעקש שהם מציעים דרישות סבירות. אם הם לא מזהים את זה כמה כמות ההשבתה היא בלתי נמנעת, ואז לזרוק אותם.

עם זאת, נראה שיש לך את המכניקה של קנה המידה / הפצה של היישום עצמו. חלק הרשת יהיה צורך לערב uplinks מיותרים ספקי שירותי אינטרנט שונים, מקבל הקצאת ASN ו- IP, ואת מקבל צוואר עמוק ב BGP וציוד ניתוב אמיתי, כך מרחב כתובת ה- IP יכול לנוע בין ספקי שירותי אינטרנט, אם יהיה צורך.

זו, בהחלט, תשובה קצרה מאוד. לא היה לך ניסיון עם יישומים הדורשים את זה ברמה של uptime, אז אתה באמת צריך לקבל מקצועי מעורב אם אתה רוצה להגיע לכל מקום קרוב uptime המיתי 100%.


141
2017-09-29 00:39



מוסכם. לגמרי. מטורף. - jdw
הם נהגו ?? - Sirex
@Sirex בהתייחסו לניסוי שנערך לאחרונה ב- CERN, שבו נמצא נויטרינו לנסוע מהר יותר מאשר אור. תוצאות עדיין לא אושר על ידי מדענים עצמאיים אף. - TC1
@ TC1 אני מוכן להתערב איתך 200 $ זה לא פאן החוצה. - dpatchery
@ErikA בקשה עבור uptime 100% מעיד על בורות של מאפיינים טכניים של מערכות. זה בסדר, כי העבודה של הלקוח עושה מה שהם עושים. התפקיד שלך הוא להנדס מערכות IT. לקוחות קשים כמו זה יכול להיות סיוטים, אבל הם יכולים גם להפוך את הלקוחות הטובים ביותר שלך. - duffbeer703


ובכן, זה בהחלט מעניין. אני לא בטוח שאני רוצה לקבל את עצמי מחוייב חוזית 100% uptime, אבל אם הייתי צריך אני חושב שזה ייראה משהו כזה:

התחל עם IP ציבורי על איזון עומס לחלוטין מחוץ לרשת ולבנות לפחות שניים מהם, כך אחד יכול להיכשל על אחרים. תוכנית כמו Heatbeart יכול לעזור עם כשל אוטומטי של אלה.

לכה ידוע בעיקר בתור פתרון במטמון אבל זה עושה קצת איזון עומסים הגון גם כן. אולי זה יהיה בחירה טובה להתמודד עם איזון עומסים. זה יכול להיות מוגדר כדי להיות 1 n backends אופציונלי מקובצים במאים אשר יטען איזון או באופן אקראי או עגול רובין. לכה יכול להיעשות חכם מספיק כדי לבדוק את בריאותו של כל סוף גב ולפגוע בריא מסתיים בחזרה של הלולאה עד שזה חוזר באינטרנט. Backenders לא צריך להיות על אותה רשת.

אני די מאוהבת ב- IP של הגמישות של אמזון EC2 בימים אלה, כך שהייתי כנראה בונה את בלנסי העומס שלי ב- EC2 באזורים שונים או לפחות באזורי זמינות שונים באותו אזור. זה ייתן לך את האפשרות של ידני (חס וחלילה) ספינינג איזון עומס חדש אם היית צריך להעביר את הקיים IP הרשומה לתיבה החדשה.

לכה לא יכול להפסיק SSL, אם כי, אם זה חשש ייתכן שתרצה להסתכל על משהו כמו Nginx במקום.

אתה יכול לקבל את רוב backends שלך ברשת הלקוחות שלך אחד או יותר מחוץ לרשת שלהם. אני מאמין, אבל אני לא בטוח 100%, כי אתה יכול לתעדף backends כך מכונות הלקוחות שלך יקבלו עדיפות עד אז כמו כולם הפך בריא.

זה המקום שבו הייתי מתחיל אם היתה לי משימה זו ללא ספק לחדד את זה כמו שאני הולך יחד.

עם זאת, כמו @ אריקה מדינות, זה באינטרנט ותמיד יהיו חלקים של הרשת כי הם מחוץ לשליטה שלך. אתה רוצה לוודא המשפטי שלך רק קשרים אותך עם דברים הנמצאים תחת שליטה שלך.


54
2017-09-29 00:47



במשך זמן מה חשבתי על אמזון ועל MS עבור פריסת ענן אבל שניהם היו הפסקות הגדולות בחודשים האחרונים. SSL הוא קריטי. - NotMe
אם אתה הולך להשתמש אמזון, אתה בהחלט רוצה להפיץ את המכונות שלך סביב 5 אזורי זמינות. זה די סביר כי כל אזורי שלהם היו יוצאים בו זמנית. - jdw
+1 עבור למעשה פונה השאלה העיקרית של OP. - Phil
אתה תמיד תהיה נקודה של כישלון, jdw, כל עוד יש דבר לא מופץ בשרשרת (במקרה שלך פעימת הלב, אלא אם כן יש לך מקרים מרובים של כי פועל על מכונות מרוחקות כל ניטור זה לזה, כמו גם שלך שרתים, אשר כל אחד מהם עשוי או לא יכול לראות בגלל בעיות רשת לאורך הניתוב). מה שמביא אותנו "ההשבתה". השרתים עשויים להיות ולהפעלתו עדיין לא זמין ללקוח ללא פעימות לב פעם לגלות את זה אם הכישלון הוא לא נתיב ניתוב. - jwenting
מוסכם. כמו כל אחד אחר ציין, אין דבר כזה uptime 100%. כל מה שאתה יכול לעשות הוא לנסות את מה שתיארתי הוא איך הייתי מתחיל לנסות. - jdw


אין בעיה - מעט מתוקן החוזה ניסוח למרות:

... להבטיח uptime של 100% (מעוגלים אפס מקומות עשרוניים).


29
2017-09-29 10:13



+1 לציון, כי 100% אינו 100,0% או 100,000% וכו 'ספרות עשרוניות משנה, הם מצביעים על דיוק;) - Danubian Sailor
לפי כמה מוסכמות, "100%" יש רק דמות אחת משמעותית, כך שכל המספרים בין חצי ואחד יסתובבו ל "100%"; 50% היו עגולים ל 100%. - Thomas Levine
בהתאם תקן לספור כמה יגידו כי 50% יש שני מספרים meningfull שבו 100% יש שלושה מספר מיינינג. 50,5 ו 100 נמצאים שם בדיוק כמו מדויק. אחרים יספרו ספרות לאחר הנקודה העשרונית. אז 50,5 ו 100,4 יהיה בדיוק כמו מדויק. אם שום דבר אחר אמר הייתי מניח כי 100% הוא 99,5% ומעלה. 100,0% הוא 99.95% ומעלה. - Tillebeck


להוסיף התשובה של אוקונור חדשות האקר

אני לא מבין מה הבעיה. הלקוח רוצה אותך לתכנן אסון, והם לא מתמטיקה בכיוון, כך לבקש הסתברות 100% נשמע סביר. המהנדס, כמו מהנדסים נוטים לעשות, זכר את היום הראשון של prob & stat 101, מבלי להתחשב כי הלקוח לא יכול. כשהם אומרים את זה, הם לא חושבים על החורף הגרעיני, הם חושבים על פרד זורק את הקפה שלו על שרת המשרד, דיסק מתרסק, או ISP יורד. יתר על כן, אתה יכול להשיג זאת. עם שרתים עצמאיים מבחינה גיאוגרפית, עצמאית, ניטור עצמי, אתה בעצם אין זמן ההשבתה. עם 3 שרתים הפועלים באמינות עצמאית (1) של 3, עם מצבי כשל טובים, זמן ההשבתה הצפוי שלך הוא מתחת לשנייה בשנה (2). גם אם זה קורה בבת אחת, אתה עדיין בתוך סביר SLA עבור חיבורי אינטרנט, ולכן ההשבתה כמעט אינו קיים. הלקוח עדיין צריך להתמודד עם תרחישי יום הדין, אבל גודזילה נשלל, יהיה לו שירות כי הוא "תמיד" למעלה.

(1) שרת בלוס אנג 'לס היא עצמאית באופן סביר מן השרת בבוסטון, אבל כן, אני מבין כי יש כמה צומת מעורבים מלחמה גרעינית, האקרים סינים מתרסק את רשת החשמל, וכו' אני לא חושב הלקוח שלך יהיה כועס על ידי זה.

(2) כשל ב- DNS עשוי להוסיף מספר שניות. אתה עדיין בתרחיש שבו הלקוח צריך לנסות שוב בקשה פעם בשנה, שהיא, שוב, בתוך סביר SLA, ולא נחשב בדרך כלל באותו עורק כמו "השבתה". עם יישום באופן אוטומטי reroutes לצומת זמין על כישלון, זה יכול להיות unnoticeable.


25
2017-09-30 15:49



הבעיה היא שהם אומרים את זה בחוזה- ese. כלומר, אם אסון עושה להתרחש ואתה צריך יותר מעשר שניות כדי לקחת את האתר בחזרה באינטרנט באמצעות גיבויים שהם היו עומדים לתבוע. - Shadur
@ Shadur: אם הם באמת רוצה את זה, אז אתה חייב באמת לחייב אותם. להפיץ את השרתים גיאוגרפית רחוק ורחב, בתקווה לא יהיה אסון בכל מקום. - Jungle Hunter
ראיתי אתר המציע 100% uptime ערבויות או את הכסף בחזרה. החוכמה היתה שהם טענו בסירה וחולקו לתוך חודשים. אז כמה חודשים ללכת ללא תשלום ואתה לוח הזמנים הכל סביב זה, ואת לכסות את ההפסד עם חודשים זה עובד בסדר. - jldugger


אם פייסבוק ואמזון לא יכולים לעשות את זה, אז אתה לא יכול. זה פשוט כל כך.


25
2017-09-29 01:10



הוא יכול להיות חכם יותר מכל האנשים שלהם בשילוב, מי יודע: p - Matt
100% uptime לא צריך להיות כל כך מילולי אנשים - זה אומר: 100% זמין במהלך הזמן כי זה נחוץ. לדוגמה, מערכות הבנק צריך תמיד להיות זמין, והם עושים די טוב. רק בגלל שהם יורדים לתחזוקה של 1 שנייה פעם בשנה לא אומר שהם נכשלו ב 100% שלהם uptime המטרה. - David d C e Freitas
@DavidFreitas - אני חושב בחוזים זה בדרך כלל די מילולי ... - UpTheCreek
@Matt רק בגלל פייסבוק / אמזון לא יכול לעשות את זה לא אומר אתר קטן יותר לא יכול לעשות את זה. הרבה אתרים גדולים פנים הרבה יותר קשה להתגבר על בעיות מאשר אתר קטן יותר. - Xorlev
אז מה שאתה אומר הוא לא היה לך uptime 100% מאז היו לך כמה לקוחות שהיו שגיאות .. פלוס dns הוא לא מתג מיידי כי יש לך ספקי שירותי אינטרנט כי להתעלם TTLs קצר - Mike


אתה מתבקש משהו בלתי אפשרי.

בדוק את התשובות האחרות כאן, לשבת עם הלקוח שלך, ולהסביר למה זה בלתי אפשרי, ולאמוד את התגובה שלהם.

אם הם עדיין מתעקשים על uptime 100%, בנימוס להודיע ​​להם כי זה לא יכול להיעשות ולדחות את החוזה. אתה לעולם לא עומד בביקוש שלהם, ואם החוזה לא למצוץ לגמרי תקבל שיפוד עם קנסות.


17
2017-09-29 03:41



100% צריך להיות מוגדר, כלומר 100% זמין למעט כאשר עושה תחזוקה או שדרוגים וכי הזמן יהיה מוגבל לשעות שקט במשך כמה שעות בחודש לכל היותר. הכל תלוי על מה המטרה ואת השימוש של יישום האינטרנט הוא במקרה זה ... - David d C e Freitas
ולהגדיר "השבתה". אפילו בתיאוריה מבטיחים שהם לא יוכלו לגשת לשרת באומהה ממשרדיהם ב- Fairbanks, אלא אם כן תשלוט בכל הרשת שביניהם (אם כי תוכל לספק הבטחות לגבי השרת והפעלה). - jwenting
ההגדרות הן, IMHO, לא רלוונטי אם הם מבקשים "uptime 100%": גם אם אתה משא ומתן מתוכנן תחזוקה ולבנות ב יתירות N + N אם תקלה אחת קטנה גורמת לאתחול לא מתוכנן או שירות למצמץ לך blown SLA שלך. בהחלט רלוונטי אם אתה משא ומתן על 3, 4 או 5 Nines SLA אף. - voretaq7
תלוי במונחים של צד"ל, לא? אם אתה מקבל תשלום $ 100K לחודש וכל דקה של זמן ההשבתה נושאת עונש $ 1K, זה יכול להיות לגמרי אפשרי (אם יש לך חוזים אחרים כדי להפחית את העלות של 24/7 באתר sysadmins). - Michael Borgwardt
@MichaelBorgwardt יש בהחלט דרכים "לעשות את זה עובד" מנקודת מבט טהורה מספרים, אבל אני עדיין יורד בגלל פוטנציאל יחסי ציבור רע ($ _CLIENT הולך בטוויטר ואומר העולם "אנחנו למטה כי $ _PROVIDER אינו כשיר ולא יכול לפגוש צד"ל שלהם! "). אישית אני מעדיף יש 10 לקוחות קטנים יותר, סביר יותר לשלם לי $ 10k לחודש :-) - voretaq7


מחיר בהתאם, ולאחר מכן לקבוע בחוזה כי כל השבתה בעבר SLA יוחזר בשיעור שהם משלמים.

ספק שירותי האינטרנט בעבודה האחרונה שלי עשה את זה. היה לנו את הבחירה של קו "רגיל" DSL ב 99.9% uptime עבור $ 40 / מו, או משולש מלוכדות של T1s ב 99.99% uptime עבור $ 1100 / מו. היו הפסקות תכופות של 10 + שעות בחודש, אשר הביא uptime שלהם היטב מתחת $ 40 / מו DSL, אבל אנחנו רק החזר סביב $ 15 או כך, כי זה מה שיעור לשעה * שעות בסופו של דבר. הם עשו כמו שודדים מהעסקה.

אם אתה מחייך $ 450,000 לחודש עבור uptime 100%, ואתה רק להכות 99.999%, תצטרך להחזיר אותם 324 $. אני מוכן להתערב את עלויות התשתית להכות 99.999% נמצאים בשכונה של 45,000 $ לחודש בהנחה קולוס מבוזרת באופן מלא, מרובים שכבת 1 uplinks, חומרה fancypants, וכו '


13
2017-09-29 19:01



אם אתה רואה מישהו מבטיח 100% uptime אז זה בדיוק מה שהם עושים. יש הבדל בין uptime 100% מבטיח ומספק את זה. זה יהיה רעיון טוב כדי להסביר את זה ללקוח אם הם מנסים לצטט SLA של המתחרה לך. - sjbotha