שיעור תאוריה

קמירות ואופטימיזציה קלאסית

איך מזהים שהנושא מתאים

אינטואיציה

ללא אילוצים מחפשים תחילה נקודה יציבה: מקום שבו השיפוע מתאפס בכל כיוון. זו רק נקודה מועמדת. צורת הפונקציה בסביבתה קובעת אם מדובר במינימום, במקסימום או בנקודת אוכף.

אילוץ שוויון מגביל את התנועה למשטח מסוים. כופל לגראנז' מאזן בין שיפוע פונקציית המטרה לשיפוע האילוץ, כך שלא נשאר כיוון שיפור המותר על המשטח.

באילוצי אי־שוויון לא כל אילוץ חייב להשפיע על הפתרון. תנאי KKT מחברים בין שתי אפשרויות: אילוץ עם מרווח חיובי חייב לקבל כופל אפס; כופל חיובי מחייב שהאילוץ יהיה פעיל.

קמירות וקעירות הופכות את הבדיקה המקומית לחזקה יותר. במזעור פונקציה קמורה, או במקסום פונקציה קעורה על תחום קמור, נקודה שמקיימת את תנאי האופטימום המתאימים היא פתרון גלובלי.

הגדרות פורמליות

נקודת קיצון ונקודה יציבה

נקודה היא מקסימום מקומי אם בסביבה קרובה שלה מתקיים f(x̄) ≥ f(x), ומינימום מקומי אם מתקיים f(x̄) ≤ f(x). בקיצון גלובלי ההשוואה נכונה לכל נקודה בתחום.

אם היא נקודת פנים והפונקציה גזירה, תנאי הכרחי לקיצון הוא שהנקודה תהיה יציבה:

f′(x̄) = 0

f היא הפונקציה, x הוא המשתנה ו- היא הנקודה הנבדקת. התנאי הכרחי אך אינו מספיק: גם נקודת פיתול יכולה לקיים אותו.

סיווג במשתנה אחד

הבדיקה בנקודה יציבה המסקנה
f″(x̄) > 0 מינימום מקומי.
f″(x̄) < 0 מקסימום מקומי.
f″(x̄) = 0 המבחן אינו מכריע; ממשיכים לנגזרת גבוהה יותר או לבדיקה אחרת.

אם כל הנגזרות עד סדר r-1 מתאפסות בנקודה והנגזרת הראשונה שאינה אפס היא f⁽ʳ⁾(x̄), אז:

r הוא סדר הנגזרת הראשונה שאינה מתאפסת בנקודה, ו-f⁽ʳ⁾ היא הנגזרת מסדר זה.

כמה משתנים: גרדיאנט והסיאן

נסמן X=(x₁,…,xₙ). הגרדיאנט הוא וקטור כל הנגזרות החלקיות מסדר ראשון:

∇f(X) = (∂f/∂x₁, …, ∂f/∂xₙ)ᵀ ∇f(X̄) = 0

n הוא מספר המשתנים, xⱼ הוא המשתנה שמספרו j, היא הנקודה הנבדקת, ו-∇f הוא הגרדיאנט. השורה השנייה היא התנאי ההכרחי לנקודת קיצון פנימית וגזירה.

מטריצת הסיאן H(X) מכילה את כל הנגזרות השניות. בנקודה יציבה:

מבנה הסיאן סיווג
חיובית מוגדרת מינימום מקומי.
שלילית מוגדרת מקסימום מקומי.
לא מוגדרת, כלומר יש כיווני עקמומיות חיוביים ושליליים נקודת אוכף.
חיובית או שלילית למחצה בלבד מבחן הקיצון המקומי עלול להיות לא מכריע.

לפי מבחן המינורים המובילים, H חיובית מוגדרת אם Dₖ>0 לכל k; היא שלילית מוגדרת אם הסימנים מתחלפים, כלומר (-1)ᵏDₖ>0 לכל k. הסימון Dₖ הוא הדטרמיננטה של תת־המטריצה הראשית המובילה בגודל k×k.

קמירות וקעירות

תהי f פונקציה המוגדרת על תחום קמור D. לכל u,v∈D ולכל t∈[0,1]:

f(tu + (1-t)v) ≤ tf(u) + (1-t)f(v)

אם האי־שוויון מתקיים, f קמורה. אם הכיוון הפוך, היא קעורה. u,v הן שתי נקודות בתחום, t הוא משקל, ו-tu+(1-t)v היא נקודה על הקטע המחבר ביניהן.

במשתנה אחד, f″(x)≥0 בכל התחום מעיד על קמירות ו-f″(x)≤0 על קעירות. בכמה משתנים, הסיאן חיובית למחצה בכל התחום מעידה על קמירות ושלילית למחצה על קעירות.

אם פונקציה קמורה, כל מינימום מקומי שלה הוא גם מינימום גלובלי. אם היא קעורה, כל מקסימום מקומי שלה הוא גם מקסימום גלובלי.

פעולות על פונקציות קמורות

הסיבה שסכום שומר על קמירות היא שאפשר לחבר את שני אי־שוויונות הקמירות. אם f ו-g קמורות על אותו תחום קמור, אז לכל u,v בתחום ולכל t∈[0,1]:

(f+g)(tu+(1-t)v) ≤ tf(u)+(1-t)f(v)+tg(u)+(1-t)g(v) = t(f+g)(u)+(1-t)(f+g)(v)

השורה האחרונה היא בדיוק הגדרת הקמירות עבור f+g.

לגראנז' ותנאי KKT לפי מוסכמת הקורס

נסמן X=(x₁,…,xₙ). הסימון i=1,…,m מונה אילוצים פונקציונליים, והסימון j=1,…,n מונה משתנים.

אילוצי שוויון

לבעיה עם אילוצים gᵢ(X)=bᵢ בונים:

L(X,λ) = f(X) + ∑ᵢ λᵢ[bᵢ-gᵢ(X)] ∇ₓL(X,λ)=0,   gᵢ(X)=bᵢ

f היא פונקציית המטרה, gᵢ הוא אגף שמאל של אילוץ i, bᵢ הוא אגף ימין שלו, ו-λᵢ הוא כופל לגראנז' של האילוץ. באילוץ שוויון אין דרישת סימן על λᵢ.

אם f קמורה במינימום או קעורה במקסימום, וכל אילוצי השוויון ליניאריים, פתרון משוואות הלגראנז' הוא אופטימום גלובלי.

אילוצי אי־שוויון פונקציונליים

תחילה מסדרים כל אילוץ לצורת הקורס gᵢ(X)≤bᵢ. אילוץ מהצורה gᵢ(X)≥bᵢ מוכפל ב--1. אילוץ שוויון יכול להיכתב כשני אילוצי אי־שוויון הפוכים, אך כאשר יש רק שוויונות נוח יותר להשתמש ישירות בשיטת לגראנז'.

Lₘₐₓ = f(X) + ∑ᵢ λᵢ[bᵢ-gᵢ(X)] בבעיית מקסימום מוסיפים את מרווח האילוץ כשהוא מוכפל בכופל.
Lₘᵢₙ = f(X) - ∑ᵢ λᵢ[bᵢ-gᵢ(X)] בבעיית מינימום מחסרים את אותו ביטוי.
λᵢ ≥ 0 לכל אילוץ פונקציונלי יש כופל לא שלילי.

הביטוי bᵢ-gᵢ(X) הוא המרווח של אילוץ i. הסימון λᵢ הוא הכופל שלו.

משפחת תנאי KKT הנוסחה והמשמעות
יציבות (סטציונריות) ∂L/∂xⱼ=0 לכל j.
אפשריות ראשונית gᵢ(X)≤bᵢ לכל i.
אפשריות דואלית λᵢ≥0 לכל i.
רפיון משלים λᵢ[bᵢ-gᵢ(X)]=0 לכל i.

מרפיון משלים נובעות שתי מסקנות שימושיות: אם λᵢ>0, אז האילוץ פעיל ולכן gᵢ(X)=bᵢ; אם המרווח חיובי, אז λᵢ=0. הכיוון ההפוך אינו מובטח: אילוץ פעיל יכול לקבל כופל אפס.

הוספת אילוצי אי־שליליות

כאשר הבעיה כוללת במפורש xⱼ≥0, מצמידים לכל אילוץ כזה כופל μⱼ≥0:

Lₘₐₓ = f(X) + ∑ᵢ λᵢ[bᵢ-gᵢ(X)] + ∑ⱼ μⱼxⱼ Lₘᵢₙ = f(X) - ∑ᵢ λᵢ[bᵢ-gᵢ(X)] - ∑ⱼ μⱼxⱼ μⱼxⱼ=0,   μⱼ≥0,   xⱼ≥0

μⱼ הוא הכופל של אילוץ האי־שליליות על משתנה xⱼ. בנוסף לתנאי KKT של האילוצים הפונקציונליים, כותבים את תנאי היציבות לפי הלגראנז' המורחב ואת שלושת התנאים שבשורה האחרונה לכל j.

מתי התנאים גם מספיקים?

בתנאים אלה התחום האפשרי קמור, ולכן נקודה שמקיימת KKT היא אופטימום גלובלי. כדי להציג את KKT כתנאי הכרחי נדרשת גם רגולריות מתאימה של האילוצים; בתרגילי הקורס מניחים בדרך כלל שהיא מתקיימת.

משמעות הכופלים בשינוי קטן באגף ימין

אילוץ שוויון:   Δf* ≈ λᵢΔbᵢ אי־שוויון במקסימום:   Δf* ≈ +λᵢΔbᵢ אי־שוויון במינימום:   Δf* ≈ -λᵢΔbᵢ

f* הוא ערך המטרה האופטימלי, Δbᵢ הוא השינוי באגף ימין של אילוץ i, ו-Δf* הוא השינוי המשוער בערך האופטימלי. זהו קירוב מקומי בלבד, כל עוד מבנה הפתרון אינו משתנה.

אם מחליפים אילוץ אי־שליליות ב-xⱼ≥rⱼ ומגדילים את הגבול התחתון ב-Δrⱼ, מתקבל בקירוב Δf*≈-μⱼΔrⱼ במקסימום ו-Δf*≈+μⱼΔrⱼ במינימום. הגדלת גבול תחתון מצמצמת את התחום האפשרי, ולכן כיוון ההשפעה הפוך מהרפיית אילוץ .

שיטת פתרון

  1. מסווגים את הבעיה: ללא אילוצים, שוויון בלבד, אי־שוויון, או אי־שוויון יחד עם אי־שליליות.
  2. בודקים את המבנה: קובעים קמירות במינימום או קעירות במקסימום באמצעות נגזרות או הסיאן.
  3. ללא אילוצים: פותרים f′(x)=0 או ∇f(X)=0, מסווגים כל נקודה יציבה, ומשווים גם נקודות קצה אם התחום סגור.
  4. עם אילוצי שוויון: בונים L=f+Σλᵢ(bᵢ-gᵢ), פותרים את תנאי היציבות ואת האילוצים יחד, ואז מאמתים את התנאי המספיק.
  5. עם אילוצי אי־שוויון: מסדרים את כולם כ-gᵢ≤bᵢ, בוחרים את סימן הלגראנז' לפי מקסימום או מינימום, וכותבים את כל משפחות KKT.
  6. עם אי־שליליות: מוסיפים את כופלי μⱼ ואת התנאים μⱼxⱼ=0, μⱼ≥0, xⱼ≥0.
  7. פותרים מצבי פעילות: לכל אילוץ בודקים אם המרווח אפס או הכופל אפס. פוסלים מצב מיד אם הוא מפר אפשריות או סימן כופל.
  8. מאמתים ומסכמים: מציבים בכל האילוצים, בודקים את התנאי המספיק, מחשבים את ערך המטרה ומדווחים אם האופטימום מקומי או גלובלי.
  9. מנתחים שינוי: משתמשים בכופל ובסימן המתאים רק לשינוי קטן שבמהלכו מבנה הפתרון נשאר תקף.

הערות מוכנות למבחן

  • משוואת הגרדיאנט או הנגזרת הראשונה מוצאת מועמדים; היא אינה מסווגת אותם.
  • כאשר מבחן הנגזרת השנייה או הסיאן אינו מכריע, לא מסיקים אוטומטית שמדובר בנקודת אוכף.
  • אין כלל כללי שלפיו מכפלת פונקציות קמורות היא קמורה.
  • דוגמה נגדית אחת מספיקה כדי להפריך טענה מסוג "בהכרח".
  • כופל של אילוץ שוויון חופשי בסימן; כופלי אי־שוויון ואי־שליליות במוסכמת הקורס אינם שליליים.
  • אילוץ פעיל אינו מחייב כופל חיובי; ייתכן אילוץ פעיל עם כופל אפס.
  • אין להוסיף אילוצי אי־שליליות שלא הופיעו בשאלה.
  • במקסימום ובמינימום סימן איברי הכופלים שונה; יש לבחור אותו לפני הגזירה ולא להחליף מוסכמה באמצע.
  • לפני שימוש בכופל לניתוח רגישות, בודקים שהשינוי קטן ושאותם תנאי פעילות ממשיכים להתקיים.