מבוא ללימוד דירוג אלגוריתם: RankSVM ו- IR SVM

Introduction Learning Rank Algorithm



מְקוֹרִי: http://www.cnblogs.com/bentuwuying/p/6683832.html

בלוג קודם: http://www.cnblogs.com/bentuwuying/p/6681943.html זה מציג בקצרה את העקרונות הבסיסיים של למידה לדרג, וגם מדבר על מספר שיטות נפוצות ללימוד לדרג: נקודתית, זוגית ורשימה. בלוג זה מציג את השיטה הזוגית הנהוגה בהרבה חברות בפועל. ראשית, אנו מציגים את RankSVM ו- IR SVM הפשוטים יחסית.



2.1 שינוי פונקציית אובדן

הרעיון הבסיסי של RankSVM שהוצג לעיל הוא להפוך את בעיית הדירוג לבעיית סיווג זוגית, ואז להשתמש במודל הסיווג SVM כדי ללמוד ולפתור. לכן, בתהליך הלמידה משתמשים בפונקציה של אובדן סיווג 0-1 (אם כי היא משמשת למעשה להחלפת אובדן הציר של תפקוד האובדן). ומטרת האופטימיזציה של פונקציית אובדן זו ומדד ההערכה של אחזור מידע (לא רק מחייב את יחסי הסדר היחסי בין כל מסמך להיות תקין, אלא גם מקדיש תשומת לב מיוחדת ליחסי הסדר בין Top doc) יש עדיין פער. לכן, ישנם חוקרים שחקרו זאת, ובאמצעות טרנספורמציה של פונקציית האובדן ב- RankSVM, מטרת האופטימיזציה תואמת טוב יותר עם מדדי ההערכה הנפוצים לבעיית אחזור המידע.



ראשית, אנו משתמשים בכמה דוגמאות כדי להמחיש כמה בעיות שנתקלו בהן כאשר RankSVM מוחל על מיון טקסטים, כפי שמוצג באיור הבא.



הבעיה הראשונה היא שאם אתה משתמש ישירות ב- RankSVM, מטפלים במסמכים עם רמות דמיון שונות זהים ולא יובחנו. זה יכול להתקיים בשתי צורות בבעיות ספציפיות:

1) בדוגמה 1, שני הזוגות של 3 לעומת 2 ו- 3 לעומת 1 מטופלים זהים בפונקציית ההפסד 0-1, כלומר, היפוך הסדר של כל אחד מהם בעל אותה עליה בתפקוד ההפסד. זה ללא ספק בלתי סביר, מכיוון שההיפוך של סדר 3 לעומת 1 הוא ללא ספק חמור יותר מההיפוך של סדר 3 לעומת 2, ויש צורך במשקלים שונים כדי להבדיל.



2) בדוגמה 2, דירוג -1 הוא המיקום של שני המסמכים של מיקום 1 לעומת מיקום 2 הוא הפוך, ודירוג -2 הוא המיקום של שני המסמכים של מיקום 3 לעומת עמדה 4 הוא הפוך, שני המקרים נמצאים 0-1 כנ'ל לגבי פונקציית אובדן. זה כמובן גם לא סביר. בגלל הדגש המיוחד על טופ דוק בבעיית IR, בעיית הדירוג -1 חמורה יותר מבעיית הדירוג -2, ויש לתת משקל שונה כדי להבדיל.

הבעיה השנייה היא ש- RankSVM מתייחס לזוגות דוק בשאילתות שונות באופן שווה, ואינו מבחין ביניהם. מספר המסמכים בשאילתות שונות שונה מאוד. כפי שמוצג בדוגמה 3, לשאילתה -4 יש יותר ביבליוגרפיות של דוק, ולכן במהלך תהליך האימון, לנתוני ההדרכה של כל זוג דוקטורים בשאילתה -4 יש השפעה ניכרת על המודל מזה של כל זוג דוק תחת שאילתה -3 גדול יותר, כך שלמודל התוצאה הסופית תהיה הטיה.

IR SVM פותר את שתי הבעיות שלעיל. הוא משתמש בסיווג רגיש לעלות במקום בסיווג 0-1, כלומר הוא משנה את אובדן הציר הרגיל. באופן ספציפי, הוא מקצה משקל אובדן שונה לזוגות דוק מרמות שונות או משאילתות שונות:

1) עבור Top doc, כלומר, זוג doc עם רמת דמיון גבוהה יותר, משקל הפסד גדול יותר.

2) לשאילתה עם מספר קטן של מסמכים, משקל הפסד גדול יותר מוקצה לזוג הדוק שמתחתיה.

2.2 תהליך הפיתרון של IR SVM

בעיית האופטימיזציה של IR SVM יכולה להתבטא באופן הבא:

ביניהם, מייצג את ערך משקל ההפסד של המופע השייך לצמד כיתות K. יש שיטה אמפירית לקביעת ערך זה: עבור שני המסמכים השייכים לצמד ציונים זה, החלף באופן אקראי את עמדות הדירוג שלהם, בדוק את ערך ההפחתה של root @ xxxxx, ובצע ממוצע של כל ערכי ההפחתה כדי לקבל משקל אובדן זה. מתקבל על הדעת שככל שערך משקל ההרזיה גדול יותר, כך ההשפעה של רופא הזוג על מדד ההערכה הכללי גדולה יותר, כך שחשיבות האימון גדולה יותר בהתאמה. מצב זה תואם בדרך כלל למסמך Top, כלומר להפוך את תוצאת האימון לשים לב במיוחד למיקום המיון של Top doc. להיפך.

ו פרמטר זה תואם למקדם הנורמליזציה של השאילתה. זה יכול לבוא לידי ביטוי כ , שהוא הדדי של מספר הדוק תחת השאילתה. זה מובן היטב. אם מספר המסמכים תחת השאילתה הוא קטן, החשיבות היחסית בתהליך ההכשרה של RankSVM תהיה נמוכה יותר. בשלב זה, על ידי הגדלת פרמטר משקל זה, ניתן להגדיל זאת כראוי. החשיבות של צמד הדוק תחת השאילתה מאפשרת להקדיש תשומת לב שווה לזוג הדוק בשאילתות שונות באימון המודל.

בעיות האופטימיזציה של IR SVM הן כדלקמן:

באופן דומה, יש להפוך אותה לבעיה כפולה לפתרון:

לאחר שנפתרו לבסוף הפרמטרים המתאימים, ניתן לבטא את פונקציית המיון כ:

לכן, השלבים של שיטת IR SVM לפתרון בעיית המיון מסוכמים, כפי שמוצג באיור הבא:

הודעת זכויות יוצרים:

מאמר זה נוצר על ידי אל תהיה טיפש הכל, פורסם ב http://www.cnblogs.com/bentuwuying . אם תדפיס אותו מחדש, אנא ציין את המקור. אם אתה משתמש במאמר זה למטרות מסחריות ללא הסכמת המחבר, אתה תישא באחריות.