מסגרת משפטית ועקרונות היסוד
בדין הקנדי, דיני העבודה נשענים על פסיקה קודמת וחקיקה. תקופת ההודעה הסבירה לעובד שפוטר נקבעת בהתאם לארבעה גורמים הידועים כגורמי ברדל: גיל העובד, אורך תקופת העסקתו, אופי עבודתו וזמינות תעסוקה חלופית. עם זאת, החוק אינו מגדיר משקל ברור לכל גורם, והפסיקה מדגישה כי מדובר בהערכה שיפוטית גמישה שאינה מדע מדויק. גורמים נוספים, כמו מצבה הכלכלי של המדינה או התנהגות חסרת תום לב מצד המעסיק, עשויים להשפיע על גובה הפיצוי. לפיכך, קיים קושי משמעותי בהערכת תקופת הודעה סבירה באופן עקבי ואובייקטיבי.
מטרות המחקר והאתגרים בתחום
היעד המרכזי הוא פיתוח מערכת מבוססת למידת מכונה ולמידה עמוקה המסוגלת לחזות את תקופת ההודעה הסבירה לעובדים שפוטרו, תוך שימוש בטקסטים משפטיים לא מובְנים. הגישה מבוססת על עיבוד תקצירי פסקי דין הכתובים באנגלית פשוטה, שנלקחו ממסד הנתונים המשפטי Westlaw Quantum. השימוש בכלים אוטומטיים לניבוי מאפשר להנגיש לציבור הרחב הערכה מושכלת של פוטנציאל הפיצוי, ובכך לסייע בקבלת החלטות על הליכים משפטיים או מו"מ על פיצויי פיטורים. בנוסף, המערכת שואפת לספק הסבר שקוף לגבי האזורים בטקסט שהשפיעו על התחזית.
תרומות המחקר
המחקר מציג מספר תרומות מרכזיות:
-
פיתוח מודל ריבוי תשומת לב חדשני המשלב כמה מהמודלים המתקדמים ביותר בלמידה עמוקה לצורך ניבוי תקופת הודעה סבירה בדיני עבודה קנדיים.
-
יצירת תהליך מלא לעיבוד טקסטים משפטיים הכולל ניקוי, מיצוי מאפיינים והכנת נתונים לאימון.
-
השוואת ביצועי המודל עם דגמי BERT ו-RoBERTa, שני מודלי שפה מובילים.
-
התאמת מודלים אלה לתחום המשפט באמצעות אימון נוסף על מיליוני פסקי דין מארכיון Harvard Case Law, ליצירת גרסאות משפטיות מותאמות (LA-BERT ו-LA-RoBERTa).
רקע תאורטי וסקירת ספרות
התקדמות בעיבוד שפה טבעית מתמקדת במודלי תשומת לב (Attention) ובמבנה ה-Transformer. מבנים אלה מאפשרים חישוב מקבילי של קשרים סמנטיים בין מילים בטקסט, ומייתרים את הצורך בעיבוד סדרתי של רצפים כפי שנעשה ב-RNN. מודלי Transformer כמו BERT ו-RoBERTa מציגים ביצועים מצוינים בהבנת שפה כללית, ומחקרים רבים מנסים להתאימם לתחומים ייחודיים כגון רפואה, רשתות חברתיות ומשפט. בתחום המשפט, נעשה עד כה שימוש מועט יחסית, אך קיימים ניסיונות לסווג פסקי דין או לחזות תוצאות משפטיות בתחומים שונים.
מתודולוגיה כללית
ניבוי תקופת ההודעה הוגדר כבעיית סיווג רב-ערכית הכוללת 25 מחלקות – כל אחת מייצגת מספר חודשי הודעה (1 עד 24 חודשים, ו-25 לכל ערך גבוה יותר). הנתונים כללו תקצירים אנושיים של פסקי דין, שעובדו לשפה אחידה וללא פרטים על התוצאה כדי למנוע הטיית מודל. בנוסף, נשלפו מאפיינים מובְנים כמו גיל, תפקיד, שכר ומשך העסקה כאשר היו זמינים. הנתונים עוגנו באמצעות ספריית SpaCy לצורך טוקניזציה ולמידת ייצוגים מילוליים.
מודלים שנבדקו
המחקר כלל שישה מודלים עיקריים:
-
מודלים בסיסיים – רגרסיה ליניארית ורגרסיית גרדיאנט (GBR), שהתבססו על מאפיינים ידניים שנאספו על ידי סטודנטים למשפטים.
-
מודל ריבוי תשומת לב עם Few-shot Learning – שילוב של BiLSTM ו-GloVe לצורך למידה ממספר מצומצם של דוגמאות, תוך הקצאת תשומת לב למספר היבטים בטקסט במקביל.
-
מודל תשומת לב עצמית (Self-Attention) – למידה של קשרים פנימיים בטקסט ללא תוויות משנה, במטרה לזהות דפוסים כלליים.
-
מודל היררכי (HAN) – ניתוח רב-שלבי ברמת המילה והמשפט, המחקה את תהליך החשיבה המשפטית על ידי ייחוס משקל שונה לכל משפט לפי תרומתו לתוצאה.
-
Legal Adapted BERT (LA-BERT) – גרסה מותאמת של BERT שאומנה מחדש על קורפוס של פסקי דין.
-
Legal Adapted RoBERTa (LA-RoBERTa) – גרסה דומה שהתבססה על RoBERTa, שאומנה על מאות אלפי מסמכים משפטיים ונבחנה על תקצירי מקרים.
תהליך ההתאמה והאימון
המודלים הותאמו לשפה המשפטית באמצעות למידה נוספת (domain adaptation) על כארבעה מיליון מקרים ממשפט האמריקאי, מתוך הנחה שהשפה המשפטית בקנדה ובארה"ב דומה. פסקי דין ישנים לפני 1960 הוסרו בשל הבדלים סגנוניים. הנתונים חולקו לקבוצות אימון ובדיקה, והביצועים נמדדו לפי אחוז ההתאמות לתוצאה בפועל, תוך טווח טעות של פלוס או מינוס חודשיים.
תוצאות הניסוי
במבחני הביצועים, RoBERTa הרגיל השיג את הדיוק הגבוה ביותר – 69%.
אחריו דורגו HAN עם 67%, Legal Adapted RoBERTa עם 65%, Legal Adapted BERT עם 64%, מודל תשומת הלב העצמית עם 62%, המודל הרב-תשומתי עם 57%, והבסיסיים עם 55%-59%.
הממצאים מלמדים שמודלים עם תשומת לב משיגים יתרון ברור על פני שיטות סטטיסטיות, בעיקר בזכות יכולתם לזהות גורמים סמנטיים סמויים הקשורים לגורמי ברדל.
ניתוח ביקורתי של הממצאים
נמצא כי מודלי שפה כלליים כמו RoBERTa outperform גרסאות מותאמות לתחום. ההסבר לכך הוא שתקצירי Westlaw כתובים בשפה יומיומית יותר מאשר בלשון משפטית פורמלית, ולכן מודל כללי מתאים להם יותר. כמו כן, בתהליך ההתאמה של LA-RoBERTa לא הוחלף אוצר המילים המקורי, מה שהגביל את יכולתו לקלוט ניואנסים משפטיים. בנוסף, שימוש בתקצירים במקום פסקי דין מלאים הוביל לאובדן מידע חשוב, אך גם הקטין את רעשי הטקסט.
מגבלות והיבטים אנושיים
המחקר מצביע על מגבלות אינהרנטיות בלמידה ממוחשבת של טקסטים משפטיים: שיפוט אנושי כולל שיקולים רגשיים ונסיבתיים שאינם נלכדים במודלים סטטיסטיים. גם חוסר אחידות בפסיקה – למשל במקרים שבהם בית המשפט העליון שינה החלטות ערכאה נמוכה – מונע יציבות חיזוי גבוהה. לכן, רמת דיוק של כ-70% נחשבת הישג משמעותי אך אינה מאפשרת אוטומציה מלאה של שיפוט משפטי.
סיכום ומבט לעתיד
המחקר מדגים פוטנציאל ממשי לשימוש בלמידה עמוקה לצורך ניתוח והבנה של טקסטים משפטיים. תהליך העיבוד כולל שלבי ניקוי, ייצוג סמנטי ולמידה מבוססת תשומת לב, ומספק יכולת ניתוח שקופה באמצעות מפות חום המדגישות את האזורים בטקסט המשפיעים ביותר על ההחלטה – כגון גיל העובד, אורך העסקה ואופי העבודה. שילוב בין ניתוח זה לבין שיטות מסורתיות עשוי להוות כלי תומך החלטה יעיל לעורכי דין, למעסיקים ולעובדים.
בעתיד מתוכננת הרחבת המערכת לניתוח טקסטים מלאים תוך שליפת גורמי ברדל באופן אוטומטי, וכן בחינת שיטות נוספות כמו דיסטילציה של ידע ושילוב מאגרי מידע נוספים. פיתוחים אלה צפויים לשפר את רמת הדיוק, את ההסבריות ואת התאמת המודל למציאות המשפטית הדינמית בקנדה.
מקור
Lam, J., Chen, Y., Zulkernine, F., & Dahan, S. (2025). Legal Text Analytics for Reasonable Notice Period Prediction. Journal of Computational and Cognitive Engineering.








