כדי להגיש בקשה לקול קורא להגשת בקשות לצורך יצירה, אימון והנגשת מודלי למידת מכונה, מאגרי מידע וכלים לתחום עיבוד השפה העברית והשפה הערבית- על הבקשה (על נספחיה) לכלול התייחסות ומענה, בין היתר, להיבטים הבאים המפורטים אלה:
*מובהר כי אין מדובר ברשימה סגורה והאמור מהווה רק חלק מהנדרש במסגרת טופס הבקשה. ניתן ומומלץ להרחיב ולהתייחס לסוגיות נוספות שאינן כלולות ברשימה זו.
- היבטים כללים (ההתייחסות רלוונטית למאגרי מידע, מודלי למידת מכונה וכלים לעיבוד שפה):
- התועלות הצפויות/שימושים אפשריים.
- באם קיים מאגר, מודל או רכיב תשתית דומה – מה השוני והבידול לעומת הקיים.
- פירוט את המשתמשים הפוטנציאליים וכן את השימושים הפוטנציאליים במאגר המידע.
*מענה לאמור בסעיף זה יינתן בסעיף 8 “מודל הכנסות, מחירים, תמחור ותחזית המכירות של תוצרי התכנית הרב שנתית” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה תשתיות מו”פ לתעשייה או בסעיף 4.2 “מוצרים עתידיים” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה מחקר יישומי באקדמיה או בסעיף 4.1 לטופס הבקשה “הצורך, המוצרים והטכנולוגיות” ביחס לבקשה שתוגש במסגרת מסלול משנה מסחור ידע.
- היבטים אודות הנגשה (ההתייחסות רלוונטית למאגרי מידע, מודלי למידת מכונה וכלים לעיבוד שפה):
- מודל ההנגשה לציבור הרחב (הנגשה כקוד פתוח, הנגשה כקוד פתוח אך לאחר פרק זמן מסוים שהייתה “בבעלות בלעדית” של המבקש, הנגשה בתשלום וכו’).
- ערוץ ההנגשה- לדוגמא GitHub, HuggingFace וכו’.
- סוג רישיון השימוש בו יוצע המודל / דאטהסט או הקיים לגבי מודל השפה התשתיתי, וכן הסבר מדוע נבחר הרישיון הספציפי- MIT, Apache 2.0 וכו’.
- במידה וקיימות מגבלות על השימוש במודל / דאטהסט, מודל שפה תשתיתי (למשל: שימוש מותר לצרכי מחקר אקדמי בלבד אך אסור ביישומים תעשייתיים), יש לציין זאת באופן מפורש ומפורט.
- במידה והרישיון הוא מסוג “אחר”, יש לפרט את התנאים לשימוש במידע.
- מידע שנאסף לצורך יצירת הדאטהסט:
- יש לפרט כל מקור מידע ותנאי השימוש המקוריים כמוגדר על ידי כל מקור.
- במידה והמידע נרכש בתשלום יש לצרף את הסכם הרכישה.
- יש לפרט כיצד בוצע תהליך בדיקה לפיו איסוף המידע ו/או רכישתו תואמים את רישיון השימוש שיוצע לציבור הרחב.
- במקרה של מודל שפה, יש לפרט כיצד יתאפשר לבצע Fine Tuning למודל על ידי משתמשים עתידיים. לדוגמא, במודל לזיהוי ישויות יש לפרט כיצד משתמשים אלו יוכלו לאמן מחדש את המודל לזיהוי ישויות בעולם תוכן ספציפי. הפירוט יכלול:
- המודולים המתוכננים להיכלל במודל לטובת אימון מחדש.
- הערכת המשאבים – חומרה וזמן עבודה שיידרשו לאימון מחדש.
- תיאור תהליך האימון מחדש.
* מענה לאמור בסעיף זה יינתן בסעיף 7 “תשתית ושירותים” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה תשתיות מו”פ לתעשייה או בסעיף 4.2 לטופס הבקשה “מוצרים עתידיים” ביחס לבקשה שתוגש במסגרת מסלול משנה מחקר יישומי באקדמיה או בסעיף 4.1 לטופס הבקשה “הצורך, המוצרים והטכנולוגיות” ביחס לבקשה שתוגש במסגרת מסלול משנה מסחור ידע.
- היבטים אודות מודלי למידת מכונה המוצעים:
תחת סעיף זה כלולים תתי-סעיפים שהתשובה עליהם ידועה בזמן הכנת הבקשה, וכאלה שבזמן הגשת הבקשה אינם ידועים ואז יש להעריכם אם אפשר ו/או לציין כי יפורטו עם פרסום התוצרים בתום תקופת התוכנית.- הערכת החומרה הנדרשת לאימון המודל.
- הערכת החומרה הנדרשת לשימוש במודל לצורך Inference.
- תיאור מאגרי המידע עליהם יאומן המודל (ראה פירוט להלן).
- תיאור מאגרי המידע עליהם יבדקו ביצועי המודל.
- תהליך הערכת ביצועי המודלים (כיצד ימדדו, מה הן תוצאות הייחוס וה-State of the Art הרלוונטי, כיצד ניתן לשחזר את תהליך ההערכה באופן בלתי תלוי, וכיצד יפורסמו ביצועי המודל).
- שימוש במודלי שפה:
- יש לציין באם יש כוונה לעשות שימוש במודלי שפה קיימים.
- יש להסדיר את זכויות השימוש במודלי שפה ו/או מאגרי המידע ולציין את אופן ההסדרה בגוף בבקשה.
- אימון המודל בהמשך:
- באם המודל ניתן לאימון Fine Tuning בעתיד על ידי אחרים יש לפרט כיצד מתכוונים להנגיש את הנושא (תיעוד וכדומה).
- יש לציין האם המודל יהיה ניתן לאימון בהמשך על ידי משתמשים.
* מענה לאמור בסעיף זה יינתן בסעיף 7 “תשתית ושירותים” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה תשתיות מו”פ לתעשייה או בסעיף 4 לטופס הבקשה “פירוט המחקר” ביחס לבקשה שתוגש במסגרת מסלול משנה מחקר יישומי באקדמיה או בסעיף 5 לטופס הבקשה “תכנית המו”פ” ביחס לבקשה שתוגש במסגרת מסלול משנה מסחור ידע.
- היבטים אודות מאגרי מידע:
תחת סעיף זה כלולים תתי-סעיפים שהתשובה עליהם ידועה בזמן הכנת הבקשה, וכאלה שבזמן הגשת הבקשה אינם ידועים ואז יש להעריכם אם אפשר ו/או לציין כי יפורטו עם פרסום התוצרים בתום תקופת התוכנית.- מקורות המידע.
- התאריכים שבהם נוצר המידע.
- אופן ביצוע איסוף המידע: טווחי זמן ושיטת דגימה.
- היקף המידע במאגר – מספר המילים/משפטים, מספר תמונות, אורך מצטבר של קטעי השמע או הווידאו, מספר הדוברים / כותבים המיוצגים במאגר וכו’.
- תחום/תחומים – domain (כגון: רפואי, משפטי, כלכלי או כללי). במידה והמקור מכיל יותר מתחום אחד יש לפרט את שיעור הדגימה מכל תחום.
- פורמט מאגר המידע הצפוי – המאגר יהיה בפורמט שכיח (לדוגמא CSV או XML) ויכיל הסבר מפורט המתאר את מבנה הפורמט המוצע ודוגמא למידע הכלול בכל רשומה.
- תיאור מצב מאגר המידע המוצע בתחילת תהליך הכנתו ובסופו, לדוגמא:
- מאגר מידע גולמי המצריך עבודת ניקוי בטרם ניתן יהיה לעשות בו שימוש.
- מאגר מידע נקי (לדוגמא דפי אינטרנט מהם הוסרו תגיות HTML, emoji, וכל רעש אחר).
- מאגר מידע נקי ומתויג (כולל הפורמט הדיגיטלי המוצע והסברים על התוכן).
- תיאור קיומם של נתוני מסגרת נוספים (באם קיימים), מעבר לטקסט (תיוג, סיכום, מטהדאטה וכו’).
- תיאור מפורט של תהליך ניקוי, ארגון ותיוג המאגר:
- תהליך ניקוי וארגון המידע במאגר:
- איך בוצע ניקוי- אם בוצע- מתגיות HTML, emojis לרבות דוגמאות של הטקסט לפני ואחרי הניקוי.
- כיצד חולץ הטקסט מדפי אינטרנט?
- איזה מידע/רשומות הוסרו מהידע הגולמי בתהליך יצירת המאגר?
- איזו פעילות התממה עברו הרשומות?
- איך הושלמו פרמטרים חסרים ברשומות המאגר?
- אילו שינויים אחרים בוצעו במידע לאחר האיסוף?
- תהליך ניקוי וארגון המידע במאגר:
- החלוקה הצפויה של המאגר למחלקות השונות. לדוגמא, במאגר מידע העוסק בזיהוי ישויות יש לפרט מה הם סוגי הישויות המזוהים, כמה משפטים יש בו, כמה מילים, כמה מהן משתייכות לכל סוג ישות (אדם, מקום, ארגון וכו’).
- האם שונה יחס הקבוצות (balance) במאגר. לדוגמא: באם מקימים מאגר מידע לזיהוי סנטימנט, ובמידע המקורי שנאסף יחס טקסטים חיוביים-שליליים היה 90%-10% והוחלט לשנות יחס זה בצורה מלאכותית על מנת לשפר את ביצועי המודל.
- אילו פעילויות נעשו במטרה לזהות ולמנוע הטיות במאגר הגולמי ובתוצר הסופי (לדוגמא: זיהוי ומניעה של הטיות מבוססות מגדר, מצב סוציו אקונומי או אמונה דתית).
- תוצאות התיוג: יכללו מידע נוסף ברמת הרשומה: זמן הרשומה, מקור, כמה מתייגים תייגו אותה ועוד.
- פירוט הנדסי של התיוג: על המידע להיות מתויג בתקן מקובל בינלאומי ככל האפשר, לדוגמא על פי כללי ה- Universal dependencies אם מדובר בתיוג מורפולוגי.
- באיזה כלי בוצע התיוג?
- כיצד יבוצע תהליך התיוג:
- על ידי מתייג אחד? שניים? הצבעת רוב? מה עושים במקרה של מחלוקת.
- מי המתייגים? כיצד נבחרו? מהי הכשרתם ומידת ההיכרות שלהם עם עולם התוכן הרלוונטי?
- אילו תהליכי הדרכה והכשרה בוצעו עבור המתייגים?
- האם וכיצד תבוצע ביקורת על תהליך התיוג?
- אם המאגר מתייחס למידע חיצוני או נוסף מעבר לרשומות המידע עצמן, רצוי לצרף את המידע הראשוני אליו מתייחס המאגר. לדוגמא, טוקבקים על כתבות, או נתוני תחבורה כתלות במזג אוויר, יש לצרף לכל רשומה את הטקסט (כתבה) אליו הטוקבק מתייחס.
* מענה לאמור בסעיף זה יינתן בסעיף 7 “תשתית ושירותים” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה תשתיות מו”פ לתעשייה או בסעיף 4 לטופס הבקשה “פירוט המחקר” ביחס לבקשה שתוגש במסגרת מסלול משנה מחקר יישומי באקדמיה או בסעיף 5 “תכנית המו”פ” ביחס לבקשה שתוגש במסגרת מסלול משנה מסחור ידע.