קול קורא – הקמת מאגרי מידע בעברית ו/או בערבית מדוברת

רוצים לצפות בוובינר שנערך בנושא? לחצו כאן 

חטיבות

תשתיות חדשנות

תמצית הקול קורא

הרשות הלאומית לחדשנות טכנולוגית (להלן: “רשות החדשנות”) מודיעה על פתיחת שני הליכים (כמפורט להלן) להגשת בקשות לקבלת מענק לצורך הקמת מאגרי מידע בעברית ו/או בערבית מדוברת. מאגרי מידע אלו יהוו תשתית לתאגידים ישראליים ו/או למוסדות מחקר ישראליים, העוסקים במחקר ופיתוח ואשר נדרשים ליכולות עיבוד שפה למטרות שונות.

הקול הקורא פתוח למאגרים בעברית ובערבית ואינו מוגבל לערבית מדוברת בלבד ( *עדיפות תינתן לניב פלסטיני, מאגרים עדכניים וערבית מדוברת)

 
במסגרת הקול הקורא תתאפשר הגשת בקשות באחד משני ההליכים:
  1. מבקש שהינו תאגיד תעשייתי: הגשת בקשה תיעשה מכוח מסלול משנה ב’ – תשתיות מו”פ לתעשייה של מסלול הטבה מס’ 5 של רשות החדשנות – פיתוח תשתיות טכנולוגיות, מסחור ומחקר יישומי באקדמיה ובתעשייה (להלן: “מסלול משנה תשתיות מו”פ לתעשייה”).
  2. מבקש שהינו חברת יישום: הגשת בקשה תיעשה מכוח מסלול משנה ג’ – מחקר יישומי באקדמיה להטמעה בתעשייה של מסלול הטבה מס’ 5 של רשות החדשנות – פיתוח תשתיות טכנולוגיות, מסחור ומחקר יישומי באקדמיה ובתעשייה (להלן: “מסלול משנה מחקר יישומי באקדמיה”).

מובהר, כי כל אחת מהחלופות הנ”ל מהווה הליך נפרד ובלתי תלוי, כאשר הבקשות אשר תוגשנה במסגרת מסלול משנה תשתיות מו”פ לתעשייה תיבחנה זו מול זו והבקשות שתוגשנה במסגרת מסלול משנה מחקר יישומי באקדמיה תיבחנה זו מול זו.

 

הגדרות רלוונטיות לקול הקורא:

מאגרי מידע (לעיתים מכונה גם- (Corpus, Data Set) –  אוסף מקטעי טקסט, משפטים או מילים אשר משמשים לניתוח בכלים אלגוריתמים, כדוגמת אימון מודלים בלמידת מכונה. אוסף זה יכול להכיל טקסט גולמי בלבד, או להכיל גם מידע מסגרת נלווה כדוגמת חלקי דיבר, זיהוי ישויות בטקסט ותיוג של הנושא המתואר בטקסט.
ערבית מדוברת – צורת השפה הערבית המקומית אשר מאפיינת מדינה או תחום גיאוגרפי.

 

רקע:

פורום תל”ם (תשתיות לאומיות למחקר ופיתוח), בו חברים הגורמים: משרד החדשנות, המדע והטכנולוגיה, המינהל למחקר, פיתוח אמצעי לחימה ותשתית טכנולוגית במשרד הביטחון (מפא”ת), משרד האוצר, הוועדה לתכנון ולתקצוב (ות”ת) ורשות החדשנות, מינה ועדת בדיקה לבחינת הצורך בהתערבות ממשלתית לשם האצת התפתחות תחום הבינה המלאכותית ומדע הנתונים, בראשות ד”ר ארנה ברי. הוועדה המליצה על תכנית ייזום לאומית שתתווה פתרון מערכתי הממוקד בארבעה תחומים: תשתיות, הון אנושי, רגולציה ונגישות לנתונים. פורום תל”ם אימץ את המלצות הוועדה וייסד את התכנית הלאומית לבינה מלאכותית ומדע הנתונים (להלן: “התכנית הלאומית”).

אחד מהצעדים למימוש התכנית הלאומית הינו המיזם ליצירת תשתית מחקר ופיתוח ויכולות מתקדמות בתחום עיבוד השפה הטבעית (Natural Language Processing – NLP) בעברית וערבית מדוברת (להלן: “המיזם”). אבן בניין בסיסית עבור כלל המשימות הכלולות במיזם הינה קיומם של מאגרי מידע בעברית ו/או ערבית מדוברת, אשר יתאפשר על בסיסם פיתוח מודלים ואלגוריתמים המותאמים לאתגרים הייחודיים המאפיינים את השפות הללו.

פיתוח מוצרים ו/או שירותים המבוססים על עיבוד שפה טבעית תלוי במידה רבה בקיומן של תשתיות ואבני בניין המהוות את ‘שכבות הבסיס’ של הבנת השפה ואשר עליהן ניתן לממש יישומים שונים. בשנים האחרונות התפתח פער טכנולוגי ניכר בין היכולות האלגוריתמיות בתחום עיבוד השפה אשר זמינות בשפות הכתובות באותיות לטיניות (בדגש על אנגלית) לבין היכולות המקבילות הקיימות עבור עברית וערבית מדוברת. פער זה נובע בחלקו מחסרונם של מאגרי מידע אשר יכולים להוות בסיס לאימון מודלים ייעודיים בלמידת מכונה.

תיאור הקול הקורא

במסגרת קול קורא זה תתאפשר הגשת בקשות בשני הליכים: הראשון יופעל מכוח מסלול משנה תשתיות מו”פ לתעשייה והשני יופעל מכוח מסלול משנה מחקר יישומי באקדמיה, והכל לצורך הקמת מאגרי מידע בעברית ו/או בערבית מדוברת, לצורך הנגשתם לשימוש תאגידים ישראליים ו/או מוסדות מחקר ישראליים, אשר נדרשים ליכולות עיבוד שפה טבעית למטרות שונות.

  • בקשה אשר תוגש מכוח מסלול משנה תשתיות מו”פ לתעשייה – יחולו עליה הוראות מסלול משנה זה וכן הוראות מסלול הטבה מס’ 5 – פיתוח תשתיות טכנולוגיות, מסחור ומחקר יישומי באקדמיה ובתעשייה (להלן: “מסלול ההטבה”), לרבות לעניין תנאי הסף ואמות המידה.
    גובה התקציב המבוקש יהא עד 550,000 ש”ח ובהתאם לשיעורי המענק המפורטים במסלול משנה תשתיות מו”פ לתעשייה.
  • בקשה אשר תוגש מכוח מסלול משנה מחקר יישומי באקדמיה – יחולו עליה הוראות מסלול משנה זה וכן הוראות מסלול ההטבה, לרבות לעניין תנאי הסף ואמות המידה.
    גובה התקציב המבוקש ושיעורי המענק יהיו בהתאם למפורט במסלול משנה מחקר יישומי באקדמיה.

להלן דוגמאות למאגרי מידע:

  1. מאגר מידע המורכב מטקסט או שמע או שילוב של השניים (שמע + תמלול מסונכרן).
  2. מאגר מידע המיועד למשימה ספציפית (כגון: שאלות ותשובות, תיוג ישויות או סיכום מסמכים).
  3. מאגר מידע נושאי מסוים (כגון: רפואי, משפטי או כלכלי).
  4. מאגרי מידע דו-לשוניים אשר מציגים את אותו הטקסט בשפות העברית והערבית.
  5. מאגרי מידע המשקפים את השפה הנהוגה ברשתות חברתיות או באפליקציות מסרים מידיים.

יש לציין, כי המיזם צפוי לכלול מגוון פעילויות, כדוגמת מימון פרויקטים של מסחור ידע מהאקדמיה לתעשייה. עם זאת, מובהר, כי ייתכן שחלקן לא יבוצע מסיבות שונות. לפיכך, יש להתייחס להקמת מאגרי נתונים המפורטים בהליך זה בשים לב לאפשרות שהיא תתבצע ללא פעילות מקבילה ו/או נוספת בתחום.

 

תכולת הבקשה במסגרת ההליכים:

הבקשה, על נספחיה, תכלול התייחסות ומענה, בין היתר, להיבטים הבאים המפורטים להלן. מובהר, כי אין מדובר ברשימה סגורה והם מהווים רק חלק מהנדרש במסגרת טופס הבקשה. ניתן להרחיב ולהתייחס לסוגיות נוספות שאינן כלולות ברשימה זו.

א. היבטים אודות מאגר המידע:

  1. מקור המידע וזכויות השימוש בו.
  2. התאריך שבו נוצר המידע.
  3. מספר המילים הצפוי במאגר המוצע.
  4. תחום/תחומים – domain (כגון: רפואי, משפטי, כלכלי או כללי). במידה והמקור מכיל יותר מתחום אחד יש להגדיר מספר מילים בכל תחום.
  5. מגוון (variety).
  6. פורמט מאגר המידע הצפוי – המאגר יהיה בפורמט שכיח (למשל: XML, CSV) ויכיל הסבר מפורט המתאר את מבנה הפורמט המוצע ודוגמא.
  7. תיאור מצב מאגר המידע המוצע – התייחסות למהות מאגר המידע, לדוגמא:
    • מאגר מידע גולמי המצריך עבודת ניקוי בטרם ניתן יהיה לעשות בו שימוש
    • מאגר מידע נקי (לדוגמא, מהערות, סימונים לא רלוונטיים, וכל רעש אחר)
    • מאגר מידע נקי ומתויג (כולל הפורמט הדיגיטלי המוצע והסברים על התוכן)
  8. תיאור קיומם של נתוני מסגרת נוספים (באם קיימים), מעבר לטקסט/אודיו (תיוג, סכום, מטאדאטה וכו’).

*מענה לאמור בסעיף זה יינתן בסעיף 7 “תשתית ושירותים” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה תשתיות מו”פ לתעשייה או בסעיף 4 “פירוט המחקר” ביחס לבקשה שתוגש במסגרת מסלול משנה מחקר יישומי באקדמיה.

 

ב. היבטים אודות תהליך בניית מאגר מידע:

יש לפרט את תהליך הבדיקה והבקרה על התוכן/גיוון מקורות המידע/חוסר הטייה (bias)/איכות.

*מענה לאמור בסעיף זה יינתן בסעיף 7 “תשתית ושירותים” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה תשתיות מו”פ לתעשייה או בסעיף 4 “פירוט המחקר” ביחס לבקשה שתוגש במסגרת מסלול משנה מחקר יישומי באקדמיה.

 

ג. היבטים אודות שימושים אפשריים במאגר מידע:

יש לפרט את המשתמשים הפוטנציאליים וכן את השימושים הפוטנציאליים במאגר המידע.

*מענה לאמור בסעיף זה יינתן בסעיף 7 “תשתית ושירותים” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה תשתיות מו”פ לתעשייה או בסעיף 4.2 “מוצרים עתידיים” ביחס לבקשה שתוגש במסגרת מסלול משנה מחקר יישומי באקדמיה.

 

ד. היבטים אודות הנגשת מאגר המידע ותחזוקתו:

  1. מודל הנגשת מאגר המידע (הנגשת מאגר המידע ללא עלות, הנגשה ללא עלות אך לאחר פרק זמן מסוים שהייתה “בבעלות בלעדית” של המבקש, הנגשה בתשלום וכו’).
  2. סוג רישיון השימוש במאגר המידע (Open Source, מחקרי, מסחרי, אחר):
  • במידה וקיימות מגבלות על השימוש במאגר המידע (למשל: שימוש מותר לצרכי מחקר אקדמי בלבד אך אסור ביישומים תעשייתיים), יש לציין זאת באופן מפורש ומפורט.
  • במידה והרישיון הוא מסוג “אחר”, יש לפרט את התנאים לשימוש במידע.
  1. מודל תחזוקת מאגר המידע – יש לפרט את מדיניות התחזוקה המוצעת, הליך בדיקת האיכות של מאגר המידע במהלך התקופה, משך תקופת העדכון ומספר הפעמים בתקופה זו בהם יעודכן מאגר המידע (לדוגמא אחת לחודש, לרבעון וכו’), תיעוד העדכונים וכו’.
  2. תיעוד מאגר המידע – יש לצרף לכל גרסה של מאגר המידע קובץ תיעוד עם השינויים ותוספות.
  3. מקורות המידע וכן הצהרת המבקש על הרשאת השימוש במידע יוקם מאגר המידע.

*מענה לאמור בסעיף זה יינתן בסעיף 8 “מודל הכנסות, מחירים, תמחור ותחזית המכירות של תוצרי התכנית הרב שנתית” לטופס הבקשה ביחס לבקשה שתוגש במסגרת מסלול משנה תשתיות מו”פ לתעשייה או בסעיף 4.2 “מוצרים עתידיים” ביחס לבקשה שתוגש במסגרת מסלול משנה מחקר יישומי באקדמיה.

 

אופן הגשת הבקשה:

  1. יש לקרוא בעיון את הוראות מסלול ההטבה ומסלול המשנה הרלוונטי (מסלול משנה תשתיות מו”פ לתעשייה או מסלול משנה מחקר יישומי באקדמיה), וכן את הנהלים הרלוונטיים, ולוודא עמידה בתנאי הסף המפורטים בנוסחם המלא.
  2. יש למלא אחר ההנחיות המפורטות בהוראות מסלול ההטבה ומסלול המשנה הרלוונטי, הנהלים הרלוונטיים והודעה זו.
  3. יש להגיש את הבקשה באזור האישי באתר האינטרנט של רשות החדשנות על גבי טופס הבקשה של מסלול המשנה הרלוונטי:
  1. יש לעקוב אחר דף קול קורא זה, אשר בו יפורסמו עדכונים בנוגע לשני ההליכים, אם יהיו.
  2. אין באמור בהודעה זו משום התחייבות לאישור בקשה כלשהי אשר תוגש במסגרת מי מההליכים.

 

המועד האחרון להגשת בקשות בשני ההליכים: 15.5.2022 התשפ”ב, בשעה 12:00 בצהריים.
לא יתקבלו בקשות אשר תוגשנה לאחר מועד זה.

לצפיה בוובינר הדרכה למגישים חדשים לחצו להפעלת הסרטון