קול קורא לבקשות ליצירה, אימון והנגשת מודלי למידת מכונה, מאגרי מידע וכלים בתחום עיבוד השפה העברית והערבית

חטיבות

תשתיות חדשנות

רוצים/ות לשמוע עוד?
מוזמנים לצפות בוובינר אודות הקול הקורא והמסלול
וגם לצפות בוובינר שיסביר לכם בדיוק כיצד תוכלו להגיש בקשה

תמצית הקול קורא

רשות החדשנות מודיעה על פתיחת 3 הליכים להגשת בקשות לקבלת מענק לצורך יצירה אימון והנגשת מודלי למידת מכונה, מאגרי מידע (datasets) וכלים לתחום עיבוד שפה בעברית ו/או בערבית מדוברת. התוצרים של מאגרי המידע, הכלים והמודלים, יהוו תשתית לתאגידים ישראליים ו/או למוסדות מחקר ישראליים, העוסקים במחקר ופיתוח ונדרשים ליכולות עיבוד שפה למגוון מטרות. המודלים נועדו לטיפול במשימות שפתיות בהן קיים פער בין היכולות הקיימות עבור השפות עברית וערבית לבין שפות נפוצות יותר (כגון אנגלית). 

במסגרת הקול הקורא תתאפשר הגשת בקשות לכל אחת מהמטרות באחד משלושת ההליכים האלה:

 

הגדרות:

  • מודל למידת מכונה (“מודל” או “מודלים”) – מודל המאומן לזהות דפוסים ותבניות במידע על סמך תצפיות עבר.
  • מאגרי מידע (לעיתים מכונה גם– (Corpus, Data Set –   אוסף מקטעי טקסט, משפטים או מילים אשר משמשים לניתוח בכלים אלגוריתמים, כדוגמת אימון מודלים בלמידת מכונה. אוסף זה יכול להכיל טקסט גולמי בלבד, או להכיל גם מידע מסגרת נלווה (“תיוג”) כדוגמת חלקי דיבר, זיהוי ישויות בטקסט ותיוג של הנושא המתואר בטקסט. כמו כן, המאגר יכול להכיל שילוב של טקסט עם מקטעי שמע, תמונות ו/או ווידאו במטרה לאפשר ניתוח משולב של נתונים בעלי אופי מגוון (multi-modal).
  • ערבית מדוברת – צורת השפה הערבית המקומית אשר מאפיינת מדינה או תחום גיאוגרפי.

תיאור הקול הקורא

תכנית הNatural Language Processing) NLP) היא חלק מהתוכנית הלאומית לבינה מלאכותית ומדע הנתונים (להלן: “התוכנית הלאומית”) ומטרתה היא לקדם את סגירת הפער שנוצר בNLP בשפה העברית והערבית (דוגמאות לדרכים בהם ניתן לבצע זאת מפורטים בתחתית העמוד*) ולייצר את התשתיות הנדרשות לפיתוח מוצרים ו/או שירותים בעברית ו/או ערבית (ואינו מוגבל לערבית מדוברת בלבד) ע”י:

  • יצירת מאגרי מידע חדשים
  • יצירת מודלים חדשים בעזרת מאגרי מידע קיימים ו/או חדשים
  • שימוש במאגרי מידע קיימים לטובת פיתוח כלים/מודלים, כדוגמת: מאגרי מידע של משרדים ממשלתיים, מאגרי מידע של ארגוני בריאות או מאגרי מידע שנוצרו בתוכנית הלאומית
  • יצירת תשתיות וכלי פיתוח לתחום עיבוד השפה בשפות עברית וערבית

 

קהל יעד  

  • חברות יישום 
  • תאגידים תעשייתיים
  • מוסדות מחקר

 

גובה המענק

 

קריטריונים להערכת בקשה

בחינה והחלטה לגבי אישור או דחיה של בקשות, מתן הטבות והחובות והזכויות של מקבל הטבה, כגון בקשר לידע וקניין רוחני, דיווח ותשלום תמלוגים, יהיו בהתאם להוראות חוק החדשנות, מסלול ההטבה הרלוונטי, מסלול המשנה הרלוונטי וכן הנהלים שנקבעו מכוחם (כולל אלה המופיעים באזור נהלי מסלול המשנה)

 

הגשת בקשה

  1. ניתן להגיש בקשות עד לתאריך 09.07.2023, בשעה 12:00 בצהריים.
  2. יש לקרוא בעיון את הוראות מסלול ההטבה ומסלול המשנה הרלוונטי (מסלול משנה תשתיות מו”פ לתעשייה, מסלול משנה מחקר יישומי באקדמיה או מסלול משנה מסחור ידע), ואת הנהלים הרלוונטיים, ולוודא עמידה בתנאי הסף המפורטים..
  3. יש למלא אחר ההנחיות המפורטות בהוראות מסלול ההטבה ומסלול המשנה הרלוונטי, הנהלים הרלוונטיים והודעה זו.
  4. יש להגיש את הבקשה באזור האישי על גבי טופס הבקשה של מסלול המשנה הרלוונטי:
  5. יש לעקוב כאן אחרי העדכונים לשלושת ההליכים.
  6. אין באמור בהודעה זו משום התחייבות לאישור בקשה כלשהי אשר תוגש במסגרת מי מההליכים.

 

יצירת קשר

לשאלות כלליות ושאלות על אופן הגשה הבקשה באזור האישי, ניתן ליצור קשר עם מערך הלקוחות בדוא”ל: contactus@innovationisrael.org.il או בטלפון 03-7157900 בימים א’-ה’ בשעות 9:00-17:00.
לפניות בנוגע למסלול ההטבה ומסלולי המשנה ניתן ליצור קשר עם חטיבת תשתיות חדשנות בדוא”ל:  technological.infrastructure@innovationisrael.org.il


* דוגמאות:

דוגמאות למודלי למידת מכונה תשתיתיים בעולם עיבוד השפה:

  1. מודל שיחה (Chatbot) – מודל המסוגל לנהל שיחה במרכז שירות, לתת מענה טכני, לנתב שיחות וכו’.
  2. מודל לניתוח סינטקס – מודל אשר בהינתן משפט מבצע Tokenization, סגמנטציה, ניתוח עצים תחביריים, תבנית המילה – Lemma, מין (זכר, נקבה), כפלי משמעות, חלק הדיבר (Part of speech), Numeral – יחיד או רבים, זמן (עבר, הווה, עתיד), גוף (אני, אתה, את, הוא, היא וכו’).
  3. מודל לזיהוי ישויות – כולל זיהוי ישות, זיהוי סוג הישות (אדם, ארגון, מקום ועוד), זיהוי 1X1 של הישות (כלומר אם זוהה ארגון בשם “בן-גוריון” המודל ידע לזהות האם מדובר בנמל התעופה, האוניברסיטה או ארגון אחר).
  4. מודל לזיהוי סנטימנט.
  5. מודל התממה למידע רגיש.
  6. מודל לניתוח משולב של מידע טקסטואלי, חזותי ו/או שמיעתי. כדוגמת חיפוש מבוסס טקסט במאגרים של שמע תמונות או ווידאו, או לחלופין יצירה אוטומטית של טקסט תיאורי מתוך מידע חזותי.

דוגמאות למאגרי מידע:

  1. מאגר מידע המורכב מטקסט, שמע או שילוב של השניים (שמע + תמלול מסונכרן).
  2. מאגר מידע המשלב טקסט ומידע חזותי, כגון תמונות או סרטונים.
  3. מאגר מידע המיועד למשימה ספציפית, כגון: ניתוח מורפולוגי, תיוג ישויות או התממה.
  4. מאגר מידע שיחתי אשר נועד לקידום יישומים מבוססי דיאלוג (chatbots).
  5. מאגר מידע נושאי מסוים, כגון: רפואי, משפטי או כלכלי.
  6. מאגרי מידע דו-לשוניים, אשר מציגים את אותו הטקסט בשפות העברית והערבית.
  7. מאגרי מידע המשקפים את השפה הנהוגה ברשתות חברתיות או באפליקציות מסרים מידיים.

דוגמאות לכלים לעיבוד שפה (NLP):

מטרת הכלים הינה להקל על משתמשים מקצועיים ולא מקצועיים לעשות שימוש במודלים שונים.

  1. כלי דמוי SPACY או מודל שפה המאפשר למשתמש להזין טקסט ולקבל אותו מפוענח עבור מספר משימות:  ניתוח מורפולוגי, זיהוי ישויות וזיהוי סנטימנט. הכלי יהיה “ארוז” בצורה נוחה להתקנה ושימוש, לדוגמא: חבילת PIP INSTALL בשפת פייתון.
  2. כלי עיבוד שפה לביצוע משימות שונות המסוגל “לרוץ” על מחשבי קצה בעלי יכולות עיבוד נמוכות.

יודגש, כי ניתן להציע מאגרי מידע, מודלים שפה וכלים לעיבוד שפה גם אם הם אינם מתוארים בקול קורא זה. עם זאת, אין להציע מודל שפה כשלעצמו, או מודל שפה ענק Large language model. בנוסף, מומלץ שהבקשות יכללו מודלים וכלים שיתאימו לשימוש במגוון גדול ככל הניתן של תרחישים (ולא מוכוונים לתרחיש או תעשייה מסוימים).

 

לתכולת הבקשה

 


* מובהר, כי כל אחת מהחלופות הנ”ל מהווה הליך נפרד ובלתי תלוי, כאשר הבקשות אשר תוגשנה במסגרת מסלול משנה תשתיות מו”פ לתעשייה תיבחנה זו מול זו, הבקשות אשר תוגשנה במסגרת מסלול משנה מחקר יישומי באקדמיה, תיבחנה זו מול זו והבקשות שתוגשנה במסגרת מסלול משנה מסחור ידע תיבחנה זו מול זו.