שלח אלינו מיילהתקשר אלינו

טכנולוגיה

זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) הוא תחום בתוכנה שבו מטרת התוכנה היא קידוד טקסט כתוב (בדרך כלל בדפוס, לעתים נדירות גם בכתב יד) למידע דיגיטלי טקסטואלי (כלומר, אוסף בתים) שמכיל טקסט זהה.

טכנולוגיה

זיהוי תווים אופטי

 

זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) הוא תחום בתוכנה שבו מטרת התוכנה היא קידוד טקסט כתוב (בדרך כלל בדפוס, לעתים נדירות גם בכתב יד) למידע דיגיטלי טקסטואלי (כלומר, אוסף בתים) שמכיל טקסט זהה. התהליך כרוך בסריקה או בצילום של טקסט המקור לקובץ תמונה, והפעלה של תוכנה מתאימה שמזהה בתמונה את התווים השונים המרכיבים את הטקסט, וממירה כל אחד מהם לתו יחיד בקובץ טקסט. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה שאין בה הבחנה בין התווים השונים, בזיהוי הכתב האופטי ממירים ומפענחים תמונה שמורכבת ממליוני נקודות (פיקסלים), לאותיות שיש ביניהן אבחנה כמו באותיות מוקלדות.

 

את הזיהוי ניתן לבצע בשתי צורות שונות:

 

התאמה תבניתית - בשיטה זו שומרים על תבניות שונות של האותיות, ומנסים לבדוק איזה מהאותיות היא הדומה ביותר לתבנית.

תיאור מבני - בשיטה זו מחלקים את האות לחלקים שונים ויוצרים תיאור של חלקיה השונים של האות והיחסים שביניהם.

כדי למזער את כמות התווים השגויים שנוצרים בתהליך, מפעילה התוכנה לפעמים בדיקה מול מילון. במקרה זה התוכנה מכילה רובד נוסף שמרכיב את התווים המזוהים למילים שלמות, מחפש כל מילה במילון, ובמקרה שאינו מוצא אותה, מנסה לשנות תווים מסוימים (אלה שבהם וודאות הזיהוי נמוכה) עד שהמילה המזוהה נמצאת באוצר המילים של המילון.

 

שלבי התהליך

 

  • זיהוי שורות הטקסט ויישור השורה כך שהאותיות יהיו אופקיות. שלב זה פותר בעיות של דפים שסריקתם נעשתה בזווית, מה שמקשה על התוכנה לזהות את צורת האותיות בצורה נכונה.
  • ניקוי של הרקע מלכלוך. במקרה של טקסט עברי מאותר גם הניקוד ונמחק, כדי להקל על זיהוי האותיות עצמן.
  • הפרדת השורות השלמות לאותיות ומילים על פי מרווחים.
  • זיהוי הגופן (פונט) שבו הודפס הטקסט, על ידי הפעלת אלגוריתם (איטי) המזהה מאפיינים של גופנים שונים, ובוחר את הגופן הקרוב ביותר.
  • זיהוי האותיות הבודדות לפי המאפיניים המפרידים בין האותיות בהתאם לפונט הנבחר (זהו שלב מהיר).
  • חיפוש המילים המזוהות במילון (אופציונלי). בכל מקרה של מילה שאיננה במילון, מבוצע נסיון להחליף אותיות באותיות קרובות מבחינת מאפיינים, עד הגעה למילה שנמצאת במילון.
  • במקרה של מקור שמכיל גם תמונות, יצירת קובץ שבו משולב הטקסט עם התמונות הסרוקות.

חלק ממאפייני האותיות הם פשוטים, כדוגמת מיקומי קווים אופקיים ואנכיים, או משקל השחור בתתי האזורים השונים בתוך הריבוע המכיל את האות, רוחב האות וגובהה, חריגה מעל או מתחת לקו השורה וכדומה. במקרים בהם המרחק בין מאפייני אותיות דומות הוא גדול יחסית, ההפרדה היא אופטימלית.

 

במקרים בהם התוכנה היא כזו שמזהה מילים, ניתן להקטין את כמות השגיאות בתהליך אם ניתן לבדוק האם המילה הנבחרת מתאימה לתוכן, כלומר האם במיקום בו היא זוהתה, היא בהקשר סביר לטקסט. הבנת ההקשר היא מורכבת ונעשית על ידי בדיקה האם המילה ממלאת תפקיד חיבורי הגיוני במשפט, או בשיטות סטטיסטיות - האם המילים בקרבתה מופיעות במקום אחר או במסמכים אחרים ובאיזו הסתברות.

 

תוכנות זיהוי מתוחכמות בנויות כרשת עצבית, שהיא תהליך תכנותי המבוסס על התנסות ולמידה. תוכנה כזו מציגה את הטקסט המזוהה למשתמש, שמתקן שגיאות בזיהוי, והתוכנה לומדת את השגיאות ומנסה להקטין את הסיכוי שתחזורנה בעתיד. ליכולת זו שימוש רק אם סוג הטקסטים שעוברים זיהוי הם דומים מבחינות שונות - גופן הדפסה, גודל אות, אוצר מילים ועוד. 

 

היסטוריה

 

בשנת 1929, גוסטב טאוצ'ק רשם פטנט על זיהוי התווים האופטי (OCR) בגרמניה, ולאחריו הנדל רשם גם הוא את הפטנט בארה"ב בשנת 1933 (פטנט מס' 1,915,993). בשנת 1935 קיבל טאוצ'ק רישום פטנט גם על שיטתו הייחודית (פטנט מס' 2,026,329).

 

המכונה של טאוצ'ק עבדה בטכנולוגיה מיוחדת הבנויה מתבניות.גלאי תמונות הוצב ממול התבנית והדמות לזמן מדויק כאשר האור מכוון אליהם בצורה כזו שלא יגיע לגלאי.

 

בשנת 1950, פרנק רוולט, ששבר בעברו את הקוד ה"סגול" היפני ביקש מדיוויד שפרד, קריפטוגרף בסוכנות הביטחון הלאומי (סוכנות של ממשלת ארה"ב העוסקת ביצירת צפנים ופיענוחם להגנת ולקריאת מידע מוצפן וכן בנושאי קומוניקציה שונים), לעבוד עם ד"ר לואיס טורדלה ולהמליץ על מידע מכוון פרוצדורי לסוכנות. בעבודה התגלתה בעיה בלקיחת הודעות מודפסות ושינויין לשפת המכונה. שפרד החליט שחייב להמצא לכך פתרון וזה אפשרי לבנות מכונה שתהיה מסוגלת לבצע את ההעברה הזו, ועם עזרת חברו הארבי קוק הוא בנה את "גיזמו" בעליית הגג שבביתו, בעיקר בערבים ובסופי שבוע. הליך זה תועד לגיליון של ה-Washington Daily News ב27/04/1951 ובNew York Times ב26/12/1953.לאחר מכן, הקים שפרד את חברת IMR, שהיו הראשונים להביא את מערכות ה-OCR לשימוש מסחרי. בזמן שהמערכות המתקדמות של IMR השתמשו בטכנלוגיה של ניתוח תמונות כנגד התאמת דמויות, ויכלו להסכים על מספר גופנים שונים, "גיזמו" היתה די מוגבלת ביחס אליהן בעיקר ברישום שמוצב במאונך למכונה שלא היווה בעיה למערכות של IMR.

 

המערכת לזיהוי תווים אופטי המסחרית הראשונה הותקנה ב"רידרס דייג'סט" (ירחון אמריקאי המפרסם גרסות מתומצתות של מאמרים ותקצירי פרסומים ממקורות שונים) בשנת 1955, והיום היא מצויה ב- Smithsonian (המוזיאון הלאומי של ארה"ב). המערכת השניה נמכרה לחברת הנפט של קליפורניה לצורך סריקת כרטיסי אשראי לצורכי חיוב, ולאחר מכן נמכרו מערכות רבות נוספות לחברות נפט שונות. מערכות נוספות לצורכי חיוב נמכרו ע"י IMR בסוף שנות ה-50 לחברת הטלפון שבאוהיו, וסורק דפים נמכר לחיל האוויר של ארה"ב לצורך קריאת והעברת מסמכים שנכתבו בטלפרינטר. IBM ואחרים הורשו מאוחר יותר להשתמש בפטנטים של שפרד.

 

בשנת 1965, "רידרס דייג'סט" ו-RCA שיתפו פעולה בבניית מזהה תווים אופטי שיעוצב כך שיהפוך את הנתונים האנלוגיים במספרים סידוריים שעל התלושים במודעות של ה"רידרס דייג'סט" לספרתיים. הגופן שהשתמשו בו היה על המסמכים מודפס באמצעות מדפסת של RCA תוך שימוש בOCR-A font. המפענח חובר ישירות למחשב (RCA 301), נעקב ע"י מסמך קריאה מיוחד שהותקן בTWA היכן שהמפענח עיבד מלאי של כרטיסי טיסה. המפענח עיבד מסמך בקצב של 1500 מסמכים לדקה, בדק כל מסמך ודחה את אלו שלא הצליח לפענח. המוצר הפך לחלק מקו המוצרים של RCA כמפענח שעוצב לעיבוד ""Turn around Documents ביניהם ביטוח על גביית כספים.

 

שרות הדואר של ארה"ב משתמשים במכונות OCR לסווג מיילים מאז 1965, המכונות מבוססות על טכנולוגיה שהומצאה בעיקר ע"י הממציא השופע ג'ייקוב רבינוב. השימוש הראשון ב-OCR באירופה היה של רשות הדואר של בריטניה. בשנת 1965 החל תכנון של מערכת בנקאות, מערכת ההסבה הלאומית, תוך שימוש בטכנולוגית ה-OCR, וזו היתה לרבולוציה של מערכת התשלומים בבריטניה. ברשות הדואר בקנדה משתמשים במערכות OCR עוד משנת 1971.מערכות ה-OCR קוראות את השם והכתובת מספר הכתובות תוך מיון ממוכן, ומדפיסות ברקוד המובסס על מיקוד הדואר. לאחר-מכן המכתבים צריכים להתמיין במרכזי רשות הדואר השונים בפשטות ע"י מכונות שצריכות בסך-הכל לקרוא את הברקוד. למניעת תקלות בקריאת הכתובות, משתמשים בדיו מיוחד שנראה היטב תחת אור אולטרה-סגול.

 

בשנת 1974, ריי קורצוויל פתח את חברתו "קורצוויל מוצרי מחשב בע"מ (Kurzweil Computer Products, Inc ), והיה למוביל בפיתוח המערכת הראשונה שקוראת בצורה אופטית כל גופן רגיל. הוא החליט שהאפליקציה הכי טובה של הטכנולוגיה הזו תהיה הכנת מכשיר קריאה לעיוורים, שיאפשר לעיוורים להבין טקסט כתוב תוך שהמחשב קורא להם אותו בקול. ההתקן גרר המצאה של 2 טכנולוגיות חדשות – הסורק השולחני וסינתיסייזר של טקסט-לשמיעה. ב13/01/1976 המוצר המוגמר נחשף בהיקף נרחב בכל העיתונות כאשר האורות הכוונו לעבר קורצוויל ומובילי הפדרציה הלאומית לעיוורים. המוצר קיבל את השם "מכונת הקריאה קורצוויל" (Kurzweil Reading Machine). אמנם ההתקן יכול היה לכסות שולחן עבודה שלם, אך הוא תפקד בצורה מצויינת.

 

בשנת 1978 קורצוויל מוצרי מחשב החלו למכור גרסה מסחרית של המזהה תווים אופטי כתכנת מחשב. לקסיס-נקסיס (מחלקה משפטית של חברת ריד אלסביר שהינה חברת אספקת שירותי מידע משפטי ועסקי ושירות מחשב מקוון) היתה לאחת מהרוכשות הראשונות וקנתה את התכנה בכדי להעלות מאמרים וקבצי חדשות על בסיסי הנתונים המקוונים. שנתים לאחר מכן קורצוויל מכר את חברתו לחברת זירוקס (Xerox) שהתעניינה בקידום המרת הטקסט הכתוב אל תוך המחשב. קורצוויל מוצרי מחשב נהייתה לחברת-בת של זירוקס תחת השם סקאנסופט (קיום היא נקראת ניואנס תקשורת - Nuance Communications).

 

טכנולוגית ה – OCR כיום

 

הזיהוי המדוייק של האלפבית הלטיני וכתבים מודפסים שונים הופך בימים אלו לפתרון שכיח.

כיום ניתן לזהות כתבים במעל 99% דיוק, אך חלק מהאפליקציות דורשות מבט אנושי נוסף לאחר הזיהוי (לבדיקת מילים/אותיות שדיוקם בספק).

הדיוק נעשה בכמה דרכים כדי להבטיח מינימום שגיאות. לדוגמא תוכנות ה- OCR המובחרות (דוגמת התוכנות של ABBYY) מחוברות למילון ובכך מצמצמות את הסיכוי לטעות (99% דיוק במקום 95% בלי מילון).

 

זיהוי תווים אופטי (OCR) עשוי להתקשר בטעות לזיהוי תווים "און-ליין".

בעוד OCR הינו זיהוי תווים "אוף-ליין" בו המערכת מזהה את הצורה המתוקנת של האות, זיהוי תווים "און-ליין" מזהה את התנועה של היד בזמן הכתיבה.

זיהוי תווים "און-ליין" מתקשר גם לזיהוי דינמי של תווים, זיהוי תווים בזמן-אמת וזיהוי תתוים אינטלגנטי (ICR).

ICR - Intelligent Character Recognition - הינה זיהוי תווים אופטי מתקדם, וליתר דיוק, זיהוי תווים בכתב יד.

 

OMR - Optical Mark Recognition - זו טכנולוגיה ללכידת מידע מסומן בכתב יד אדם בתוך טפסים כמו מבחנים וסקרים. מושג לכידת מידע מוכר יותר בעולם כ- Data Capture.

 

זיהוי אופטי של כתב עברי היווה בעיה בקרב המפתחים היות והאותיות בשפה העברית דומות זו לזו (לדוגמא: "ם" ו-"ס", "ו" ו-"י"), מכאן בא הפתרון המתבסס של טכנולגית "רשתות הנוירונים".

הטכנולוגיה בעצם בנוית מודל הסתברותי שמתקן את עצמו בלי תלות בפרמטרים שמזין המפתח ומכאן עצמתן של הרשתות.

העצמה מתבטאת בכך שאין צורך להבין במדויק כל אות, אלא להסתברות שהיא תתקיים במילה/משפט.

בזכות טכנולוגית "רשתות הנוירונים" אנו נהנים כיום מזיהוי כתב עברי ברמה מאוד גבוהה.

 

כיום יש שלוש תוכנות מובילות התומכות ב-OCR עברי; הראשונה הינה ABBYY FineReader שלפי בדיקות המעבדה במרכז הפיתוח של החברה במוסקבה רוסיה, היא עדיפה ברמת הזיהוי מול מתחרותיה ומבטיחה תוצאה של 98% כאשר הקלט ברור עם רזולוציה של 300 DPI, השניה ליגטורה או Ligature מישראל והשלישית הינה ReadIris מבלגיה.

 

מבחינה היסטורית ליגטורה הישראלית (Ligature) הובילה את שוק פענוח ה-OCR עד שנת 2005. בשנה זו הכריזה ABBYY על תמיכתה בעברית במוצר FineReader ואכן מאז 2005 הצמיכה של ה-FineReader בשוק זה הינה הגבוהה ביותר.