Tesseract.js מביא תמונה OCR תרגום לדפדפנים

OCR תרגום עדיין לא מושלם אבל זה השתפר באופן דרמטי במהלך השנים האחרונות. המוביל את הדרך הוא Tesseract מנוע תרגום כרגע מקור פתוח ג++.

אמנם זה ספריה מדהימה, אבל זה מוגבל לתוכנה. למרבה המזל מישהו עשה נמל של Tesseract לתוך JavaScript אשר נקרא Tesseract.js. זה תומך עד 60 שפות ובעוד זה בהחלט לא מושלם, זה עושה את העבודה טוב.

התקנה והתקנה היא משב רוח שבו אתה יכול לכוון כל אלמנט תמונה בדף ולהפעיל את Tesseract.recognize () פונקציה. זה יכול לקחת כל סוג של תמונה וזה יהיה באופן אוטומטי לדחוס & לתרגם ממש בדפדפן.

אתה יכול לקבל הרבה יותר מסובך אבל היופי כיצד ניתן להפעיל OCR עם שורה אחת של קוד.

בדוק את דף הנחיתה Tesseract.js אם אתה רוצה לראות הדגמה חיה. זה עובד נכון בדפדפן שבו אתה יכול גרור ושחרר כל תמונה סרוקה של טקסט כדי לקבל תרגום אוטומטי של OCR.

ניתן גם להוריד את הדוגמה הזו באופן מקומי דרך דף GitHub או שתוכל לבנות אפליקציה משלך על ידי הוספת סקריפט Tesseract.js ישירות מ- CDN.

קוד הקוד הפשוט ביותר נראה כמו שם myImage היא התייחסות ישירה למרכיב HTML image:

 Tesseract.recognize (myImage). ואז (פונקציה (תוצאה) console.log (תוצאה));

כך או כך ספריה זו מועילה כל כך להגיע לנוע עם OCR באינטרנט. זה רחוק מלהיות מושלם אבל זה גם המשאב הטוב ביותר עבור מפתחי אינטרנט שרוצים פונקציונליות OCR דינמי ב- OCR.

למידע נוסף, בקר בדף Tesseract.js GitHub שבו תוכל לבדוק הדגמה חיה ולעיין בתיעוד המקוון.