דף הבית » איך ל » כיצד ניתן להעתיק טקסט ממסמך PDF תוך שמירה על העיצוב?

    כיצד ניתן להעתיק טקסט ממסמך PDF תוך שמירה על העיצוב?

    PDF, פורמט המסמכים הנפוץ, מתאים לשיתוף מסמכים תוך שמירה על גופנים, תמונות ופריסה כללית בפלטפורמות. האם יש דרך קלה, עם זאת, כדי לשמור על עיצוב מאוד בעת העתקה והדבקת טקסט מתוך המסמך?

    מפגש השאלות והתשובות של היום מגיע אלינו באדיבות SuperUser - חלוקה מחודשת של Stack Exchange, קיבוץ מונחה על ידי הקהילה של אתרי אינטרנט של Q & A.

    השאלה

    SuperUser הקורא Colen מחפש דרך לחלץ טקסט ממסמכי PDF תוך שמירה על העיצוב:

    כאשר אני להעתיק טקסט מתוך קובץ PDF לתוך עורך טקסט, זה בסופו של דבר התמזגו במגוון דרכים. עיצוב כמו מודגש ונטוי אבודים; רצועות שורה רכה בתוך פסקה של טקסט מומר קו הפסקות קו; מקפים לשבור מילה על שתי שורות נשמרים גם כאשר הם לא צריכים להיות; ואת ציטוטים בודדים כפולים מוחלפים? שלטים.

    באופן אידיאלי, אני רוצה להיות מסוגל להעתיק טקסט מתוך PDF יש עיצוב המרה קודי HTML, "ציטוטים חכם" המרה ל "ו", ואת מעברי שורה נעשה כראוי. האם יש דרך לעשות זאת?

    האם יש דרך קלה וקלה עבור קולן (וגם את כולנו) כדי לתפוס טקסט מבלי להקריב את העיצוב?

    התשובה

    SuperUser תורם Frabjous מציעה פתרון בשילוב עם מינון כבד של זהירות:

    ראשית, אתה צריך להבין מה זה PDF. קבצי PDF נועדו לחקות דף מודפס, והם נועדו רק בפורמט פלט, לא בפורמט קלט. PDF הוא בעצם מפה המכילה את המיקום המדויק של תווים (אותיות בודדות או סימני פיסוק, וכו ') או תמונות. ברוב המקרים, מסמך PDF אפילו אינו מאחסן מידע על שם מילה אחת מסתיימת והשנייה מתחילה, הרבה פחות דברים כמו הפסקות קלות לעומת הפסקות קשות עבור קצות פסקה.

    (כמה מסמכי PDF אחרונים שומרים מידע על החומר הזה, אבל זוהי טכנולוגיה חדשה, ותהיה לך מזל למצוא מסמכי PDF כאלה, גם אם עשית זאת, ייתכן שמציג ה- PDF שלך לא ידע על כך).

    בכל מקרה, זה תלוי בתוכנה שלך כדי ליישם איזה סוג של "בינה מלאכותית" כדי לחלץ רק ממקומות של דמויות בודדות מהי מילה, מה פיסקה, וכן הלאה. תוכנה אחרת היא לעשות את זה טוב יותר מאחרים, וזה גם הולך תלוי איך נעשה PDF. בכל מקרה, אתה לא צריך לצפות לתוצאות מושלמות. לאחר הפלט PDF אינו זהה שיש מסמך המקור. עדיף לנסות להשיג את זה אם אתה יכול.

    הפתרון הסטנדרטי לבעיה שלך הוא להשתמש Adobe Acrobat Professional (יקר אחד, לא קורא חינם) להמיר PDF ל- HTML. גם זה לא הולך לקבל תוצאות מושלמות.

    יש תוכנה חופשית שניתן להשתמש בהם כדי לחלץ טקסט מ- PDFs עם כמה עיצוב שלם, אבל שוב, לא מצפה לתוצאות מושלמות. ראה למשל קליבר (שיכול להמיר לפורמט RTF), pdftohtml / pdfreflow או מעבד התמלילים AbiWord (עם כל התוספים לייבוא ​​/ ייצוא מופעלים). יש גם תוסף ייבוא ​​PDF עבור OpenOffice.

    אבל בבקשה אל תצפו לשלמות עם כל התוצאות הללו. אתה הולך נגד הדגן כאן. PDF פשוט לא נועד כפורמט קלט לעריכה.

    אם אתה מתקשה להחליט איזה כלי להתחיל, קליבר הוא מסמך אמיתי שוויצרי סכין הצבא. אתה יכול גם להשתמש בו כדי להמיר קבצי PDF לשימוש על הקורא ספר אלקטרוני שלך לארגן את ספר אלקטרוני / ספריית מסמכים.


    יש לך משהו להוסיף להסבר? נשמע את ההערות. רוצה לקרוא תשובות נוספות ממשתמשים אחרים בעלי ידע טכנולוגי מתמצא? בדוק את נושא הדיון המלא כאן.