처음 과제를 위해 받은 PDF 파일을 열었을 때, 글자가 엉망으로 깨져 보였던 적이 있습니다. 분명 화면에서는 멀쩡했는데, 한글 프로그램으로 옮기려고 하니까 이상한 기호와 알 수 없는 문자들로 가득 찼습니다. 처음에는 컴퓨터가 고장 난 줄 알았지만, 나중에 알고 보니 PDF에서 다른 형식으로 변환할 때 흔히 생기는 문제였습니다. 이런 경험을 한 번쯤 해본 적이 있다면, 왜 이런 일이 생기는지, 그리고 어떻게 하면 덜 깨지게 할 수 있는지 차근차근 알아보면 도움이 됩니다.
왜 PDF를 변환하면 글자가 깨질까요?
PDF는 “어떤 컴퓨터에서 보더라도 똑같이 보이도록” 만든 형식입니다. 그래서 글자 모양, 배치, 그림 등을 하나의 묶음으로 딱 고정해 둡니다. 이게 장점이지만, 다른 프로그램으로 변환할 때는 오히려 문제가 되기도 합니다.
대표적인 이유는 다음과 같습니다.
- PDF 안에 폰트(글꼴)를 제대로 넣지 않았을 때
- PDF를 만든 프로그램과, 변환에 사용하는 프로그램의 방식이 서로 다를 때
- PDF에 글자가 아니라 “이미지”로만 들어가 있을 때
- PDF 파일 자체에 오류가 있을 때
이런 이유들 때문에 한글이나 워드 파일로 바꾸면 글자가 이상하게 보이거나, 글자 사이가 깨지거나, 아예 물음표나 네모로 보이는 일이 생깁니다.
온라인 PDF 변환기 활용하기
요즘에는 프로그램을 따로 설치하지 않아도 웹사이트에서 바로 PDF를 변환할 수 있는 경우가 많습니다. 이런 온라인 변환기는 접근성이 좋고, 여러 가지 형식으로 바꿀 수 있어서 편리합니다.
대표적인 예로는 Smallpdf, iLovePDF, Adobe Acrobat Online 등이 있습니다. 특히 Adobe Acrobat Online은 PDF를 만든 회사에서 제공하는 서비스라서 비교적 안정적인 결과를 기대할 수 있습니다. 다만 무료로 사용할 수 있는 횟수나 용량에 제한이 있을 수 있습니다.
온라인 변환기를 사용할 때는 다음과 같은 점을 참고하시면 좋습니다.
- 여러 사이트를 번갈아 사용해 보기: 같은 PDF라도 A 사이트에서는 깨지고, B 사이트에서는 덜 깨지는 경우가 있습니다. 한 번에 끝내려고 하지 말고, 다른 서비스도 시험해 보는 편이 좋습니다.
- OCR 기능 확인하기: PDF에서 글자를 드래그해서 선택이 안 된다면, 그 PDF는 “이미지처럼 찍힌 문서”일 가능성이 큽니다. 이럴 때는 OCR(광학 문자 인식) 기능이 있는 변환기를 사용해야 합니다. OCR 기능이 좋아야 글자가 제대로 인식됩니다.
예를 들어, Adobe의 공식 사이트에서 제공하는 PDF 관련 기능들을 확인해 보고 싶다면 다음 링크를 참고할 수 있습니다: Adobe Acrobat Online PDF 변환 페이지
컴퓨터에 설치해서 쓰는 변환 프로그램
인터넷 연결이 항상 가능한 것은 아니므로, 컴퓨터에 설치해서 사용하는 프로그램을 쓰는 것도 좋은 방법입니다. 이런 프로그램은 세부 설정을 더 많이 조정할 수 있는 경우가 많습니다.
대표적인 프로그램은 다음과 같습니다.
- Adobe Acrobat Pro (유료): PDF 편집과 변환 기능이 가장 강력한 편이며, 다양한 폰트 처리에 안정적입니다.
- 한컴오피스 한글 (유료): 한글 문서 작업에 특화되어 있고, PDF를 불러와서 hwp나 docx 형식으로 저장하는 기능을 제공합니다.
이런 프로그램을 사용할 때는 설정 메뉴를 한 번 살펴보는 것이 좋습니다. 폰트 임베딩, 문자 인코딩, 언어 설정 등 PDF와 관련된 항목을 조정하면 변환 결과가 나아질 수 있습니다. 예를 들어, “한글 우선 인식”, “폰트 대체” 같은 옵션이 있다면, 무엇을 의미하는지 설명을 읽어 본 뒤 켜거나 끄는 식으로 시험해 볼 수 있습니다.
원본 PDF 상태 먼저 점검하기
아무리 좋은 변환기를 사용해도, 원본 PDF 상태가 좋지 않으면 결과가 깨질 수밖에 없습니다. 변환하기 전에 다음을 먼저 확인해 보면 도움이 됩니다.
- PDF가 스캔 문서인지 확인: 글자를 마우스로 드래그해서 선택이 안 되고, 확대하면 글자가 깨져 보이는 경우, 대부분 스캔 이미지입니다. 이런 문서는 OCR 변환이 필수입니다.
- 해상도 확인: 스캔된 PDF의 해상도가 너무 낮으면, OCR 프로그램이 글자를 제대로 읽지 못합니다. 가능하다면 처음 스캔할 때 해상도를 조금 높게(예: 300dpi 이상) 설정하는 것이 좋습니다.
- 폰트 문제: 특수 폰트(예를 들면 특정 회사에서 만든 전용 글꼴)를 사용했는데, 그 폰트가 PDF에 제대로 포함(임베딩)되지 않으면, 다른 컴퓨터에서 볼 때 글자가 다른 것으로 바뀌거나 깨질 수 있습니다.
- 파일 오류 여부: 오래된 PDF이거나, 여러 번 편집하면서 손상된 PDF는 변환 과정에서 에러가 날 수 있습니다.
가장 간단한 점검 방법은, PDF 뷰어(예: Adobe Acrobat Reader)로 먼저 열어서 화면에서 글자가 깨져 보이는지 확인해 보는 것입니다. 화면에서 이미 깨져 있다면, 변환을 해도 깨질 가능성이 큽니다. 반대로 화면에서는 멀쩡한데 변환 후에만 깨진다면, 변환 도구의 설정이나 기능이 문제일 수 있습니다.
변환한 뒤에 할 수 있는 보정 작업들
어떤 방법을 써도 완벽하게 깨지지 않게 만드는 것은 생각보다 어렵습니다. 그래도 변환 후에 조금만 손을 보면 꽤 쓸 만한 상태가 되는 경우가 많습니다.
다음과 같은 방법을 활용해 볼 수 있습니다.
- 텍스트 복사해서 다른 곳에 붙여 보기: 변환 결과에서 이상하게 보이는 부분이 있다면, 그 부분만 복사해서 메모장이나 단순 텍스트 편집기에 붙여 보세요. 이상하게 보이던 특수 기호가 사라지고, 글자만 남는 경우도 있습니다.
- 눈에 띄는 부분부터 수동 수정하기: 전체 문서가 다 틀린 것이 아니라면, 제목, 표, 수식, 특수문자처럼 깨짐이 심한 부분만 골라서 직접 다시 입력하는 방법도 있습니다. 특히 보고서나 과제처럼 길이가 길지 않을 때는 이 방법이 현실적일 수 있습니다.
- 다른 형식으로 한 번 더 거쳐 가기: 바로 hwp로 변환했을 때 깨진다면, 먼저 docx(워드)나 txt(텍스트)로 변환한 뒤, 그 파일을 다시 한글로 여는 방식도 있습니다. 중간에 한 번 더 변환 과정을 거치면, 생각보다 글자가 더 정리되는 경우가 있습니다.
이미지 형태의 PDF를 다룰 때 주의할 점
교과서나 책을 스캔한 PDF는 겉보기에는 글자가 있는 것처럼 보이지만, 실제로는 사진 한 장처럼 저장되어 있는 경우가 많습니다. 이런 PDF는 글자를 복사할 수 없고, 검색도 되지 않습니다. 이럴 때는 반드시 OCR 기능이 있는 프로그램을 써야 합니다.
OCR 프로그램을 사용할 때는 다음 요소들이 인식률에 영향을 줍니다.
- 이미지 선명도: 흐리거나 흔들린 스캔본은 인식이 잘 안 됩니다.
- 페이지 기울기: 페이지가 삐뚤게 스캔되면, 글자가 곧게 서 있지 않아서 인식률이 떨어집니다.
- 언어 설정: OCR에서 “언어”를 한국어로 설정해야 받침이나 자모 분리 같은 오류가 줄어듭니다.
OCR 결과는 처음부터 완벽할 수 없기 때문에, 특히 숫자(0과 O, 1과 l)나 특수 문자, 수식 부분은 반드시 눈으로 다시 확인하는 것이 좋습니다.
특수 문자, 기호, 표 처리하기
PDF에는 일반 글자뿐 아니라 표, 수식, 화살표, 특수 기호 등이 들어 있는 경우가 많습니다. 이런 요소들은 변환 과정에서 특히 깨지기 쉽습니다.
- 특수 문자: 화살표, 수학 기호, 특수한 괄호 등은 변환 후에 다른 기호로 바뀌거나 빈칸이 될 수 있습니다. 중요한 기호라면 변환 후 직접 다시 넣는 것이 안전합니다.
- 표: 표 구조가 무너져서 셀이 합쳐지거나 줄이 엉망이 되는 경우가 많습니다. 이럴 때는 표를 새로 만드는 편이 더 빠를 때도 있습니다.
- 수식: 수식 변환은 특히 어렵습니다. 수식이 많다면, 수식 편집기로 다시 입력하는 것을 각오해야 할 때도 있습니다.
이런 점을 미리 알고 있으면, 변환 결과를 확인할 때 어디를 특히 신경 써야 할지 감을 잡기 쉬워집니다.
만약 특정 PDF 파일만 유독 계속 문제가 생긴다면, 그 파일을 만든 사람이나 제공한 곳에 문의해서 다른 형식의 원본 파일(예: hwp, docx 등)을 받을 수 있는지 물어보는 것도 하나의 방법입니다. 원본을 바로 받는 것이, 깨진 파일을 억지로 고치는 것보다 훨씬 시간을 아끼게 해 주는 경우가 많습니다.