Excel & IT Info

아이엑셀러 닷컴, 엑셀러TV

Python

파이썬을 사용하여 PDF를 Excel로 변환하기

권현욱(엑셀러) 2024. 5. 25. 18:58
반응형

들어가기 전에

PDF 파일은 문서 공유와 보기에 널리 사용되지만 데이터를 조작(manipulating)하거나 분석에 있어서는 Excel에 비할 바가 못 됩니다. PDF를 Excel 형식으로 변환하면 손쉽게 데이터를 조작하고, 계산을 수행하고, 대화형 차트를 만들어 통찰력을 얻을 수 있습니다. Python을 사용하여 PDF 파일을 Excel로 변환하는 방법을 소개합니다.

권현욱(엑셀러) | 아이엑셀러 닷컴 대표 · Microsoft Excel MVP · Excel 솔루션 프로바이더 · 작가

이미지: 아이엑셀러 닷컴

 

※ 이 글은 아래 기사 내용을 토대로 작성되었습니다만, 필자의 개인 의견이나 추가 자료들이 다수 포함되어 있습니다.


  • 원문: Convert PDF to Excel with Python
  • URL: https://medium.com/@alice.yang_10652/convert-pdf-to-excel-with-python-da1bcd76956b

PDF를 Excel로 변환하는 Python 라이브러리

Python으로 PDF 파일을 Excel로 변환하려면 Python용 Spire.PDF 라이브러리를 사용할 수 있습니다. Python용 Spire.PDF는 Python 애플리케이션 내에서 PDF 파일을 만들고, 읽고, 편집하고, 변환할 수 있는 기능이 풍부하고 사용자 친화적인 라이브러리입니다.

 

이 라이브러리를 사용하면 텍스트 또는 이미지 추가, 텍스트 또는 이미지 추출, 디지털 서명 추가, 페이지 추가 또는 삭제, PDF 병합 또는 분할, 북마크 생성, 텍스트 또는 이미지 워터마크 추가, 채울 수 있는 양식 삽입 등 PDF에서 다양한 조작을 수행할 수 있습니다. 또한 PDF 파일을 Word, Excel, 이미지, HTML, SVG, XPS, OFD, PCL, PostScript 등 다양한 파일 형식으로 변환할 수 있습니다.


PyPI에서 다음 pip 명령을 사용하여 Python용 Spire.PDF를 설치할 수 있습니다.

pip install Spire.Pdf

 

설치에 대한 자세한 내용은 [여기]에서 확인할 수 있습니다.


파이썬에서 PDF를 Excel로 변환하기

Python용 Spire.PDF를 사용하면 PDF 파일을 Excel 형식으로 매우 간단하게 변환할 수 있습니다. 3줄의 코드만 있으면 됩니다. 다음은 Python과 Python용 Spire.PDF를 사용하여 PDF 파일을 Excel 형식으로 변환하는 방법을 보여주는 예제입니다.

from spire.pdf.common import *
from spire.pdf import *

# Create an object of the PdfDocument class
pdf = PdfDocument()
# Load a PDF file
pdf.LoadFromFile("Sample.pdf")

# Save the PDF file to Excel XLSX format
pdf.SaveToFile("ToExcel.xlsx", FileFormat.XLSX)
# Close the PdfDocument object
pdf.Close()

 

파이썬에서 여러 페이지의 PDF를 단일 Excel 워크시트로 변환하기

표 형식의 데이터가 포함된 여러 페이지의 PDF를 다룰 때는 정보를 하나의 Excel 워크시트로 통합하여 분석과 조작을 쉽게 할 수 있습니다.


Python용 Spire.PDF를 사용하면 특정 요구사항에 맞게 변환 옵션을 사용자 지정하면서 PDF를 Excel로 변환할 수 있습니다. 예를 들어 여러 페이지로 된 PDF를 여러 개의 Excel 워크시트로 변환할지, 단일 워크시트로 변환할지, 변환된 Excel의 셀에 텍스트를 줄 바꿈할지, 겹치는 텍스트를 표시할지 등을 지정할 수 있습니다.

from spire.pdf.common import *
from spire.pdf import *

# Create an object of the PdfDocument class
pdf = PdfDocument()
# Load a PDF file
pdf.LoadFromFile("Sample.pdf")

# Create an XlsxLineLayoutOptions object to specify the conversion options
'''
Parameters of the XlsxLineLayoutOptions constructor: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertToMultipleSheet: Indicates whether to convert multi-page PDF to multiple Excel sheets or a single Excel sheet
rotatedText: Indicates whether to show rotated text
splitCell: Indicates whether a PDF table cell containing text spanning multiple lines will be split into multiple rows in Excel
wrapText: Indicates whether to wrap text in an Excel cell
overlapText: Indicates whether to display overlapping text
'''
convertOptions = XlsxLineLayoutOptions(False, True, False, True, False)

# Set the conversion options
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# Save the PDF file to Excel XLSX format
pdf.SaveToFile("ToExcelWithAdvancedOptions.xlsx", FileFormat.XLSX)
# Close the PdfDocument object
pdf.Close()

Excel과 VBA의 모든 것 아이엑셀러 닷컴 · 강사들이 숨겨 놓고 보는 엑셀러TV