들어가기 전에
PDF 파일은 문서 공유와 보기에 널리 사용되지만 데이터를 조작(manipulating)하거나 분석에 있어서는 Excel에 비할 바가 못 됩니다. PDF를 Excel 형식으로 변환하면 손쉽게 데이터를 조작하고, 계산을 수행하고, 대화형 차트를 만들어 통찰력을 얻을 수 있습니다. Python을 사용하여 PDF 파일을 Excel로 변환하는 방법을 소개합니다.
※ 이 글은 아래 기사 내용을 토대로 작성되었습니다만, 필자의 개인 의견이나 추가 자료들이 다수 포함되어 있습니다.
- 원문: Convert PDF to Excel with Python
- URL: https://medium.com/@alice.yang_10652/convert-pdf-to-excel-with-python-da1bcd76956b
PDF를 Excel로 변환하는 Python 라이브러리
Python으로 PDF 파일을 Excel로 변환하려면 Python용 Spire.PDF 라이브러리를 사용할 수 있습니다. Python용 Spire.PDF는 Python 애플리케이션 내에서 PDF 파일을 만들고, 읽고, 편집하고, 변환할 수 있는 기능이 풍부하고 사용자 친화적인 라이브러리입니다.
이 라이브러리를 사용하면 텍스트 또는 이미지 추가, 텍스트 또는 이미지 추출, 디지털 서명 추가, 페이지 추가 또는 삭제, PDF 병합 또는 분할, 북마크 생성, 텍스트 또는 이미지 워터마크 추가, 채울 수 있는 양식 삽입 등 PDF에서 다양한 조작을 수행할 수 있습니다. 또한 PDF 파일을 Word, Excel, 이미지, HTML, SVG, XPS, OFD, PCL, PostScript 등 다양한 파일 형식으로 변환할 수 있습니다.
PyPI에서 다음 pip 명령을 사용하여 Python용 Spire.PDF를 설치할 수 있습니다.
pip install Spire.Pdf
설치에 대한 자세한 내용은 [여기]에서 확인할 수 있습니다.
파이썬에서 PDF를 Excel로 변환하기
Python용 Spire.PDF를 사용하면 PDF 파일을 Excel 형식으로 매우 간단하게 변환할 수 있습니다. 3줄의 코드만 있으면 됩니다. 다음은 Python과 Python용 Spire.PDF를 사용하여 PDF 파일을 Excel 형식으로 변환하는 방법을 보여주는 예제입니다.
from spire.pdf.common import *
from spire.pdf import *
# Create an object of the PdfDocument class
pdf = PdfDocument()
# Load a PDF file
pdf.LoadFromFile("Sample.pdf")
# Save the PDF file to Excel XLSX format
pdf.SaveToFile("ToExcel.xlsx", FileFormat.XLSX)
# Close the PdfDocument object
pdf.Close()
파이썬에서 여러 페이지의 PDF를 단일 Excel 워크시트로 변환하기
표 형식의 데이터가 포함된 여러 페이지의 PDF를 다룰 때는 정보를 하나의 Excel 워크시트로 통합하여 분석과 조작을 쉽게 할 수 있습니다.
Python용 Spire.PDF를 사용하면 특정 요구사항에 맞게 변환 옵션을 사용자 지정하면서 PDF를 Excel로 변환할 수 있습니다. 예를 들어 여러 페이지로 된 PDF를 여러 개의 Excel 워크시트로 변환할지, 단일 워크시트로 변환할지, 변환된 Excel의 셀에 텍스트를 줄 바꿈할지, 겹치는 텍스트를 표시할지 등을 지정할 수 있습니다.
from spire.pdf.common import *
from spire.pdf import *
# Create an object of the PdfDocument class
pdf = PdfDocument()
# Load a PDF file
pdf.LoadFromFile("Sample.pdf")
# Create an XlsxLineLayoutOptions object to specify the conversion options
'''
Parameters of the XlsxLineLayoutOptions constructor: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertToMultipleSheet: Indicates whether to convert multi-page PDF to multiple Excel sheets or a single Excel sheet
rotatedText: Indicates whether to show rotated text
splitCell: Indicates whether a PDF table cell containing text spanning multiple lines will be split into multiple rows in Excel
wrapText: Indicates whether to wrap text in an Excel cell
overlapText: Indicates whether to display overlapping text
'''
convertOptions = XlsxLineLayoutOptions(False, True, False, True, False)
# Set the conversion options
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)
# Save the PDF file to Excel XLSX format
pdf.SaveToFile("ToExcelWithAdvancedOptions.xlsx", FileFormat.XLSX)
# Close the PdfDocument object
pdf.Close()
'Python' 카테고리의 다른 글
파이썬을 사용하여 PDF를 HTML로 변환하기 (0) | 2024.06.22 |
---|---|
파이썬을 사용하여 Excel에서 행과 열 복사하기 (2) | 2024.06.02 |
비정형 PDF 텍스트 추출하는 방법 (3) | 2024.05.18 |
파이썬을 사용하여 PDF에서 텍스트를 찾고 바꾸는 방법 (5) | 2024.05.11 |
꼭 알아야 할 파이썬 내장 함수 10가지 (7) | 2024.05.06 |