Excel & IT Info

아이엑셀러 닷컴, 엑셀러TV

IT Info

웹사이트에서 구글 시트로 데이터를 가져오는 5가지 방법

권현욱(엑셀러) 2024. 9. 30. 15:11
반응형

들어가기 전에

온라인 데이터를 구글 시트(Google Sheets)로 가져오는 것은 비즈니스 분석가, 연구자 및 빅 데이터를 다루는 모든 사람에게 중요한 작업입니다. 웹사이트에서 복사하여 붙여넣는 것은 비효율적이고 오류가 발생하기 쉽습니다. 이보다 더 나은 5가지 방법을 소개합니다.

권현욱(엑셀러) | 아이엑셀러 닷컴 대표 · Microsoft Excel MVP · Excel 솔루션 프로바이더 · 작가

이미지: 아이엑셀러 닷컴



※ 이 글은 아래 기사 내용을 토대로 작성되었습니다만, 필자의 개인 의견이나 추가 자료들이 다수 포함되어 있습니다.

  • 원문: 5 Ways to Import Data From a Website Into Google Sheets
  • URL: https://www.makeuseof.com/import-data-website-into-google-sheets/

1. IMPORTDATA

IMPORTDATA 함수를 사용하여 온라인 CSV 또는 TSV 파일에서 데이터를 가져올 수 있습니다. 최소한의 설정만 필요하므로 웹에서 Google 스프레드시트로 데이터를 가져오는 가장 쉬운 방법입니다.

=IMPORTDATA(URL, delimeter, locale)

 

IMPORTDATA는 데이터를 가져와 스프레드시트로 가져옵니다. 구문에서 URL은 파일의 주소이고, 구분 기호는 파일의 각 필드를 구분하는 문자이며, 로캘은 IMPORTDATA가 사용해야 하는 특정 로캘입니다.

마지막 두 개의 인자, 구분 기호 및 로캘은 선택 사항입니다. 이 인수를 비워두면 IMPORTDATA가 데이터를 살펴보고 해당 인수의 값을 가정합니다. 대부분의 경우 이 두 인수를 비워 두는 것이 좋습니다. 예를 들어 이 수식을 사용하여 CSV 파일에서 미국 주 이름과 그 약어를 가져올 수 있습니다.

=IMPORTDATA("https://people.sc.fsu.edu/~jburkardt/data/csv/crash_catalonia.csv")

 

이미지: muo

 

구분 기호 및 로캘 인수가 비어 있으므로 IMPORTDATA는 이러한 값을 가정합니다. 이 함수는 웹페이지가 아닌 CSV 및 TSV 파일에서 작동한다는 점에 유의하세요. IMPORTDATA에 웹페이지의 URL을 입력하면 예상한 데이터를 반환하지 않거나 오류가 발생할 수 있습니다.

2. IMPORTHTML

IMPORTHTML 함수를 사용하여 웹사이트의 표와 목록에서 데이터를 가져올 수 있습니다. 이 함수는 CSV 파일 없이 웹 페이지에서 직접 데이터 테이블을 가져올 수 있으므로 IMPORTDATA의 보다 실용적인 대안입니다.

=IMPORTHTML(URL, query_type, index)

 

구문에서 URL은 웹페이지의 주소, 쿼리 유형은 테이블 또는 목록, 인덱스는 웹페이지에서 테이블 또는 목록의 번호입니다.

 

이미지: muo

 

예를 들어 IMPORTHTML을 사용하여 Wikipedia 문서에서 표를 가져올 수 있습니다.

=IMPORTHTML("https://en.wikipedia.org/wiki/Demographics_of_Germany", "table", 8)

 

이 수식에서 IMPORTHTML은 지정된 URL로 이동하여 데이터를 가져와서 여덟 번째 테이블을 출력합니다.

 

이미지: muo

 

데이터를 가져온 후에는 Google 스프레드시트가 제공하는 모든 기능을 사용하여 데이터를 분석할 수 있습니다. 예를 들어 스프레드시트의 서식을 지정하거나 차트를 만들어 데이터를 시각화할 수 있습니다.

3. IMPORTFEED

IMPORTFEED 함수를 사용하면 RSS 또는 Atom 피드의 데이터를 Google 스프레드시트로 바로 가져올 수 있습니다. RSS 또는 Atom 피드는 기본적으로 웹사이트나 블로그의 업데이트를 표준 형식으로 전달하는 채널입니다.

=IMPORTFEED(url, [query], [headers], [num_items])

 

IMPORTFEED는 비교적 사용하기 쉬우며 피드 URL과 필터링 및 서식 지정에 필요한 선택적 매개변수만 있으면 됩니다. 예를 들어 아래 수식은 MakeUseOf 피드를 Google 스프레드시트로 가져옵니다.

=IMPORTFEED("https://www.makeuseof.com/feed/", ,TRUE)

 

이미지: muo

 

쿼리 및 num_items 매개변수는 기본값으로 그대로 유지됩니다. headers 매개변수는 TRUE로 설정되어 가져온 테이블에 헤더 행을 추가합니다. 피드에 새 항목이 있을 때마다 IMPORTFEED가 스프레드시트를 자동으로 업데이트합니다.

4. IMPORTXML

IMPORTXML은 XML 파일이나 웹페이지에서 데이터를 가져올 수 있는 강력한 가져오기 기능입니다. 데이터의 거의 모든 부분을 추출할 수 있지만 다른 가져오기 함수보다 조금 더 복잡합니다. 이 함수의 구문은 다음과 같습니다.

=IMPORTXML(URL, xpath_query)

 

이 구문에서 URL은 웹 페이지의 주소이고, xpath_query는 가져오려는 노드를 식별하는 XPath 쿼리입니다. Google 스프레드시트에서 IMPORTXML을 사용하기 위한 전제 조건은 XML에 대한 기본 지식과 XPath 쿼리를 사용하여 XML 파일을 탐색하는 방법입니다. XPath 쿼리에 대한 자세한 내용은 IMPORTXML에 대한 심층 문서에서 확인할 수 있습니다.

 

이미지: muo

 

예를 들어, 다음 수식은 일부 식물의 이름과 설명이 포함된 XML 테이블을 출력합니다.

=IMPORTXML("https://www.w3schools.com/xml/plant_catalog.xml", "CATALOG/PLANT")

 

이 수식에서 IMPORTXML은 XML 파일에서 데이터를 수집한 다음 CATALOG 노드의 하위 노드인 PLANT 노드를 출력합니다. 로캘 인수가 비어 있으므로 IMPORTXML은 XML 파일의 로캘을 사용합니다. 웹 URL은 상당히 지저분해질 수 있으므로 별도의 셀에 URL을 입력하고 수식에서 해당 셀을 참조하는 것이 좋습니다.

필수 HTML 태그와 XPath 쿼리에 대한 지식만 있으면 IMPORTXML로 훨씬 더 많은 일을 할 수 있습니다. 예를 들어 아래 수식은 문서의 모든 H2 제목을 추출합니다.

=IMPORTXML(B2, "//*/h2")

 

이미지: muo

 

IMPORTXML의 중요한 한계는 JavaScript를 구문 분석할 수 없다는 점입니다. 가져오려는 데이터가 JavaScript를 통해 동적으로 생성되는 경우 IMPORTXML에 오류가 발생할 가능성이 높습니다.

 

5. Google 스프레드시트 부가기능을 사용해 데이터 가져오기

Google 스프레드시트는 기본 제공 기능 외에도 온라인 데이터 가져오기 기능을 확장하는 타사 애드온을 지원합니다. 이러한 부가기능은 온라인 소스에서 데이터를 가져오고 스프레드시트의 기능을 강화할 수 있는 편리한 방법을 제공합니다. 이러한 부가 기능의 가장 큰 장점은 인증이 필요한 리소스에 액세스할 수 있다는 것입니다. 각 부가기능은 서로 다른 소스 및 데이터 유형에 가장 적합합니다. 따라서 데이터 가져오기에 적합한 Google 스프레드시트 부가기능을 선택하는 것은 데이터의 유형과 출처에 따라 달라집니다.

다음은 Google 스프레드시트에서 데이터를 쉽게 가져올 수 있는 몇 가지 주목할 만한 부가 기능입니다.

  • Coefficient: Coefficient는 코딩 없이 웹사이트에서 데이터를 가져올 수 있도록 설계된 사용자 친화적인 Google 스프레드시트 부가기능입니다. 인터페이스를 통해 가져올 특정 데이터 요소를 선택하고 실시간 업데이트를 즐길 수 있습니다. 코이큘레이터는 Salesforce, Hubspot, Google 애널리틱스, Redshift, Looker, Tableau, MySQL 등과 같은 비즈니스 시스템을 지원합니다.
  • Coupler.io: Coupler.io는 데이터를 Google 스프레드시트로 쉽게 가져올 수 있게 해주는 또 다른 훌륭한 부가 기능입니다. 다양한 소스에서 데이터를 가져오는 것 외에도, Coupler.io를 사용하면 자동 가져오기를 예약하여 스프레드시트를 최신 상태로 유지할 수 있습니다. Coupler.io는 구글 애널리틱스, 메일침프, 허브스팟, 세일즈포스, 쇼피파이, 제로, 에어테이블, 트렐로 등과 원활하게 작동합니다.
  • Awesome Table: 데이터를 가져오는 것 외에도 Awesome Table을 사용하면 데이터를 사용자 지정하고 변환하여 데이터 분석을 향상시킬 수 있습니다. 직관적인 데이터 필터를 사용해 가져올 데이터를 선택하고 자동 새로 고침을 예약할 수 있습니다. 이 기능은 QuickBooks, Xero, HubSpot, Airtable, Notion, YouTube 등과 함께 작동합니다.

 

마치며

온라인 소스에서 스프레드시트로 복사하여 붙여넣기하는 것은 바람직하지 않습니다. Google 스프레드시트에는 데이터를 쉽게 가져올 수 있는 기본 제공 함수와 다양한 타사 애드온이 있어서 편리하게 작업할 수 있습니다.