데이터 과학자(Data Scientist)는 흥미로운 위치에 있습니다(프로그래머 + 비즈니스). 데이터 과학자가 사용하는 파이썬 코드에는 비즈니스 문제를 해결하는 방법에 대한 스토리텔링이 반영됩니다. 끊임없이 요구 사항이 변경되고 협업하는 데이터 과학자의 경우 주석을 통해 코드에 대한 적절한 설명을 제공하는 것이 중요합니다. 데이터 과학자로서 Python 코드 주석 처리를 수행하는 방법에 대해 소개합니다.
※ 이 글은 아래 기사 내용을 토대로 작성되었습니다만, 필자의 개인 의견이나 추가 자료들이 다수 포함되어 있습니다.
- 원문: How To Comment Your Python Code as a Data Scientist
- URL: https://www.kdnuggets.com/how-to-comment-your-python-code-as-a-data-scientist
주석 유형
주석에는 크게 두 가지 유형이 있습니다. 첫 번째는 코드에 '#' 표기법을 사용하는 한 줄 주석입니다. 일반적으로 코드에 대한 간단한 설명에 사용됩니다. 예를 들어 아래 코드는 한 줄 주석의 사용 예시입니다.
# The code is to import the Pandas package and call it pd
import pandas as pd
주석을 다는 다른 방법은 큰따옴표를 사용하는 여러 줄 방법을 사용하는 것입니다. 엄밀히 말하면 주석이 아니라 문자열 객체이지만 변수에 할당하지 않으면 파이썬은 이를 무시합니다. 다음 예제를 통해 실제로 작동하는 모습을 확인할 수 있습니다.
"""
The code below would import the Pandas package, and we would call them pd throughout the whole working environment.
"""
import pandas as pd
일반적인 주석 작성 팁
주석 달기에 대한 몇 가지 일반적인 팁에 대해 설명합니다. 이러한 팁은 프로그래머를 위한 모범 사례이므로 데이터 과학자에게 반드시 적용되는 것은 아니지만 기억해 두면 도움이 됩니다.
- 가독성을 높이기 위해 설명하려는 코드 바로 위에 별도의 줄에 주석을 배치하세요.
- 작업 중인 코드 전체에 걸쳐 주석 스타일을 일관되게 유지하세요.
- 청중이 이해하기 어려운 전문 용어와 기술 용어는 사용하지 마세요.
- 명백한 설명을 피하기 위해 가치를 더하는 경우에만 댓글을 달아야 합니다.
- 댓글이 더 이상 관련성이 없는 경우 댓글을 유지 및 업데이트합니다.
이것이 더 나은 댓글 작성 환경을 제공하기 위한 일반적인 가이드라인입니다. 이제 데이터 과학자를 위한 좀 더 구체적인 지침으로 넘어가 보겠습니다.
데이터 과학자를 위한 주석 작성 팁
데이터 과학자의 코딩 활동은 소프트웨어 엔지니어나 웹 개발자의 코딩 활동과 다를 수 있습니다. 다음은 데이터 과학자를 위한 몇 가지 팁입니다.
1. 주석을 사용하여 복잡한 프로세스나 활동 명확히 하기
데이터 과학 활동에는 설명하지 않으면 독자나 미래의 자기 자신에게 혼란을 줄 수 있는 많은 실험적 프로세스가 포함됩니다. 코드에 주석을 달면 특히 많은 단계가 관련된 경우 의도를 더 잘 설명하는 데 도움이 됩니다. 예를 들어, 아래 코드는 정규화 및 스케일링을 통해 이상값을 제거하는 방법을 설명합니다.
# Perform data normalization (Min-Max scaling)
normalized_data = (data - np.min(data)) / (np.max(data) - np.min(data))
# Remove outliers by using the sigma rule (3 standard deviations removal)
removed_outlier_data = normalized_data[np.abs(stats.zscore(normalized_data)) < 3]
위의 설명은 각 프로세스에 대해 수행한 작업과 그 뒤에 있는 개념을 설명합니다. 코드에서 사용한 개념을 명시하는 것은 수행한 작업을 이해하는 데 필수적입니다.
전처리에만 국한되지 않고 모든 데이터 과학 단계에서 주석을 달 수 있습니다. 데이터 검색에서 모델 모니터링에 이르기까지, 누구나 이해할 수 있도록 주석을 다는 것은 좋은 습관입니다. 데이터 과학자로서 우리의 코멘트가 코드와 분석 인사이트 사이의 다리가 될 수 있다는 점을 기억하세요.
2. 주석 작성 기준 마련
데이터 과학 활동은 협업 프로세스이므로 모두가 이해할 수 있는 표준 구조를 갖는 것이 좋습니다. 혼자 작업하는 경우에도 자신이 알고 있는 표준이 있으면 도움이 됩니다. 예를 들어, 만든 모든 함수에 대한 댓글을 표준화할 수 있습니다.
# Function: name of the function
# Usage: description of how to use the function
# Parameters: list the parameters and explain them
# Output: explain the output
위는 표준 예시이며, 독립적으로 만들 수 있습니다. 이와 같은 표준이 있을 때는 동일한 스타일, 언어 및 약어를 사용하는 것을 잊지 마세요.
3. 주석을 사용하여 워크플로우 돕기
공동 작업 환경에서 댓글은 팀의 워크플로우 이해를 돕기 위해 필수적입니다. 주석을 사용하면 새로운 코드 업데이트가 있을 때나 다음에 수행해야 할 작업을 이해하는 데 도움이 될 수 있습니다. 예를 들어, 다른 함수의 업데이트로 인해 프로세스에 버그가 발생하여 다음에 버그를 수정해야 하는 경우입니다.
# TODO: Fix this function ASAP
some_function_to_fix()
4. 마크다운 노트북 셀 구현하기
실험을 위해 노트북을 사용할 때 데이터 사이언티스트 IDE는 매우 놀랍습니다. 노트북의 셀을 사용하면 전체 코드를 실행할 필요 없이 각 코드를 독립적으로 실행할 수 있도록 분리할 수 있습니다. 노트북 셀은 코드에만 국한되지 않고 마크다운 셀로 변환할 수 있습니다.
마크다운은 텍스트가 어떻게 보여야 하는지 설명하는 서식 지정 언어입니다. 셀에서 마크다운은 아래 코드를 더 설명할 수 있습니다. 마크다운을 사용하면 표준 주석 처리보다 더 자세하게 주석을 달 수 있다는 장점이 있습니다. 표, 이미지, 라텍스 등을 추가할 수도 있습니다. 예를 들어, 아래 이미지는 마크다운을 사용하여 프로젝트, 목표 및 단계를 설명하는 방법을 보여줍니다.
주피터 마크다운 셀에 대한 자세한 내용은 [여기]에서 확인할 수 있습니다.
결론
주석은 독자가 코드에서 무슨 일이 일어났는지 명확히 파악하는 데 도움이 되므로 데이터 과학자 활동의 필수적인 부분입니다. 데이터 과학자의 경우, 소프트웨어 엔지니어나 웹 개발자와는 작업 프로세스가 다르기 때문에 댓글 프로세스가 약간 다릅니다. 그렇기 때문에 이 문서에서는 데이터 과학자로서 댓글을 달 때 사용할 수 있는 몇 가지 팁을 제공합니다. 팁을 다시 한 번 정리하면 다음과 같습니다.
- 주석을 사용하여 복잡한 프로세스나 활동을 명확히 하기
- 주석 작성 기준 갖기
- 주석을 사용하여 워크플로에 도움 주기
- 마크다운 노트북 셀 구현하기
'Python' 카테고리의 다른 글
파이썬으로 QR 코드 생성하는 방법 (5) | 2024.03.30 |
---|---|
파이썬 Matplotlib 마스터를 위한 단계별 가이드 (7) | 2024.03.23 |
파이썬에서 pdf를 워드(.docx) 파일로 변환하는 방법 (11) | 2024.03.01 |
데이터 과학을 위한 파이썬 무료 강좌 5가지 (8) | 2024.02.25 |
파이썬 프로그래밍을 배울 수 있는 YouTube 채널 10개 (9) | 2024.02.24 |