윤재 :: 윤재

전체 글

Lambda 함수 동시성 제한 2025.07.17
구글의 포스트 모텀 문화 2024.05.14
K8s Nginx Ingress Controller 튜닝 2024.05.13
IAM 2024.03.30
AWS Cloud Support Associate 1차 면접 후기 2023.12.12 13
AWS EC2 크롤러 컨테이너 헬스체크 적용기 2023.11.17 4
3-way handshake 2023.11.07 1
TCP 송/수신 원리 2023.09.03 8

구글의 포스트 모텀 문화

2024. 5. 14. 22:22

안녕하세요. 오늘은 '사이트 신뢰성 엔지니어링' 이란 책을 읽으며 '구글의 포스트모텀'이란 문화를 소개 시켜드리려 합니다.

포스트모텀이란 ?

포스트모텀은 장애 발생 후에 이를 분석하고 개선점을 도출하는 과정으로, 일종의 회고문서와 유사한 개념입니다.

이 과정을 통해 향후 비슷한 문제의 재발을 예방하고 시스템을 강화하는데 도움이 됩니다.

포스트모텀을 진행할 경우, 일반적으로 구글 SRE 팀에서는 다음과 같은 사항을 문서로 기록합니다:

장애의 발생 기록(타임라인)과 그 영향: 장애가 발생한 시점부터 해결될 때까지의 시간 경과를 기록하고, 이로 인한 영향을 정확히 파악합니다. 이는 장애가 시스템 전반에 미친 영향을 이해하는 데 중요하죠.
장애를 완화하거나 해결하기 위한 수행한 작업: 장애를 해결하기 위해 수행한 모든 조치를 기록합니다. 이는 향후 유사한 문제에 대처할 때 참고 자료로 활용될 수 있습니다. ( 실제로 효과를 톡톡히 보고 있습니다 )
장애의 근본 원인과 근본 원인을 찾아가는 과정: 장애의 진짜 원인을 찾는 것이 중요합니다. 이를 통해 단순히 증상만 해결하는 것이 아니라, 시스템의 근본적인 문제를 해결할 수 있습니다.
재발 방지를 위한 후속 조치: 유사한 문제가 재발하지 않도록 예방하는 조치를 마련합니다. 이는 시스템의 안정성을 높이고, 사용자 경험을 향상시키는데 중요한 역할을 합니다.

이러한 포스트모텀 문서는 기록하는 것만으로 그치는 것이 아닌, 장애가 발생하게 된 원인에 대해 이해하며, 장애를 해결하기 위해

취한 조치들이 향후 또다른 장애의 재발을 막는데도 유용하게 쓰기 위함입니다.

또한 , 시스템의 취약점을 고칠 수 있는 기회임과 동시에 더 견고하게 만드는 기회라고도 볼 수 있습니다. ( 시스템의 어느 부분을 어떻게 개선할 수 있는지에 대한 결과를 도출하면 더욱 좋겠죠 )

마냥 좋아보이는 문화이긴 하지만 주의할 점으로는, 문서를 작성함과 동시에 누군가의 실수도 드러날 수 있기 마련입니다. 그러나, 이것은 비난의 목적으로는 작성하지 말아야 합니다.

누군가를 지적하거나 비난하는 분위기는 자칫 장애나 이슈를 숨기려는 문화를 만들 위험이 있으며, 이는 곧 속한 조직이나 회사에 더 큰 위험을 야기할 수도 있습니다.

그렇다면 포스트모텀은 어떤것을 어떻게 작성해야 좋을까요 ? 구글의 SRE팀에선 직접 정의한 템플릿을 사용하고 있습니다.

날짜: [포스트모텀 작성일]

작성자: [작성자 이름 혹은 팀 이름]

상태: [완료, 추가 조치 진행 중 등]

요약: [장애 발생에 대한 간략한 설명]

영향: [장애로 인한 영향에 대한 설명]

근본 원인: [장애의 근본적인 원인에 대한 분석]

발생 원인: [장애가 발생한 구체적인 원인]

해결책: [장애를 해결하기 위해 시행한 조치]

장애 탐지: [장애가 탐지되었던 방법 및 과정]

추가 조치: [장애 이후에 시행한 추가 조치]

회고:
- 잘 진행한 부분: [포스트모텀 과정에서 잘 수행된 부분에 대한 긍정적인 평가]
- 미흡했던 부분: [포스트모텀 과정에서 개선이 필요한 부분에 대한 비판적인 평가]

시간대별 조치사항: [장애 발생 시 시간대별로 취한 조치들에 대한 상세 기록]

추가 정보 및 참고: [필요한 경우 추가적인 정보나 참고 자료에 대한 기재]

이미 이러한 문화를 잘 갖추고 계시거나, 이와 비슷한 형식의 문서를 자연스럽게 작성하고 계실지도 모릅니다. ( 저 또한 그랬습니다 허허허 )

저 또한 사내에서 장애에 대한 문서가 위와 거의 유사한 형식으로 관리 되고 있었고, 위급 상황일 때도 해당 문서가 아주 많은 도움이 되었습니다.

그러다 우연히 책을 읽으며 유사한 내용을 보니 반갑기도 하고 , 뿌듯하기도 하네요

그래서 좀 더 이런 좋은 문화를 널리 퍼뜨렸으면 하는 마음에 이렇게 글로 녹여내게 되었습니다.

긴 글 읽어주셔서 감사합니다.

저작자표시 (새창열림)

'이것저것' 카테고리의 다른 글

DevOps 면접 질문 및 (내) 답변 (0)	2023.07.29

K8s Nginx Ingress Controller 튜닝

2024. 5. 13. 21:34

안녕하세요. 오늘은 쿠버네티스 사용시, 클러스터가 외부에 노출이 필요할 경우 고려하게 되는 Ingress 객체 중 Nginx-Ingress Controller의 튜닝에 관해 알아보는 시간을 갖도록 하겠습니다.

들어가며 ..

오늘 포스팅에서는 Nginx-Ingress Controller의 자세한 동작원리는 담고 있지 않습니다.

그리고 Nginx-Ingress 튜닝 방법을 모색하던 중, 신규 프로젝트가 관리형 쿠버네티스 서비스인 EKS에서 실행 될 예정이기에 ,
실제 환경에서는 Nginx Ingress Controller 대신 ALB Ingress Controller를 사용했습니다.

하지만 튜닝 방법을 기록해두고 공유하는 것이 좋을 것 같아 글로 작성하게 되었습니다.

왜 튜닝이 필요한가?

우선, Helm 으로 쿠버네티스 클러스터 내에 Ingress-nginx Chart를 쉽게 설치함으로써, 구성에 용이함은 있었습니다.

그러나, 해당 차트로 설치된 Nginx의 기본 설정으로는 메신저 서비스의 특성상 응답 지연이 쉽게 발생하곤 했습니다.

응답 지연이 발생한 원인은 다음과 같습니다.

서비스 요청시, HTTP 클라이언트가 대상 서버에 새로운 TCP 연결을 생성하고 요청을 작성후 응답을 받습니다.
그런 다음 서버는 해당 리소스를 해제하기 위해 TCP 연결을 닫게됩니다.

이러한 과정은 메시지마다 하나씩 TCP 연결을 만들고 닫는 작업을 반복하게 됩니다.
- 쉽게 예로 들면, 전화 통화에서 상대방이 말을 끝낸 후 전화를 끊고 다시 걸기를 반복하는것과 비슷하죠.

이에 따라, Keep Alive 설정으로 업스트림 서버로의 Keep Alive연결을 활성화하여, Nginx 각 워커 프로세스의 캐시에 유지되는 최대 유휴 Keep Alive 연결 수를 정의 했습니다.

실제로 Keep Alive가 없으면 CPU 오버헤드가 더 많이 발생하며 서버의 리소스가 효율적으로 사용되지 않습니다.

Nginx는 워커 노드의 스레드 풀로 관리 되기에 CPU 오버헤드는 심각할 정도로 발생하진 않긴 합니다 ..

간단한 예시를 들긴 했지만,이 외에도 nginx 성능 튜닝이 필요한 여러가지 이유가 있었습니다.

본론으로 들어가서,

실제 Ingress-nginx의 Helm 차트 구조는 간단하게 다음과 같습니다.

└── ingress-nginx
    ├── changelog
    ├── ci
    ├── templates
    │   └── admission-webhooks
    │       └── job-patch
    └── tests

실제로 templates 디렉토리엔 Ingress-Nginx Controller를 정의하기 위한 yaml파일이 수십개가 있습니다.

이 중 , controller-configmapd의 구성을 간단하게 살펴보도록 하겠습니다.

apiVersion: v1
kind: ConfigMap
metadata:
  labels:
    {{- include "ingress-nginx.labels" . | nindent 4 }}
    app.kubernetes.io/component: controller
    {{- with .Values.controller.labels }}
    {{- toYaml . | nindent 4 }}
    {{- end }}
{{- if .Values.controller.configAnnotations }}
  annotations: {{ toYaml .Values.controller.configAnnotations | nindent 4 }}
{{- end }}
  name: {{ include "ingress-nginx.controller.fullname" . }}
  namespace: {{ include "ingress-nginx.namespace" . }}
data:
  allow-snippet-annotations: "{{ .Values.controller.allowSnippetAnnotations }}"
{{- if .Values.controller.addHeaders }}
  add-headers: {{ include "ingress-nginx.namespace" . }}/{{ include "ingress-nginx.fullname" . }}-custom-add-headers
{{- end }}
{{- if .Values.controller.proxySetHeaders }}
  proxy-set-headers: {{ include "ingress-nginx.namespace" . }}/{{ include "ingress-nginx.fullname" . }}-custom-proxy-headers
{{- end }}
{{- if .Values.dhParam }}
  ssl-dh-param: {{ include "ingress-nginx.namespace" . }}/{{ include "ingress-nginx.controller.fullname" . }}
{{- end }}
{{- range $key, $value := .Values.controller.config }}
  {{- $key | nindent 2 }}: {{ $value | quote }}
{{- end }}

해당 내용을 잘 살펴보면 data 블록에 nginx config 옵션들이 지정되어 있는 것을 볼 수 있습니다.
- 해당 옵션들의 상세 값은 상위 경로의 values.yaml로 관리되고 있습니다.
또한, 위에서 보이는 바와 같이 templates 디렉토리 내의 모든 yaml 객체들의 설정 값들은 하드코딩 되어있지 않습니다.
한 가지 더 특이한 점은, 상단의 templates 디렉토리 사진에서 확인할 수 있듯이, Nginx의 옵션 별로 별도의 ConfigMap이 관리되고 있음을 알 수 있습니다.
만약 , 제가 적용하려는 Keep Alive 옵션 같은 경우에도 별도의 ConfigMap을 사용할 수도 있겠죠.

kind: ConfigMap
apiVersion: v1
metadata:
  name: nginx-config
  namespace: nginx-ingress
data:
  proxy-connect-timeout: "10s"
  proxy-read-timeout: "10s"
  keepalive: "10s"

이런식으로 여러 개의 ConfigMap 객체를 용도별로 관리한다면, 관리적인 측면과 조금씩 설정을 다르게 해야하는 경우에도 유용하게 사용할 수 있을 것으로 생각이 됩니다.

그렇다면, templates/controller-deployment.yaml 파일에서 실제로 ConfigMap이 어떻게 사용되고 있는지 확인해볼까요 ?

~~~

# controller-deployment.yaml 일부분

spec:
  template:
    spec:
      volumes:
      {{- if .Values.controller.customTemplate.configMapName }}
        - name: nginx-template-volume
          configMap:
            name: {{ .Values.controller.customTemplate.configMapName }}
            items:
            - key: {{ .Values.controller.customTemplate.configMapKey }}
              path: nginx.tmpl

보시는 바와 같이 위에서 생성했던 ConfigMap을 볼륨 형태로 사용중이며, 해당 ConfigMap의 이름또한 상위경로의 values.yaml에서 관리됩니다.
해당 deployment를 apply 하게 된다면 의존성 순서는 다음과 같습니다.
- values.yaml -> *-.configmap.yaml -> *-.deployment.yaml
- 각 yaml에서 특정 ConfigMap을 지정할 수도 있겠죠.

끝으로

Nginx-Ingress Controller를 도입하려 알아보던 와중, 비록 EKS 내에서는 ALB Ingress Controller가 더 적합하다는 판단을 내렸지만, 여러 설정을 커스텀하게 조작할 필요가 있다면 Nginx-Ingress Controller의 도입 또한 좋은 선택지가 될 것 같습니다.

참고

https://kubernetes.github.io/ingress-nginx/user-guide/nginx-configuration/configmap/

ConfigMap - Ingress-Nginx Controller

ConfigMaps ConfigMaps allow you to decouple configuration artifacts from image content to keep containerized applications portable. The ConfigMap API resource stores configuration data as key-value pairs. The data provides the configurations for system com

kubernetes.github.io

https://helm.sh/ko/docs/topics/charts/

차트

차트 형식을 설명하고, 헬름으로 차트를 빌드하기 위한 기본지침을 제공한다.

helm.sh

https://github.com/kubernetes/ingress-nginx/blob/main/charts/ingress-nginx/values.yaml

ingress-nginx/charts/ingress-nginx/values.yaml at main · kubernetes/ingress-nginx

Ingress-NGINX Controller for Kubernetes. Contribute to kubernetes/ingress-nginx development by creating an account on GitHub.

github.com

저작자표시 (새창열림)

IAM

2024. 3. 30. 22:35

안녕하세요 이번 글에서는 평소 AWS 내의 리소스를 관리하며 , 대충 이해만 하고 넘어갔던 접근제어에 대해서 알아보겠습니다.

우선, 저 같은 경우는 그저 특정 리소스를 요청할 때마다, 필요한 권한을 포함한 해당 리소스의 모든 권한을 전부 허용해 주고 사용하곤 했었습니다.

또한, 해당 역할에 대한 이해와 동작 과정에 대한 이해 없이 무작정 권한을 할당해 주고, 사용하다 보니 자주 Permission denied라는 문구를 보곤 했었습니다.

따라서 AWS의 접근 제어 정책에 대한 정확한 이해가 필요해 해당 과정을 글로 녹여내게 되었습니다.

들어가며..

AWS 클라우드를 사용하는 몇 가지 방법이 있습니다.

웹 콘솔에서 조작하는 방법, AWS CLI로 사용하는 방법, AWS에서 제공하는 SDK를 이용해 여러 프로그래밍 언어로 API 호출하는 방법이 있죠.

첫 번째 방법을 제외한 CLI와 SDK를 사용할 경우, 매 API 호출마다 처리되는 인증 절차가 있습니다.

여기서 , IAM 사용자를 통해 발급받은 ACCESS KEY와 SECRET KEY( Secret Access Key)를 사용하게 되죠.

ACCESS KEY
- AWS 계정 또는 IAM 사용자를 식별하는 데 사용되는 고유한 식별자 입니다.
- 요청 주제 (Principal)을 인증합니다.

SECRET KEY
- HMAC ( Hash-based Message Authentication Code ) 서명값을 검증합니다.
- 요청의 특정 부분을 해싱하여 디지털 서명을 생성하고, 이 서명을 요청에 포함시켜 요청을 보내는 과정을 포함합니다.
- 이렇게 함으로써, 보내는 측이 요청을 생성한 적절한 사용자임을 인증합니다

AWS IAM ?

IAM은 AWS 전체의 권한 통제 시스템을 칭하는 말이며,

I ( Identity) : AWS로 요청을 할 수 있는 보안주체 (Principal)를 의미합니다.

AM ( Access Management) : 누가 어떤 리소스들에 대해 어떤 일을 할 수 있는 권한을 가지는지를 의미합니다.

IAM 보안주체 ( Principal) 는 여러 사용자 유형이 있는데, Cloud Trail 서비스에서 다음과 같이 구분이 됩니다.

Root - API 요청이 AWS Account 자격 증명을 사용 ( 처음 계정 생성시 만들어지는 슈퍼 유저 )
- 모든 리소스에 대한 접근 권한이 있기 때문에 사용 안하는 것을 적극 권장
IAM User - API 요청이 IAM User의 자격 증명을 사용 ( 장기 credential을 사용 )
Assumed Role - API 요청이 AWS STS(Simple Token Service) AssumeRole을 통해 획득한 임시 보안 자격 증명을 사용
AWS Account - 다른 AWS Account에서 요청
AWS Service - AWS 서비스에 속한 AWS 계정을 통해 요청

위와 같은 형식으로 Cloud Trail 서비스 내에서 유저의 유형과, 유저의 이름, 해당 유저가 어떤 행동을 했는지 기록되게 됩니다.

해당 JSON을 이용하여, 보안 감사 및 추적의 목적으로 사용할 수 있겠죠 ?

IAM의 인증과 인가

AWS IAM은 권한 제어를 위한 인증과 인가를 둘 다 담당합니다.

우선 인증으로는 , 보안 주체 ( principal )가 갖게되는 credential은 장기 ( Long-term) 와, 임시 자격 증명이 있습니다.

대표적인 장기 credentials 로는 IAM User(사용자)의 자격 증명을 그대로 이용한 credential입니다.

( IAM User 생성시, 위에서 언급한 Access key와 Secret Key를 발급 받을 수 있습니다. )

반면에 임시 자격 증명으로는 IAM Role의 인증이 있습니다.

예를 들어, 특정 EC2 instance가 다른 AWS 리소스에 접근할 때 사용하는 역할등이 있겠죠.

( 이 과정에서도 특정 리소스를 호출 하는 과정이기에 인증과정이 이루어집니다. )

대신, IAM User의 자격증명을 그대로 이용하는 credential과는 달리, 해당 임시 자격 증명의 시간을 제한할 수 있습니다.

일련의 인증 과정을 거친후, 해당 인증된 사용자(또는 서비스)가 요청에 대한 정책이 허용이 된다면, 그제서야 API 호출은 성공하게 됩니다.

예시 )

- A라는 IAM User는 특정 리소스를 호출합니다. ( S3 Object Put, Get 등 )

- 해당 요청은 IAM 서비스를 통해 보안 주체(요청자)가 적절한 사용자인지 판단합니다(인증).

- 그 후, 인증된 사용자라면 해당 요청자의 권한을 확인합니다.

- 만약 정책에 맞는 요청을 했다면(인가) 요청을 받은 해당 리소스는 요청에 대한 응답을 합니다.

IAM Policy

위의 예시에서 "정책"을 언급했는데, 이 정책은 말 그대로 보안 주체가 가지고 있는 권한을 뜻합니다.

해당 정책의 구조는 대략 다음과 같습니다.

{
	# 예시
	"Version": "2012-10-17",
	"Statement": [
		{
        	# 허용 할건지, 거부 할 것 인지
			"Effect": "Allow or Deny",
            
            # 어떤 행동을 ?
			"Action": [
            	"s3:Get",
                "s3:Put"
            ],
            
            # 어떤 리소스들에 대해 ?
			"Resource": [
            	"arn:aws:s3:<BUCKET-NAME>:<OBJECT-PATH>"
            ]
		}
	]
}

이에 추가로, Condition 블록을 통해 조건을 걸어줄 수 도 있습니다. 위 코드 블럭에 추가하자면,

srcIP가 특정 대역에 속하는 경우에만 허용 같은것 말이죠.

어떤가요? 어느정도 이해가 되셨나요 ? 한 가지 더 재밌는 사실이 남았습니다.

바로 위에서 본 Policy JSON는 Identity Based(보안 주체 기반) Policy 이고, AWS 에서는 위와 유사하지만

Resource Based Policy( 리소스 기반 정책) 으로 종류가 나누어집니다.

위의 JSON 의 Statement 블록안에, Principal 블록이 추가 됩니다.

쉽게 설명하자면, 특정 리소스 ( 예 : S3) 에 특정 보안 주체 (principal)만 허용된 Actions를 수행 할 수 있다 입니다.

예를 들어보시죠 . IAM 사용자에게 역할을 연결하는 것과는 조금 다릅니다.

S3 리소스를 생성합니다.
생성 후, 해당 S3에 접근할 수 있는 주체를 특정합니다. ( 예 : a라는 iam user의 ARN -> arn:aws:iam:<ACCOUNT_ID>:a_user)
해당 주체는 Put과 Get 호출을 할 수 있습니다.
그렇지만 특정 Path 에만 접근이 가능합니다. 또는 모든 Path에 접근이 가능합니다.
또한 , 특정 ip로만 접근할 경우에만 가능합니다. ( 예 : 회사 사무실의 공인 라우터 또는 게이트웨이 IP )

이를 JSON 형식으로 표현하면 다음과 같아집니다.

{
	# 예시
	"Version": "2012-10-17",
	"Statement": [
		{
			"Effect": "Allow",
            
            "Principal" : {
            	"AWS" : [
                	"arn:aws:iam:<ACCOUNT_ID>:a_user"
                ]
            }
        
            # 어떤 행동을 ?
			"Action": [
            	"s3:Get",
                "s3:Put"
            ],
            
            # 어떤 리소스들에 대해 ?
			"Resource": [
            	"arn:aws:s3:<BUCKET-NAME>/<OBJECT-PATH>*"
            ],
            
            "Condition" : {
            	"IpAddress": {
                	"aws:SourceIp" : "1.1.1.1"
                }
            }
		}
	]
}

그렇다면 여기서 궁금증이 생기실 수도 있을텐데요,

" 어라 ? 그럼 IAM 사용자가 리소스를 호출하려 할 때, 리소스 정책과, 유저 정책을 둘 다 만들어줘야 하나 ? , 둘 중에 하나만 열어줘도 되던데 ? "

저도 같은 생각을 했습니다만, 이는 반은 맞고 반은 틀렸습니다.

바로 같은 계정인지, 아니면 다른 계정인지에 따라 이는 구분이 되어 적용됩니다.

쉽게 설명하자면, 같은 Acount_id를 가지고 있는 IAM 사용자와 리소스일 경우에는 둘 중에 하나만 허용해줘도 API 호출이 가능합니다.

다만, 다른 Account_id를 가지고 있는 IAM 사용자와 리소스일 경우에는 , 둘 다 허용해줘야 API 호출이 가능해집니다.

즉, IAM 사용자는 해당 리소스에 대한 적절한 권한을 가지고 있어야 하고, 해당 리소스는 특정 IAM 사용자 ( 다른 계정의)의 ARN을 보안 주체 (Principal 블록) 에 작성해줘야 정상적인 호출이 가능해집니다.

또한, 사용자의 Effect는 특정 Actions가 Allow가 돼있고, 리소스에선 보안주체로 사용자가 명시 돼있어도 리소스 정책에서 Effect가 Deny가 돼있다면, AWS 정책상 Deny의 우선순위가 높기 때문에 사용자의 호출은 거부 됩니다.

마치며 ..

여기까지 IAM에 대한 기본적인 내용을 예시와 함께 간단하게 살펴보았습니다.

다음번엔 AWS 임시 자격증명의 유형과 사용방법에 대해 좀 더 알아보겠습니다.

긴 글 읽어주셔서 감사합니다.

저작자표시 (새창열림)

'AWS' 카테고리의 다른 글

Lambda 함수 동시성 제한 (0)	2025.07.17
AWS Cloud Support Associate 1차 면접 후기 (13)	2023.12.12
AWS ECS 오토 스케일링 및 배포 자동화 (0)	2023.08.01

AWS Cloud Support Associate 1차 면접 후기

2023. 12. 12. 13:13

안녕하세요 ! 오늘은 제목 그대로 AWS Cloud Support Associate 1차 면접 후기에 대해 말씀드리려고 합니다 !

평범한 일상을 보내고 있던 중 링크드인을 통해 AWS Cloud Support 리쿠르터 분께 면접 제의가 오게 됐습니다. ~~(ㄷㄷㄷ)~~

정말 감사하게도 제 링크드인 이력서를 보시고 연락을 주셨고, 사진에서 보시다싶이 서류전형은 자동으로 통과 된다고 말씀해주셨습니다.

이후, 평소에 잘 업데이트 하고 있던 이력서를 냉큼 제출하였고, 제출한지 거의 10분만에 서류전형 이후의 프로세스를 말씀해주셨습니다.

서류전형을 통과 이후에는 Online Assesment 를 보게되었습니다.

해당 테스트는 조금 특별했던게 실제 CSE ( Cloud Support Engineer)분들이 업무를 하시면서 실제 겪으시는 사례를 기반으로 질문이 나왔으며, 평가내용은 기본적인 기술지식, Troubleshooting, 제 업무방식에 대한 질문들이 있었습니다 .

또한 Networking 부분의 꽤나 Deep dive한 질문도 많았습니다.

온라인 테스트는 2일 이내 제출해달라고 하셨지만, 2시간? 만에 해치워버렸습니다.

특이하게도 1차 인터뷰 진행 전, 담당 리쿠르터 분께서 지원직무 변경(Networking -> Deployment) 을 제안하셨고, 평소에 DevOps에 관심이 많았던 터라 흔쾌히 수락하고 면접 준비를 하였습니다. 면접 준비 기간은 약 3일 정도 되었던 것 같습니다(감기 몸살때문에 ..)

리쿠르터분께서 친절하시게도 1차 인터뷰 진행 시, 기술 인터뷰이기에 지원 직무 기반 지식에 대해 참고할만한 문서를 보내주셨습니다.

해당 문서를 보며 평소에 두루뭉실하게 알고 있던 Network, OS, Docker 등을 정리하고

(이 과정에서 참고한 유튜브 채널로는 널널한 개발자님과 쉬운코드님, 우테크 영상을 주로 봤습니다)

그 유명한 아마존 리더십 원칙과 STAR 형식(Situation, Task, Action, Result)의 답변을 염두하며 면접을 준비했습니다

이후, 면접당일이 되었고 면접 보는 회사 규모가 규모라 그런지 엄청 긴장하며 화상면접을 보게 되었습니다 하하;;

인터뷰를 진행하며 deep한 질문에 대답을 잘 못해서 버벅거렸는데, 면접관분께서 생각나면 천천히 말씀해달라고 친절하게 말씀해주셨습니다.. ㅠㅠㅠ

그렇게 1시간이 후다닥 지나가게 되고, 마지막엔 면접관분께 궁금한 것을 질문하는 시간에 개인적으로 몇가지 궁금한걸 질문드렸습니다.

결과가 어떻게 나올진 모르겠지만
세계적인 기업인 AWS Cloud Support Engineer 현직자 분과 대화를 주고 받을 수 있었던 것만으로도 정말 값진 경험이었습니다.

제 경험과 공부했던 내용을 다시 정리하기에도 너무 좋았구요.

긴글 읽어주셔서 감사합니다 !!

저작자표시 (새창열림)

'AWS' 카테고리의 다른 글

Lambda 함수 동시성 제한 (0)	2025.07.17
IAM (0)	2024.03.30
AWS ECS 오토 스케일링 및 배포 자동화 (0)	2023.08.01

AWS EC2 크롤러 컨테이너 헬스체크 적용기

2023. 11. 17. 17:35

안녕하세요 이번 포스팅에서는 수십 개의 크롤러들을 도커라이징하며 겪었던 문제 및 문제 해결을 했던 과정을 소개 시켜 드리려고 합니다.

( ~~그 전부터 정리해야지.. 정리해야지.. 하고 미루다가 이제서야 하게 됐네요~~)

그전에 왜 수십 개의 크롤러들을 도커라이징 고려를 했는지에 대해 말씀드리려 합니다.

우선, 기존 사내 서버실 데스크탑에서 주기적으로 실행되는 크롤러 프로세스들은

- 로컬 개발 환경과 배포 서버 환경의 차이로 인한 각종 에러로 인해, 해당 에러를 처리하는 데에만 꽤나 유의미한 시간이 들었습니다.

- 프로세스가 다운 될 정도의 에러가 발생 시 즉각적으로 대응하지 못하는 점.
(해당 상황 발생 시, 대부분은 프로세스를 다시 실행 시키는 정도의 수준으로 대응이 가능했습니다.)

- 크롤러 내부 로직 수정 시, 수동 배포와 같은 반복적인 작업.

위 사항을 비롯해 기존부터 크롤러 관리의 어려움을 느끼고 있어서 해당 부분을 팀원분들과 논의를 마친 후, 도커라이징을 하기로 결정하게 되었습니다.

크롤러 "공통" Dockerfile의 대략적인 내용은 아래와 같습니다

# Base image
FROM python:3.9

# Set the working directory in the container
WORKDIR /app

RUN apt-get update && apt-get install -y \
    chromium \
    chromium-driver

# Copy the project files to the working directory
COPY . .

# Install required libraries
RUN pip install -r requirements.txt

# Set the entrypoint command
ENTRYPOINT ["/bin/bash", "-c", "exec \"$@\"", "--"]

ENTRYPOINT만 작성한 이유는 해당 도커 이미지의 진입점을 /bin/bash로 설정해놓은 다음

뒤에 오는 CMD 명령을 인자로 받는 다는 뜻이며 , 이는 곧 컨테이너 별로 다르게 실행될 스크립트를 지정해줌으로써 컨테이너 별로 공통 이미지를 가지며 서로 다르게 실행시키기 위함입니다.

컨테이너가 실행될때의 명령을 컨테이너마다 각기 달리 줘야 하기 때문입니다.

크롤러 별 도커 컴포즈 구성은 대략적인 내용은 아래와 같습니다.

// 도커 컴포즈의 버전을 명시
version: '2'

services:
  crawler1:
    container_name: crawler1
    build: .
    command: python3 -u main.py crawler1
    network_mode: host
  craler2:
    container_name: crawler2
    build: .
    command: python3 -u main.py crawler2
    network_mode: host
  
  ...

각 서비스의 컨테이너 별 command는 단일 도커 파일에서 봤을때 다음과 같은 효과가 생기게 됩니다.

ENTRYPOINT ["/bin/bash", "-c", "exec \\"$@\\"", "--"]
CMD [”python3”, "-u", "main.py", “crawler1”]

여기서 한가지 궁금점이 생기실 수도 있는데 만약, ENTRYPOINT만 정의되어 있고, 도커 컴포즈 실행시 Command 지시자가 없다면 어떻게 될까?

해당 물음에 대한 자세한 포스팅은 아래 링크를 참조하시면 좋을 것 같습니다.

https://www.popit.kr/%EA%B0%9C%EB%B0%9C%EC%9E%90%EA%B0%80-%EC%B2%98%EC%9D%8C-docker-%EC%A0%91%ED%95%A0%EB%95%8C-%EC%98%A4%EB%8A%94-%EB%A9%98%EB%B6%95-%EB%AA%87%EA%B0%80%EC%A7%80/

요약하자면, 도커 컨테이너는 가상머신과 같이 하나의 온전한 서버를 제공하는 것이 아닌, 명령을 실행하는 환경만 제공하고, 그 명령을 실행할 뿐입니다. ( 이 이야기에 대해선 다음번에 좀 더 자세히 다루도록 하겠습니다. )

AWS EC2 환경에서의 컨테이너

크롤러 EC2 인스턴스(우분투 리눅스)에는 도커만 설치하고, 크롤러 이미지는 따로 도커 허브를 이용하진 않았습니다.
(테스트 목적이기도 했고, 퍼블릭한 공간에 이미지를 노출하기가 꺼렸습니다. + 프라이빗은 유료..)
버전 관리를 위해 git 으로 필요한 소스코드 파일과 도커 파일, 도커 컴포즈 파일만 호스트에서 이미지를 빌드하고 컨테이너를 실행하게 했습니다.
성공적으로 첫 단계를 밟았다고 생각했으나 문제가 생기게 됩니다.

DB ETIMEDOUT 문제

EC2 인스턴스 내의 프로젝트 폴더에서 직접 코드를 실행했을 때는 잘 되었지만
도커 컴포즈로 컨테이너를 실행시켰을 때, 로그에 DB ETIMEDOUT이라는 에러가 발생하여, 컨테이너가 종료되는 에러가 발생했습니다.
당시의 문제점 파악으로는, 우선 네트워크 문제를 고려했습니다. ( 해당 문제가 아닐 수도 있습니다. )
정리하자면, EC2 인스턴스에서의 크롤러 프로세스는 호스트 네트워크를 사용해 DB와 연결을 하고 데이터를 받아와 크롤링을 합니다.
하지만, 컨테이너는 도커가 부여해준 가상 인터페이스를 가지고 외부로 나가 DB와 연결을 하기에 모종의 이유로 타임아웃이 발생할거라 생각했습니다.

💡 Docker 네트워크는 bridge, host, overlay 등 목적에 따라 다양한 종류의 네트워크 드라이버(driver)를 지원하는데요.

bridge 네트워크는 하나의 호스트 컴퓨터 내에서 여러 컨테이너들이 서로 소통할 수 있도록 해줍니다.
host 네트워크는 컨터이너를 호스트 컴퓨터와 동일한 네트워크에서 컨테이너를 돌리기 위해서 사용됩니다.
overlay 네트워크는 여러 호스트에 분산되어 돌아가는 컨테이너들 간에 네트워킹을 위해서 사용됩니다.

따라서, EC2 인스턴스의 네트워크 인터페이스를 그대로 활용하기 위해 위의 도커 컴포즈 파일의 네트워크 모드를 호스트로 설정해주었습니다.

컨테이너 헬스 체크 과정

호스트 네트워크 모드를 사용해 성공적으로 크롤러들을 실행시키는데 성공했습니다.
그러나, 크롤러가 작동할수록 서버의 CPU 사용량(4vCPU, 8GB)이 무지막지하게 늘어났고(아마 브라우저를 계속 생성해서 그런 거 같음)
- 추후에 생각난건데, 네트워크 I/O 부분도 고려하지 못한게 아쉽다고 생각이 드네요
그 후엔 컨테이너는 정상 실행 상태지만 내부에서는 파이썬 프로세스가 exit가 되어버리며 크롤링이 되지 않는 상황이 발생했습니다.
따라서 적절한 헬스체크 방식이 필요했으며 헬스체크 실패 시 , 컨테이너를 다시 띄우려고 시도 했습니다.

CloudWatch

크롤러 컨테이너들을 실행하고 CPU 사용량을 관측한 결과, 평균 CPU 사용률이 7~80%를 왔다갔다 했었습니다.
이후로, 파이썬 프로세스가 컨테이너 내부에서 종료 됐을 시에는 CPU 사용률이 2~30%를 왔다갔다 했었습니다.
그래서 위 지표를 토대로 CloudWatch의 CPU 사용률이 30%보다 아래일 때, 크롤러 컨테이너들이 종료됐다고 판단하고,
이것을 트리거 삼아 AWS SNS에 이벤트를 게시하게 하였습니다.

SimpleNotificationService ( SNS )

AWS SNS는 말그대로 알림을 전송해주는 서비스이며, 위 사진과 같이 여러 엔드포인트에 대하여 알림을 제공할 수 있다.

위 서비스의 새로운 주제를 생성해, 엔드 포인트를 람다 함수로 설정하여, (나름의) 헬스 체크 실패 시 다시 컨테이너를 띄울 수 있는 방식을 택했습니다.

AWS Lambda

Layers 구성

처음 람다 함수를 실행할 때, 필요한 모듈을 import를 했어야 했는데
docker, slack, 인스턴스에 명령을 전달하기 위해 인스턴스와 연결하는 boto3 모듈 가 import가 되지 않았습니다.
람다 공식 문서를 잘 살펴보니 함수를 실행하기 위한 특정 모듈들은 직접 .zip파일로 만들어서 업로드를 해줘야 동작을 할 수 있었습니다.
- 그래서 필요한 모듈들을 직접 pip3를 이용해 설치하고,
- 모듈들이 설치된 파일을 .zip파일로 압축시켜 신규 Layers를 생성한 뒤, 해당 Layer를 추가 해주었습니다.

Lambda 코드

import boto3
import os
import docker
import time
from slack_sdk import WebClient
from slack_sdk.errors import SlackApiError

# ssm-client 계정 엑세스 키
access_key = os.environ['access_key']
secret_key = os.environ['secret_key']
region = os.environ['region']
instance_id = os.environ['instance_id']
slack_token = os.environ['slack_token']
slack_channel = os.environ['slack_channel']
container_list = os.environ['container_list']
remove_command = os.environ['remove_command']
compose_up_command = os.environ['compose_up_command']


ec2_client = boto3.client(
       "ec2",
       aws_access_key_id=access_key,
       aws_secret_access_key=secret_key,
       region_name=region
   )

# ssm_client를 사용하기 위해선 해당 인스턴스에 ssm_agent가 설치 되어 있어야 하며,
# 해당 access_key를 사용자의 권한에 위의 사진과 같은 권한을 설정해주었다.
ssm_client = boto3.client(
       "ssm"
       aws_access_key_id=access_key,
       aws_secret_access_key=secret_key,
       region_name=region
   )

# 도커 데몬의 기본 포트인 2375를 이용해 람다에서 명령을 실행해주기 위함
res = ec2_client.describe_instances(InstanceIds=[instance_id])
docker_host = "tcp://" + res["Reservations"][0]["Instances"][0]["PublicIpAddress"] + ":2375"

docker_client = docker.DockerClient(base_url=docker_host)
slack_client = WebClient(token=slack_token)


# 실행될 메인 람다 함수 이며 , 필수 파라미터로 event와 context가 있다.
# 이게 왜 필수냐면 트리거가 발동 되거나, 어떠한 이벤트 발생 후, 람다에 전달할때 람다에서 해당 event를 매개변수로 받아 사용해야 하기 때문.
# 근데 여기선 트리거 발생시, 실행중인 컨테이너를 전부 삭제하고 새롭게 띄우는 방식으로 설계 했기 때문에 매개변수는 따로 사용하지 않았다.
def lambda_handler(event,context):
    containers = docker_client.containers.list()

    send_slack_message('크롤러 중지 감ji')
            
    message2 = '크롤러 재실행'
    send_slack_message(message2)
            
    remove_containers()
    docker_compose_up()
            
    message3 = '크롤러 재실행 complete'
    send_slack_message(message3)
                
    return

def remove_containers():
    ssm_client_command(remove_command)
    
def docker_compose_up():    
    # docker-compose up 실행
    project_dir = '/home/ec2-user/Overware_crawler'
    compose_file = [f'{project_dir}/docker-compose.yml']
    project_name = 'my_project'

    options = {'--project-directory': project_dir, '--project-name': project_name}
    docker_client.api.compose.up(
        compose_file=compose_file,
        detach=True,
        options=options,
        timeout=60,
    )

def ssm_client_command(command):
    response = ssm_client.send_command(
        InstanceIds=[ec2_instance],
        DocumentName="AWS-RunShellScript",
        Parameters={
            "commands": [command],
        }
    )
    return

def send_slack_message(message):
    try:
        slack_client.chat_postMessage(channel=slack_channel, text=message)
    except SlackApiError as e:
        slack_client.chat_postMessage(channel=slack_channel, text=str(e))

여기까지 위에 열거한 문제 (컨테이너는 정상 실행 상태지만 내부에서는 파이썬 프로세스가 exit) 를 해결 하기 위해 했던 과정들입니다.

예전에 제가 개인적으로 따로 과정을 정리 해두었지만 글이 너무 중구난방한 상태였고, 해당 문제를 다시 복기하며 보니 개선점이 꽤나 보이네요 ..ㅎㅎㅎ;;

과정들을 겪고나니 이제서야 도커 스웜, 쿠버네티스 같은 컨테이너 오케스트레이션을 이유가 좀 더 와닿는 것 같습니다.

아쉬운 점은,

하나의 컨테이너가 이상이 발생해도, 정상 실행중인 컨테이너 모두를 내리고 다시 실행해야 하는 점
컨테이너의 내부 프로세스 상태를 확인 할 수 있는 방법을 모색하지 못한 점
왜 호스트의 CPU 사용률이 8~90%까지 되었는지 정확한 원인 파악을 못한 점 ( 추정 정도만 ..)
좀 더 Best Practice에 다가가지 못한 점

등이 있겠네요..ㅠㅠ

긴 글 읽어주셔서 감사합니다.

저작자표시 (새창열림)

'Work Experience' 카테고리의 다른 글

좌충우돌 서비스 모니터링 핀포인트 도입기 (0)	2023.07.25

3-way handshake

2023. 11. 7. 15:57

서론

이번 글에서는 클라이언트-서버 간 통신을 하기 전 , 서로의 상태를 확인하는 과정인 3-way hadnshake에 대해 알아보고,

실제 인터페이스의 패킷을 캡쳐해 해당 과정을 확인해보겠습니다.

먼저, TCP/IP 프로토콜 스택에서의 4계층은 TCP와 UDP가 담당하고 있습니다.

여기서 4계층의 목적은 목적지를 찾아가는 주소가 아니라
(이 과정은 이미 2계층-MAC주소과 3계층-IP주소에서 이루어집니다)
애플리케이션에서 사용하는 프로세스를 정확히 찾아가고 데이터를 분할한 패킷을 잘 분해하고 조립하는 것입니다.

TCP 프로토콜은 정보유실 없는 통신을 보장하기 위해 패킷에 번호(Sequence Number)를 부여하고, 잘 전송되었는지에 대해 응답(Acknowledge Number) 합니다.

또한, 한꺼번에 얼마나 보내야 수신자가 잘 받아 처리할 수 있는지 전송 크기(Window Size)까지 고려해 통신합니다.

( TCP/IP 송수신에 대해선 https://yunja.tistory.com/28에 다루었습니다. )

본론

TCP에서는 위에서 설명했듯이 유실없는 안전한 통신을 위해 통신 시작 전, 사전 연결작업을 진행합니다.

패킷에 순서를 부여하는 것을 Sequence Number, 응답 번호를 부여하는 것을 ACK 번호라고 부른다고 했는데요. 두 번호가 상호작용해 순서가 바뀌거나 중간에 패킷이 손실된 것을 파악할 수 있습니다. 대략적인 과정은 아래와 같습니다.

위의 과정으로 HTTP 요청 시, 서버 측의 응답하려는 데이터를 패킷 단위로 쪼개어 보내게 됩니다.

출발지 송신 측에서 시퀀스 번호를 0으로 보냅니다.
수신 측에서는 송신측의 0번 패킷을 잘 받았다는 표시로 응답 번호(ACK)에 1을 적어 응답합니다.
수신 측의 패킷을 받은 송신 측은 시퀀스 번호를 1로 , ACK 번호는 상대방의 0번 시퀀스를 잘 받았다는 의미로 시퀀스 번호를 다시 1로 부여해 송신 합니다.

위의 과정대로 TCP에서의 Sequence Number(Seq), 응답번호 (ACK)가 상호작용하여 데이터를 주고 받는 것을 살펴보았는데요.

이것을 토대로, 오늘의 주제인 위 과정이 실행되기 전의 사전 연결작업인 3방향 핸드셰이크에 대해 알아보겠습니다.

패킷 네트워크에서는 동시에 많은 상대방과 통신하므로 정확한 통신을 위해서 각 통신에 필요한 리소스를 미리 확보하는 작업이 중요합니다.

TCP에서는 3번의 패킷을 주고받음으로써 통신을 서로 준비(송,수신 측이 현재 패킷을 주고 받을 수 있는 상태인지)하기 때문에 3방향 핸드셰이크라고 부릅니다.

통신 시도시 송신자는 플래그에 있는 SYN 필드를 1로 표기해 패킷을 보냄
- 이때 자신이 사용할 첫 seq no(시퀀스 번호)를 적어 보냄.
SYN 패킷을 받은 수신자는 SYN과 ACK 비트를 플래그에 1로 표기해 응답함.
- 첫 패킷이므로 SYN을 1로 표기하고, 송신자가 보냈던 패킷의 응답이기도 하니, ACK 도 함께 1로 써서 보냄
ACK 번호는 10번까지 잘 받았으니 다음에는 10+1번을 달라는 의미임.
수신자의 응답을 받은 송신자는 연결 확립을 위해 다시 한번 응답 메시지를 보냄.
- 수신자가 ACK 번호를 11로 표기했으니, seq no 를 11로 표기해 응답함.
- 동시에 수신자의 시퀀스 번호 20에대한 응답이니, ACK번호를 2로 보냄(20번까지 잘 받았음, 다음꺼 보내줘)
- ACK 번호를 비교해가며, 패킷 유실이 있으면 파악 후, 메모리에 유지해놓은 데이터를 이용해 재전송함.

대략적인 과정을 통해 3방향 핸드 셰이크 패킷이 어떻게 주고 받는지 알아봤으니, 직접 패킷을 캡쳐해 확인해보도록 하겠습니다.

curl www.google.com을 통해 GET 요청을 보낸 후, 캡쳐한 패킷 (*와이어샤크)

$ sudo tcpdump -i en0 -w /Users/yunsmac/Desktop/google.pcap tcp port 80

위 명령은 현재 퍼블릭 네트워크로 통신 중인 제 MAC 주소를 가진 인터페이스에 대해, tcp프로토콜 port 80인 패킷만 캡쳐해 제 로컬에 저장하겠다는 의미입니다. HTTP 요청시 사용하는 포트번호는 기본적으로 80이며, 이는 Well known 포트라고 합니다.

첫 번째 줄의 Source(출발지 주소)는 제 ip 주소, Destination(목적지 주소)는 google.com의 IP 주소입니다.
1. 제가 클라이언트의 입장으로 서버에서 데이터를 받아오기 위해 연결을 시작한다는 의미이죠.
2. 송신측에선 첫 번째 패킷이니 SYN 플래그를 1, 시퀀스 번호를 0으로 사용해 패킷을 전송합니다.
두 번째 줄에서 출발지 ip주소와 목적지 ip주소가 변경되어 google 서버에서 SYN, ACK 플래그로 응답해주는 모습입니다.
1. 이 때, 수신측에서 보내주는 첫 패킷이니 시퀀스 번호는 0, 응답 번호는 수신 측의 시퀀스 번호에 1을 더해 보내줍니다.
2. 수신측의 응답을 잘 받았으니 송신측은 송신 측의 Ack 번호를 시퀀스 번호로 설정하고, 응답 번호는 수신 측의 시퀀스 번호에 1을 더합니다.
네 번째 줄에서 서로 간 통신을 하기 위한 사전 연결 작업이 끝났으니, 송신 측에서는 그제서야 HTTP GET 요청을 보냅니다.
5 ~ 15번째 줄에선 서버 측에서 요청에 대한 응답 데이터를 보내는 과정입니다.
16 ~ 17 번째 줄은 클라이언트 측의 Window Size( 현재 받을 수 있는 패킷의 양)을 보내줍니다- [TCP Window Update].
1. 이후 클라이언트 측의 윈도우 사이즈를 확인한 서버 측은 클라이언트 측이 윈도우 사이즈가 넉넉하니, 계속해서 데이터를 전송합니다.
2. 이때, 서버 측은 패킷을 전송할 때, TCP 헤더에 PSH 플래그를 설정해 보냅니다.
3. PSH 플래그는 서버 측에서 전송할 데이터가 없거나 데이터를 버퍼링 없이 응용 프로그램으로 즉시 전달할 것을 지시할 때 사용됩니다.
4. 또한, HTTP status 200 으로 성공적으로 응답이 완료되었다는 패킷도 함께 전송합니다.
27 ~ 31 번째 줄 . 모든 패킷이 잘 분해되고 조립되어 클라이언트 - 서버 측 간 연결을 종료하게 됩니다. (4방향 핸드셰이크)
1. 이때는 FIN 플래그를 사용하게 됩니다.
2. FIN 플래그는 연결 종료 시 1로 표시되며, 위와 같이 데이터 전송을 마친 후 정상적으로 양방향 종료 시 사용됩니다.

결론 및 참고

이로써, 클라이언트 - 서버 간 통신 상황에서 3방향 핸드셰이크가 어떤 과정으로 이루어지는 지 직접 확인해보았습니다.

참고로 정상적으로 양방향 종료 시, FIN 플래그가 1로 표시 되어 사용된다고 했는데 실제 서비스를 운영하는 과정에서 서버 측에서 프로세스가 종료 되었거나 의도치 않는 동작을 했을 경우, 서버 측에서 보낸 패킷에서 RST 플래그가 표시 될 수도 있습니다.

RST 플래그 또한 연결 종료 시 1로 표시되어 사용되지만, FIN 플래그와 달리 연결 강제 종료를 위해 연결을 일방적으로 끊을 때 사용됩니다.(서버 측이던, 클라이언트 측이던 무엇인가 문제가 생겼다는 뜻이겠죠 ? )

이번 글에서는 3방향 핸드 셰이크 과정을 보기 위해 해당 과정 패킷을 중점적으로 보았지만,

이런식으로 패킷을 캡쳐하여 어떤 부분에서 문제가 일어났는지 분석을 할 수 있다면 , 서비스 운영 및 여러 문제 해결에 도움을 더 줄 수 있을 것 같습니다. 끝으로 지인 분께서 저한테 해주셨던 말씀으로 이 글을 마치도록 하겠습니다.

패킷은 절대 거짓말을 하지 않는다.
- 어느 훌륭한 네트워크 엔지니어(CCIE) -

저작자표시 (새창열림)

'Network' 카테고리의 다른 글

TCP 송/수신 원리 (8)	2023.09.03
DHCP ? (Dynamic Host Configuration Protocol) (5)	2023.08.09

TCP 송/수신 원리

2023. 9. 3. 20:04

오늘은 TCP Segment 송수신 원리에 대해 알아보겠습니다.

클라이언트와 서버 간 서로 통신을 위해 TCP로 연결 된 모습을 간략하게 나타낸 그림입니다.

TCP 프로토콜로 연결하기 전, 3-way handshake 과정은 다음번에 더 자세히 다루도록 하겠습니당.

간단하게 설명하자면 3-way handshake는 클라이언트와 서버 간 데이터를 주고 받기 전에 서로간의 연결 상태(SYN, ACK)를 확인하는 과정을 말합니다.

먼저, 위 그림 같은 상황에서 서버가 클라이언트로 응답 데이터를 보낼때 서버에서 일어나는 상황을 볼까요 ?

서버의 프로세스에서 클라이언트 쪽으로 하드웨어 영역에 있는 파일을 전송한다 가정했을 때, 서버 쪽 프로세스는 해당 파일을 처리하기 위해 메모리에 적재를 합니다.

하드웨어 영역의 파일은 커널의 파일 시스템에 의해 관리되며, 하드 디스크는 소프트웨어 영역의 하드 디스크 드라이버에 의해 관리되겠죠.

이 때, 할당되는 메모리가 전송하려는 파일 크기보다 작다면, 할당된 메모리 크기에 맞춰 파일을 분할하여 메모리에 적재하게 됩니다.

(메모리만 받쳐준다면...많이 적재하는게 좋긴 하겠죠 ..ㅎㅎ)

바로 아래 그림과 같이 말이죠.

전송하려는 파일 크기는 1.4MB, 할당된 메모리는 64KB이며 64KB 단위로 분할

이후, 서버 측 프로세스에선 데이터를 전송하기 위해 TCP/IP 프로토콜 스택에서 TCP Buffer에 현재 메모리에 적재되어 있는 분할된 데이터를 담게 됩니다.

분할된 데이터가 메모리에서 TCP Buffer로 카피된다고 볼 수 있죠.

이 과정을 Buffered I/O라고 부릅니다.

TCP 버퍼에 카피된 데이터가 Internet 계층으로 인캡슐레이션 과정이 일어나게 되고, 이 과정에서 데이터가 세그먼트로 분할 되며 , 각각의 세그먼트들에게는 번호가 부여되게 됩니다. ( 예시 : 1번 세그먼트 + 2번 세그먼트 + 3번 세그먼트 = 보내려는 데이터 )

분할된 세그먼트를 순서대로 패킷에 담아 스위치와 라우터 등을 거쳐 클라이언트 쪽으로 전송하게 됩니다.

이 때, 당연히 해당 패킷에는 목적지 주소 정보도 같이 포함되어 있습니다.

성공적으로 패킷이 클라이언트 측으로 도착하면, 인캡슐레이션 된 패킷을 디캡슐레이션을 하게 됩니다. (택배 상자가 오면 하나하나 까듯이요 )

클라이언트 측 Internet 레이어 수준에서 패킷을 분해합니다.
클라이언트 측 Transport 레이어 수준에서 세그먼트를 확인합니다.

서버 측에서 분할된 세그먼트는 다시 클라이언트 측 TCP 버퍼에 그대로 적재되게 됩니다.

예시 상황으로 위 과정을 다시 쉽게 설명드리자면

서버 측에서 분할된 데이터 ( 1, 2번 세그먼트) 를 패킷에 적재합니다.
해당 패킷에 목적지 주소 정보와 포트 번호를 함께 붙입니다.
서버 -> 클라이언트로 패킷을 전송 후, 클라이언트에선 다시 패킷을 분해해 클라이언트의 TCP/IP 프로토콜 스택 상위 계층으로 올려보냅니다.
클라이언트 측은 1,2번 세그먼트를 성공적으로 받았다는 응답 (ACK)을 서버측으로 보내게 됩니다.

그 이후 서버 측에서 만약 더 보내야할 데이터가 있을 경우에는 위의 4번 과정의 ACK를 Wait하게 됩니다.

(왜냐하면 1, 2번 세그먼트를 클라이언트에서 성공적으로 받았다는 응답이 있어야 3번 세그먼트를 전송할 수 있기 때문이지요)

여기서 중요한건, 위의 4번 과정에서 서버 측으로 ACK를 보낼 때, 현재 TCP Buffer에서 남아있는 공간 ( Window Size)도 같이 전송하게 됩니다. (수신의 경우 버퍼는 OS에서 관리하는 수신 버퍼를 사용합니다)

클라이언트 측의 세그먼트를 처리할 수 있는 공간이 얼마 남았다, 라는 것을 보내준다는 의미라고 생각하시면 됩니다.

여기서 클라이언트의 ACK( 1, 2번 세그먼트 잘 받았어 3번 보내줘) 응답을 받은 서버는 3번 세그먼트를 보내기 전, 클라이언트의 윈도우 사이즈를 확인하고, 보낼지 말지 결정하게 됩니다.

만약, 보내려는 세그먼트 사이즈가 클라이언트 측의 윈도우 사이즈 보다 작으면 당연히 보내게 되는데, 이 반대의 상황이라면

Wait가 걸려버리게 됩니다.

여기서 서버측의 Wait가 발생하는 상황은 여러가지가 있을 수 있겠지만,

이 경우에서는 클라이언트 측의 파일 처리 속도가 네트워크 데이터를 수신하는 속도보다 느릴 경우, 클라이언트 측의 충분한 버퍼 사이즈가 확보되지 않아 발생할 수 있습니다.

그래서 보통 클라이언트 측에서는 데이터를 읽자마자 처리 루틴을 별도 스레드로 분리해 대응한다고 합니다.

만약 데이터를 읽고 처리하는 코드를 한 스레드 안에 묶어버리면 위와 같이 장애 가능성이 매우 높아집니다.

여기까지 서버와 클라이언트 측의 데이터가 어떤 식으로 전송되는지 알아보았습니다 !

ref : https://youtu.be/K9L9YZhEjC0?si=vMtodPcxR6AAQLdS

저작자표시 (새창열림)

'Network' 카테고리의 다른 글

3-way handshake (1)	2023.11.07
DHCP ? (Dynamic Host Configuration Protocol) (5)	2023.08.09

PREV 이전 1 2 3 NEXT 다음

윤재

전체 글

Lambda 함수 동시성 제한

구글의 포스트 모텀 문화

포스트모텀이란 ?

'이것저것' 카테고리의 다른 글

K8s Nginx Ingress Controller 튜닝

들어가며 ..

왜 튜닝이 필요한가?

본론으로 들어가서,

끝으로

참고

IAM

들어가며..

AWS IAM ?

IAM의 인증과 인가

IAM Policy

마치며 ..

'AWS' 카테고리의 다른 글

AWS Cloud Support Associate 1차 면접 후기

'AWS' 카테고리의 다른 글

AWS EC2 크롤러 컨테이너 헬스체크 적용기

크롤러 "공통" Dockerfile의 대략적인 내용은 아래와 같습니다

크롤러 별 도커 컴포즈 구성은 대략적인 내용은 아래와 같습니다.

AWS EC2 환경에서의 컨테이너

DB ETIMEDOUT 문제

컨테이너 헬스 체크 과정

CloudWatch

SimpleNotificationService ( SNS )

AWS Lambda

'Work Experience' 카테고리의 다른 글

3-way handshake

서론

본론

결론 및 참고

'Network' 카테고리의 다른 글

TCP 송/수신 원리

'Network' 카테고리의 다른 글

+ Recent posts

티스토리툴바