본문 바로가기

CS

HTTP 완벽 가이드 | 웹의 기초

HTTP 개관

  • 전 세계의 웹 브라우저, 서버, 웹 애플리케이션은 모두 HTTP (HyperText Transfer Protocol)을 통해 서로 대화한다. HTTP는 현대 인터넷의 공용어이다.
  • HTTP는 전세계의 웹 서버로부터 대용량 정보를 빠르고, 간편하고, 정확하게 사람들의 PC에 설치된 웹브라우저로 옮겨준다.
  • HTTP는 신뢰성 있는 데이터 전송 프로토콜을 사용하기 때문에 데이터가 지구 반대편에서 오더라도 전송중 손상되거나 꼬이지 않음을 보장한다.

웹 클라이언트와 서버

  • HTTP클라이언트와 HTTP서버는 월드 와이드 웹의 기본 요소이다.
  • 웹 브라우저는 서버에게 HTTP 객체를 요청하고 사용자의 화면에 보여준다.

리소스

  • 웹서버는 웹 리소스를 관리하고 제공한다.
  • 가장 단순한 웹 리소스는 웹서버 파일 시스템의 정적 파일
  • 리소스는 정적 파일일 필요가 없다. 요청에 따라 콘텐츠를 생산하는 프로그램이 될 수 있다.

인터넷은 수천가지 데이터 타입을 다루기 떄문에 HTTP는 웹에서 전송되는 객체 각각에 신중하게 MIME 타입이라는 데이터 포맷 라벨을 붙인다. MIME(Multipurpose Internet Mail Extension)은 원래 각기 다른 전자메일 시스템 사이에서 메시지가 오갈 때 겪는 문제점을 해결하기 위해 설계되었다. MIME은 이메일에서 워낙 잘 작동. HTTP에서도 멀티미디어 콘텐츠를 기술하고 라벨을 붙이기 위해 채택되었다.

  • 웹 서버는 모든 HTTP 객체 데이터에 MIME 타입을 붙인다. 웹 브라우저는 서버로부터 객체를 돌려받을 때, 다룰 수 있는 객체인지 MIME 타입을 통해 확인.

URI는 통합 자원 식별자 (Uniform resource identifier)이다. URI에는 URL과 URN이 있다.

URL

  • 통합 자원 지시자 (uniform resource locator)는 리소스 식별자의 가장 흔한 형태.
  • URL은 특정 서버의 한 리소스에 대한 구체적인 위치를 서술.

대부분의 URL은 세 부분으로 이루어진 표준 포맷을 따른다.

  • scheme: 리소스에 접근하기 위해 사용되는 프로토콜.
  • 서버의 인터넷 주소 (www.hyunjinlee.com)
  • 마지막은 웹 서버의 리소스.(/svg/logo.svg)

오늘날의 대부분의 URI는 URL이다.

URN

  • Uniform Resource Name
  • URN은 콘텐츠를 이루는 한 리소스에 대해 그 리소스의 위치에 영향 받지 않는 유일무이한 이름 역할을 한다.
  • 리소스가 그 이름을 변하지 않게 유지하는 한, 여러 종류의 네트워크 접속 프로토콜로 접근해도 문제 없다.
  • 아직 실험중 & 널리 채택되지 않음.

트랜잭션

HTTP는 HTTP메서드라고 불리는 여러가지 종류의 요청 명령을 지원. 모든 HTTP 요청 메시지는 한개의 메서드를 갖는다. 메서드는 서버에게 어떤 동작이 취해져야 하는지 말해준다.

모든 HTTP 응답메시지는 상태 코드와 함께 반환된다. 상태코드는 클라이언트에게 요청이 성공했는지 아니면 추가 조치가 필요한지 알려주는 세자리 숫자이다.

애플리케이션은 보통 하나의 작업을 수행하기 위해 여러 HTTP 트랜잭션을 수행한다.
웹페이지는 보통 하나의 리소스가 아닌 리소스의 모음이다.

HTTP메시지는 다음 세 부분으로 구성된다.

  • 시작줄: 메시지의 첫 줄은 시작줄로 요청이라면 무엇을 해야하는지 응답이라면 무슨일이 일어났는지 나타낸다.
  • 헤더: 시작줄의 다음에는 0개이상의 헤더 필드가 이어진다. 각 헤더 필드는 쉬운 구문 분석을 위해 쌍점으로 구분되어 있는 하나의 이름과 하나의 값으로 구성된다. 헤더는 빈 줄로 끝난다.
  • 본문: 빈 줄 다음에는 어떤 종류의 데이터든 들어갈 수 있는 메시지 본문이 필요에 따라 올 수 있다. 요청의 본문은 웹서버로 데이터를 실어보내며, 응답의 본문은 클라이언트로 데이터를 반환한다. 문자열이며 구조적인 시작줄이나 헤더와 달리, 본문은 임의의 이진 데이터를 포함할 수 있다. 물론 본문은 텍스트도 포함할 수 있다.

TCP 커넥션

HTTP는 애플리케이션 계층 프로토콜이다. HTTP는 네트워크 통신의 핵심적인 세부 사항에 대해서 신경쓰지 않는다. 대신 대중적이고 신뢰성 있는 인터넷 전송 프로토콜인 TCP/IP에게 맡긴다.

  • 오류 없는 데이터 전송
  • 순서에 맞는 전달(데이터는 언제나 보낸 순서대로 도착)
  • 조각나지 않는 데이터 스트림

인터넷 자체자 전 세계의 컴퓨터와 네트워크 장치들 사이에서 대중적으로 사용되는 TCP/IP에 기초한다. TCP/IP는 TCP와 IP가 층을 이루는, 패킷 교환 네트워크 프로토콜의 집합이다. TCP/IP는 각 네트워크와 하드웨어의 특성을 숨기고, 어떤 종류의 컴퓨터나 네트워크든 서로 신뢰성있는 의사소통을 하게 해준다.

TCP 커넥션이 맺어지면 클라이언트와 서버 컴퓨터 간에 교환되는 메시지가 없어지거나, 손상되거나, 순서가 뒤바뀌어 수신되는일은 결코 없다.

네트워크 개념상 HTTP프로토콜은 TCP위의 계층이다. HTTP는 자신의 메시지 데이터를 전송하기 위해 TCP를 사용한다. 이와 유사하게 TCP는 IP위의 계층이다.

HTTP 클라이언트가 서버에 메시지를 전송할 수 있게 되기 전에, 인터넷 프로토콜 주소와 포트번호를 사용해 클라이언트와 서버 사이에 TCP/IP 커넥션을 맺어야한다. 호스트 명은 IP 주소에 대한 이해하기 쉬운 형태의 별명이다. 호스트명은 도메인 이름 서비스 (Domain Name Service, DNS)라고 불리는 장치를 통해 쉽게 IP로 변환될 수 있다.

웹 브라우저가 HTTP를 이용해서 멀리 떨어진 곳에 있는 서버의 단순한 HTML 리소스를 사용자에게 보여주는 과정

  1. 웹 브라우저는 서버의 URL에서 호스트 명을 추출한다.
  2. 웹 브라우저는 서버의 호스트 명을 IP로 변환한다.
  3. 웹 브라우저는 URL에서 포트번호를 추출한다.
  4. 웹 브라우저는 웹 서버와 TCP 커넥션을 맺는다.
  5. 웹 브라우저는 서버에 HTTP 요청을 보낸다.
  6. 서버는 웹 브라우저에 HTTP 응답을 돌려준다.
  7. 커넥션이 닫히면, 웹 브라우저는 문서를 보여준다.

프로토콜 버전

  • HTTP/0.9
  • HTTP/1.0: 1.0은 처음 널리 쓰이기 시작한 HTTP 버전. HTTP 헤더, 추가 메섣, 멀티미디어 객체 처리를 추가했다. HTTP/1.0은 시각적으로 매력적인 웹페이지와 상호작용하는 폼을 실현했고 이는 월드 와이드 웹을 대세로 만들었다. HTTP/1.0은 결코 잘 정의된 명세가 아니다. HTTP가 상업적으로, 학술적으로 급 성장하던 시기에 만들어진 잘 동작하는 용례들의 모음에 가깝다.
  • HTTP/1.0+: 90년대 중반 월드 와이드웹이 급격히 팽창하고 상업적으로 성공하면서 여러 유명 웹 클라이언트와 서버들은 그에 따른 요구를 충족시키기 위해 발 빠르게 HTTP에 기능을 추가했다. 오래 지속되는 "keep-alive" 커넥션, 가상 호스팅 지원, 프락시 연결지원을 포함해 많은 기능이 공식적이진 않지만 사실상 표준으로 HTTP에 추가되었다.
  • HTTP/1.1: HTTP/1.1은 HTTP 설계의 구조적 결함 교정, 두드러진 성능 최적화, 잘못된 기능 제거에 집중했다. 뿐만 아니라 HTTP/1.1은 더 복잡해진 웹 애플리케이션과 배포를 지원한다. HTTP/1.1은 현재의 HTTP 버전이다.
  • HTTP/2.0: HTTP/2.0은 HTTP/1.1 성능 문제를 개선하기 위해 구글의 SPDY 프로토콜을 기반으로 설계가 진행중인 프로토콜이다.

웹의 구성요소

  • 프락시: 클라이언트와 서버 사이에 위치한 HTTP 중개자
  • 캐시: 많이 찾는 웹 페이지를 클라이언트 가까이에 보관하는 HTTP 창고
  • 게이트웨이: 다른 애플리케이션과 연결된 특별한 웹 서버
  • 터널: 단순히 HTTP 통신을 전달하기만 하는 특별한 프락시
  • 에이전트: 자동화된 HTTP 요청을 만드는 준지능적 웹 클라이언트

프록시

프록시는 클라이언트와 서버 사이에 위치하여, 클라이언트의 모든 HTTP 요청을 받아 서버에 전달한다. 이 애플리케이션은 사용자를 위한 프락시로 동작하며 사용자를 대신해 서버에 접근한다. 프락시는 주로 보안을 위해 사용한다. 즉 모든 웹 트래픽 흐름 속에서 신뢰할 만한 중재자 역할을 한다.

캐시

웹캐시와 캐시 프락시는 자신을 거쳐가는 문서들 중 자주 찾는 것의 사본을 저장해두는, 특별한 종류의 HTTP 프락시 서버이다. 다음번에 클라이언트가 같은 문서를 요청하면 그 캐시가 갖고 있는 사본을 받을 수 있다.

클라이언트는 멀리 떨어진 웹 서버보다 근처의 캐시에서 훨씬 더 빨리 문서를 다운 받을 수 있다.HTTP는, 캐시를 효율적으로 동작하게 하고 캐시된 콘텐츠를 최신 버전으로 유지하면서 동시에 프라이버시도 보호하기 위한 많은 기능을 정의한다.

게이트 웨이

게이트웨이는 다른 서버들의 중개자로 동작하는 특별한 서버다. 게이트웨이는 주로 HTTP트래픽을 다른 프로토콜로 변환하기 위해 사용된다. 게이트웨이는 언제나 스스로가 리소스를 갖고 있는 진짜 서버인 것처럼 요청을 다룬다. 클라이언트는 자신이 게이트웨이와 통신하고 있음을 알아채지 못할 것이다.

HTTP/FTP 게이트웨이는 FTP URI에 대한 HTTP 요청을 받아들인 뒤, FTP 프로토콜을 이용해 문서를 가져온다. 받아온 문서는 HTTP 메시지에 담겨 클라이언트에게 보낸다.

터널

터널은 두 커넥션 사이에서 날(raw)데이터를 열어보지 않고 그대로 전달해주는 HTTP 어플리케이션이다. HTTP 터널은 주로 비 HTTP 데이터를 하나 이상의 HTTP 연결을 통해 그대로 전송해주기 위해 사용된다. HTTP 터널을 활용하는 대표적인 예로, 암호화된 SSL 트래픽을 HTTP 커넥션으로 전송함으로써 웹 트래픽만 허용하는 사내 방화벽을 통과시키는 것이 있다.

HTTP/SSL 터널은 HTTP 요청을 받아들여 목적지의 주소와 포트번호로 커넥션을 맺는다. 이후부터는 암호화된 SSL 트래픽을 HTTP 채널을 통해 목적지 서버로 전송할 수 있게 된다.

에이전트

사용자 에이전트는 사용자를 위해 HTTP 요청을 만들어주는 클라이언트 프로그램이다. 웹 요청을 만드는 애플리케이션은 뭐든 HTTP 에이전트다. 지금까지 우리는 한가지 종류의 HTTP 에이전트, 웹브라우저에 대해서만 이야기 했다. 그러나 사용자 에이전트에는 여러가지 종류가 더 있다.

예를들어 사람의 통제 없이 스스로 웹을 돌아다니며 HTTP 트랜잭션을 일으키고 콘텐츠를 받아오는 자동화된 사용자 에이전트가 있다. 이들 자동화된 에이전트는 보통 '스파이더'나 '웹로봇'과 같이 다채로운 이름을 가지고 있다.