오늘은 컴파일의 과정을 알아보도록 하겠습니다.
개요
프로그래밍을 하다보면 컴파일이라는 단어를 많이 들어봤을겁니다.
소스 코드를 빌드(Build) 혹은 컴파일(Compile)해서 실행해봤거나 코드를 잘못 작성하여 컴파일 에러가 났던 경험이 있을 겁니다.
정확하게 컴파일이 어떠한 일을 하는지 모르고 막연하게 "컴파일을 하면 소스 코드의 문법을 검사하고 실행하나 보다"
라는 생각이 들었으면 이참에 자세히 알아보도록 하겠습니다.
정의
컴파일은 인간이 이해할 수 있는 언어로 작성된 소스 코드(고급 언어 : C,C++,JAVA 등) 을 CPU가 이해할 수 있는 언어(저급 언어 : 기계어) 로 변환 하는 작업을 말합니다.
우리가 소스코드를 작성할때는 인간이 이해할수있는 영어로 작성을 하지만 컴퓨터는 이것을 이해를 절대 못합니다. 그러므로 컴퓨터가 이해할수 있게 0,1 로만 이루어진 컴퓨터에게 0,1 로 대화하는 흔히 변역을 하는 작업을 해야합니다.
-0,1 로 이루어진 것을 기계어라고 한다-
소스 코드는 컴파일을 통해 기계어로 이루어진 실행 파일이 됩니다. 이 파일을 실행하면 실행 파일 내용이 운영체제의 Loader를 통해 메모리에 적재되어 프로그램이 동작합니다.
컴파일 과정
컴파일 과정은 4가지 단계 (전처리-> 컴파일-> 어셈블리-> 링킹) 으로 나누어집니다.
이 4가지 단계를 묶어서 컴파일 과정, 빌드 과정이라고 부르기도 하고 컴파일 과정과 링킹 과정을 따로 나눠서 부르기도 합니다.
보통 빌드 과정은 컴파일 과정보다 넓은 의미(빌드= 컴파일+링킹)로 사용되는데 상황에 맞게 이해하면 될거 같습니다.
각 단계별 과정에 대해 자세히 알아보도록 하겠습니다.
1. 전처리(Pre-processing) 과정
전처리(Pre-Pprocessing)과정은 전처리기(Preprocessor)를 통해 소스 코드 파일(*.c)를 전처리된 소스 코드 파일(*.i)로 변환하는 과정입니다.
저 파일은 각 언어별로 다를수있습니다.
이 과정에서 대표적으로 세 가지 작업을 수행합니다.
주석 제거 : 소스 코드에서 주석을 전부 제거합니다. 주석은 사람들이 알아볼 수 있게 남긴 내용이지 컴퓨터가 알 필요는 없기 떄문입니다.
헤더 파일 삽입 : #include 지시문을 만나면 해당하는 헤더 파일을 찾아 헤더 파일에 있는 모든 내용을 복사해서 소스 코드에 삽입합니다. 즉, 헤더 파일은 컴파일에 사용되지 않고 소스 코드 파일내에 전부 복사됩니다. 헤더 파일에 선언된 함수 원형은 후에 링킹 과정을 통해 실제로 함수가 정의되어 있는 오브젝트 파일(컴파일된 소스 코드파일)과 결합합니다.
매크로 치환 및 적용 : #define 지시문에 정의된 매크로를 저장하고 같은 문자열을 만나면 #define 된 내용으로 치환됩니다. 간단하게 말해 매크로 이름을 찾아서 정의한 값으로 전부 바꿔줍니다.
2. 컴파일(Compilation) 과정
컴파일(Compilation)과정은 컴파일러(Compiler)를 통해 전처리된 소스 코드 파일(*.i)을 어셈블리어 파일 (*.s)로 변환하는 과정입니다.
이 과정에서 우리가 일반적으로 컴파일하면 생각하는 언어의 문법 검사가 이루어집니다.
또한, Static한 영역(Data,BSS영역)들의 메모리 할당을 수행합니다.
컴파일러 구조
컴파일러는 세 단계(프론트엔드 - 미들엔드 - 백엔드)로 구성되어 있습니다.
프론트엔드(Front-end)
프론트 엔드에서는 언어 종속적인 부분을 처리합니다.
소스 코드가 해당 언어로 올바르게 작성되었는지 확인(어휘/구문/의미 분석)하고 미들엔드에 넘겨주기 위한 GIMPLE트리(소스 코드를 트리 형태로 표현한 자료 구조)를 생성합니다.
이 과정에서 C,C++,JAVA와 같은 다양한 언어들이 각 언어에 맞게 처리된 후 공통된 중간 표현(IR : Intermediate representation)인 GIMPLE트리로 변환되므로 언어 종속적인 부분을 처리할 수 있습니다.
미들엔드(Middle-end)
미들엔드에서는 아키텍쳐 비종속적인 최적화를 수행합니다.
아키텍쳐 비종속적인 최적화란 CPU아키텍쳐가 무엇이든(arm,x86 등) 상관없이 할 수 있는 최적화를 말합니다.
프론트 엔드에서 넘겨받은 GIMPLE트리를 이용해 아키텍쳐 비종속적인 최적화를 수행한 후 백엔드에서 사용하는 RTL(Register Transfer Language : 고급 언어와 어셈블리 언어의 중간형태)를 생성 합니다.
백엔드(Back-end)
백엔드에서는 아키텍쳐 종속적인 최적화를 수행합니다.
아키텍쳐 종속적인 최적화란 아키텍쳐 특성에 따라 최적화를 수행하는 것을 말합니다.
같은 기능을 수행하는 명령이여도 CPU아키텍쳐별로 더욱 효율적인 명령어로 대체하여 성능을 높이는 작업을 예를 들 수 있습니다.
미들엔드에서 넘겨받은 RTL을 이용해 아키텍쳐 종속적인 최적화를 수행하고 최적화가 완료되면 어셈블리 코드를 생성합니다.
아키텍쳐 종속적인 최적화를 수행하면 해당 아키텍쳐만 이해할 수 있는 언어가 되기 떄문에 아키텍쳐가 맞지 않으면 어셈블리 코드를 해석할 수 없습니다.
이러한 과정을 통해 하나에 어셈블리어 파일을 만들어 줍니다.
3. 어셈블리(Assembly) 과정
어셈블리(Assembly)과정은 어셈블러(Assembler)를 통해 어셈블리어 파일(*.s)를 오브젝트 파일(*.o)로 변환하는 과정입니다.
그럼 오브젝트 파일이란 무엇일가요?
오브젝트 파일(Object File) 정의
어셈블리 코드는 이제 더 이상 사람이 알아볼 수 없는 기계어로 변환되는데 이를 오브젝트 코드라 부릅니다.
오브젝트 코드로 구성된 파일을 오프젝트 파일(Object File)이라 부르며 이 오브젝트 파일은 특정한 파일 포맷을 가집니다.
오브젝트 파일 포맷(Object File Format)
오브젝트 파일 포맷은 다음과 같은 구조를 하고 있습니다.
오브젝트 파일 헤더 : 오브젝트 파일의 기초 정보를 가지고 있는 헤더
텍스트 섹션 : 기계어로 변환된 코드가 들어 있는 부분
데이터 섹션 : 데이터(전역 변수, 정적 변수)가 들어 있는 부분
심볼 테이블 섹션 : 소스 코드에서 참조되는 심볼들의 이름과 주소가 정의 되어 있는 부분.
재배치 정보 섹션 : 링킹 전까지 심볼의 위치를 확정할 수 없으므로 심볼의 위치가 확정 나면 바꿔야 할 내용을 적어놓는 부분
디버깅 정보 섹션 : 디버깅에 필요한 정보가 있는 부분
여기서 중요한 부분은 심볼 테이블 섹션과 재배치 정보 섹션이다.
심볼(Symbol)은 함수나 변수를 식별할 때 사용하는 이름으로 심볼 테이블(Symbol Table)안에는 오브젝트 파일에서 참조되고 있는 심볼 정보(이름과 데이터의 주소 등)을 가지고 있습니다.
이떄 오브젝트 파일의 심볼 테이블에는 해당 오브젝트 파일의 심볼 정보만 가지고 있어야 하기 떄문에 다른 파일에서 참조되고 있는 심볼 정보의 경우 심볼 테이블에 저장할 수 없습니다.
4. 링킹(Linking) 과정
링킹(Linking)과정은 링커(Linker)를 통해 오브젝트 파일(*.o)들을 묶어 실행 파일로 만드는 과정입니다.
이 과정에서 오브젝트 파일들과 프로그램에서 사용하는 라이브러리 파일들을 링크하여 하나의 실행 파일을 만듭니다.
이떄 라이브러리를 링크하는 방법에 따라 정적 링킹(Static Linking)과 동적 링킹(Dynamic Linking)으로 나눌 수 있습니다.
링커의 역할
링커의 역활은 크게 심볼 해석 과 재배치로 나눌 수 있습니다.
심볼 해석(Symbol Resolution)
심볼 해석은 각 오브젝트 파일에 있는 심볼 참조를 어떤 심볼 정의에 연관시킬지 결정하는 과정입니다. 여러 개의 오브젝트 파일에 같은 이름의 함수 또는 변수가 정의되어 있을 때 어떤 파일의 어떤 함수를 사용할지 결정합니다.
재배치(Relocation)
재배치는 오브젝트 파일에 있는 데이터의 주소나 코드의 메모리 참조 주소를 알맞게 배치하는 과정입니다.
링커가 컴파일러가 생성한 오브젝트 파일을 모아서 하나의 실행 파일을 만들 때, 각 오브젝트 파일에 있는 데이터의 주소나 코드의 메모리 참조 주소가 링커에 의해 합쳐진 실행 파일에서의 주소와 다르기 때문에 그것을 알맞게 수정해줘야 합니다.
이를 위해 오브젝트 파일 안에 재배치 정보 섹션(Relocation Information Section)이 존재합니다.
링킹 과정에서 같은 세션끼리 합쳐진 후 재배치가 일어납니다.
위 그름을 통해 알 수 있듯이 오브젝트 파일 형식은 링킹 과정에서 링커가 여러 개의 오브젝트 파일들을 하나의 실행 파일로 묶을 때 필요한 정보를 효율적으로 파악할 수 있는 구조입니다.
링킹을 하기 전 오브젝트 파일을 재배치 가능한 오브젝트 파일이라 부르고 링킹을 통해 만들어지는 오브젝트 파일을
실행 가능한 오브젝트 파일이라고 부릅니다.
Reference
https://bradbury.tistory.com/226
컴파일(Compile)에 대한 이해
서론 C, C++, Java 프로그래밍을 해봤으면 작성한 소스 코드를 빌드(Build) 혹은 컴파일(Compile)해서 실행해봤거나 코드를 잘못 작성하여 컴파일 에러가 났던 경험이 있을 것이다. 정확하게 컴파일이
bradbury.tistory.com
'개발자 면접 공부 > 운영체제,CS' 카테고리의 다른 글
해쉬 테이블(Hash Table) (0) | 2022.11.15 |
---|---|
UTF-8 vs UTF-16 (0) | 2022.09.16 |
리틀 엔디안 vs 빅 엔디안 (0) | 2022.09.09 |
쓰레드 풀링, 메모리 풀링 (0) | 2022.08.23 |
블로킹(Blocking), 논 블로킹(Non-Blocking), 동기(Sync), 비동기(ASync) (0) | 2022.08.18 |