힙을 이용한 데이터 리스트 병합

컴퓨터 프로그래밍 공부/자료구조와 알고리즘

힙을 이용한 데이터 리스트 병합

뽀또치즈맛 2024. 11. 18. 00:01

유전자 관련 생명의학 응용 프로그램에서

대용량 데이터셋을 처리하는 경우를 가정해보겠다.

유사성을 계산하려면 정렬된 DNA 순위가 필요하다.

그러나 데이터셋이 너무 방대하기 때문에 단일 머신에서 처리할 수 없다.

그러므로 분산 클러스터에서 데이터를 처리하고 저장하며,

각각의 노드는 일련의 정렬된 값이 있다.

주 처리 엔진은 이들 데이터를 모아서 정렬된 단일 스트림으로 변환해야 한다.

다수의 정렬된 배열을 합쳐 하나의 정렬된 배열을 만드는 기능을 벡터로 제작해보자.

각각의 리스트는 이미 정렬되어 있기 때문에
각 리스트의 최소 원소는 맨 앞에 위치한다.
힙에서 최소 원소를 가져온 후 이를 제거하고,
최소 원소가 있던 리스트에서 그 다음으로 작은 원소를 선택해 힙에 추가한다.
힙의 노드는 이 원소를 어느 리스트에서 가져왔는지,
또한 해당 리스트에서 몇 번째 원소인지를 저장해야한다.

#include <iostream>
#include <algorithm>
#include <vector>

struct node {
	int data;
	int listPosition;
	int dataPosition;
};

std::vector<int> merge(const std::vector<std::vector<int>>& input) {
	auto comparator = [](const node& left, const node& right) {
		if (left.data == right.data)
			return left.listPosition > right.dataPosition;
		return left.data > right.data;
		};

	std::vector<node> heap;
	for (int i = 0; i < input.size(); i++) {
		heap.push_back({ input[i][0], i, 0 });
		std::push_heap(heap.begin(), heap.end(), comparator);
	}

	std::vector<int> result;
	while (!heap.empty())
	{
		std::pop_heap(heap.begin(), heap.end(), comparator);
		auto min = heap.back();
		heap.pop_back();
		result.push_back(min.data);
		int nextIndex = min.dataPosition + 1;
		if (nextIndex < input[min.listPosition].size()) {
			heap.push_back({ input[min.listPosition][nextIndex], min.listPosition, nextIndex });
			std::push_heap(heap.begin(), heap.end(), comparator);
		}
	}
	return result;
}

'컴퓨터 프로그래밍 공부 > 자료구조와 알고리즘' 카테고리의 다른 글

DFS 구현 (재귀와 스택) 과 BFS(큐) (2)	2024.12.27
자기 전 누워서 정리하는 배열과 리스트 (0)	2024.11.27
힙을 이용한 중앙값 구하기 (0)	2024.11.04
힙 (0)	2024.10.31
트리를 이용한 파일 시스템 자료 구조 만들기 (1)	2024.10.29

현재글힙을 이용한 데이터 리스트 병합

개발 공부 블로그

일단 하자

Today :
Yesterday :

오블완, 티스토리챌린지,

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개발 공부 블로그

힙을 이용한 데이터 리스트 병합

'컴퓨터 프로그래밍 공부 > 자료구조와 알고리즘' 카테고리의 다른 글

'컴퓨터 프로그래밍 공부/자료구조와 알고리즘'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

힙을 이용한 데이터 리스트 병합

'컴퓨터 프로그래밍 공부 > 자료구조와 알고리즘' 카테고리의 다른 글

'컴퓨터 프로그래밍 공부/자료구조와 알고리즘'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역