하둡 기반의 데이터 인프라 구축
기술 스택
ClouderaManager, MongoDB, MongoDB Connector for Hadoop, spark, pySpark, AWS, Azure, Hyper-V, IntelliJ
실행 환경
Linux
하둡 머신 선정
로컬 머신 또는 클라우드(AWS, Azure) 등
설치
직접 설치 또는 ClouderaManager 이용
MongoDB와 연결
- MongoDB Connector for Hadoop
- mongo-hadoop-spark
MapReduce 코드 작성
Java, Python 등
결과 전달
Hadoop 또는 DB로 전달