Apache Spark hướng dẫn

Apache Spark có thể được cài đặt trên các hệ điều hành khác nhau như Windows, Ubuntu, Fedora, Centos, Ở đây chúng ta sẽ tìm hiểu cách cài đặt Spark trên cả Windows và Ubuntu. Tuy nhiên do Spark được phát triển trên hệ sinh thái Hadoop nên tốt nhất ta nên cài đặt và triển khai Apache Spark trên các hệ điều hành Linux (như Ubuntu)

I. Cài đặt Apache Spark trên Windows.

1. Download và cài đặt Java

Download và cài đặt JDK tại đây

Thiết lập biến môi trường JAVA_HOME với đường dẫn tới thư mục jdk (ví dụ: C:\Program Files\Java\jdk1.8.0_191) trong Enviroment Variable (vào Control Panel, chọn System rồi chọn Advanced System settings ở góc bên góc trái)

Thêm thư mục bin của jdk (%JAVA_HOME%\bin) vào trong biến môi trường Path
Lưu lại các thiết lập rồi mở cửa sổ command để kiểm tra bằng lệnh java -version.

Apache Spark hướng dẫn

2. Download và cài đặt Scala

Download và cài đặt Scala tại đây (kéo xuống chọn Binary for windows)

Thiết lập biến môi trường SCALA_HOME và Path tương tự như phần cài đặt Java

Kiểm tra thiết lập bằng lệnh scala -version.

3. Download Spark

Download Spark tại đây rồi tiến hành tiến hành giải nén file

Thiết lập biến môi trường SPARK_HOME và Path tương tự như trên

4. Download Winutils

Tiến hành download Winutils tại đây, chú ý lựa trọn phiên bản Hadoop phù hợp với phiên bản đã lựa trọn trong phần download Spark

Click vào phiên bản Hadoop phù hợp, kéo xuống bên dưới để download file winutils.exe

Lưu file winutils.exe vào một thư mục bất kỳ và tạo biến môi trường HADOOP_HOME với đường dẫn tới thư mục đó (nếu khi chạy spark bị lỗi không load được Winutils thì xem lại đường dẫn của Winutils vì có thể nó cần được để trong thư mục bin)

5. Thay đổi quyền truy cập cho thư mục tmp/hive

Sau khi hoàn thành các bước trên, sẽ có thư mục tmp/hive được tạo ra trong ổ C. Ta cần phải thay đổi quyền truy cập cho thư mục này nếu không khi chạy Spark sẽ báo lỗi

Để thực hiện việc này, ta mở một cửa số command rồi dùng Winutils để thay đổi permission như sau (chmod 777: cấp quyền read, write và execute):

1
winutils.exe chmod 777 C:\tmp\hive

6. Kiểm tra hoàn thiện cài đặt

Chạy thử một chương trình Spark nhỏ để kiểm tra xem việc cài đặt đã hoàn tất hay chưa.

Dùng lệnh cmd để mở một của sổ command.

Gõ lệnh spark-shell

Gõ một chương trình nhỏ để chạy thử val

1
2
textRDD=sc.textFile("README.md")
textRDD.count()

Apache Spark hướng dẫn

II. Cài đặt Apache Spark trên ubuntu

1. Download và cài đặt Java

Mở một terminal rồi dùng lệnh sau để cài jdk:

1
sudo apt-get install default-jdk

Kiểm tra lại bằng lệnh java -version

  • Apache Spark hướng dẫn

(Các bạn có thể thiết lập JAVA_HOME và PATH trong Ubuntu bằng cách mở file ~/.bashrc với dòng lệnh gedit ~/.bashrc rồi thêm hai dòng lệnh dưới đây vào cuối file này. Sau đó các bạn nhấn nút Save để lưu file và mở một cửa sổ terminal rồi dùng dòng lệnh source ~/.bashrc để thực thi thay đổi củafile ~/.bashrc trên toàn bộ môi trường hiện tại.)

1
2
export JAVA_HOME=/usr/lib/jvm/default-java
export PATH=$PATH:$JAVA_HOME/bin

2. Download và cài đặt Scala

Dùng lệnh sau để cài Scala: sudo apt-get install scala

Kiểm tra lại bằng lệnh scala -version

3. Download và cài đặt Spark

Tương tự như trong phần cài đặt trên Windows, ta download Spark tại đây

Tiến hành giải nén file download được vào thư mục bất kỳ (ví dụ: ~/Workspace/BigData/Tools)

Thêm thư mục bin của Spark vào biến PATH bằng cách dùng lệnh gedit ~/.bashrc rồi thêm dòng sau vàofile bashrc:

1
export PATH=$PATH:~/Workspace/BigData/Tools/spark-2.4.0-bin-hadoop2.7/bin

Dùng dòng lệnh source ~/.bashrc để thực thi thay đổi củafile ~/.bashrc trên toàn bộ môi trường hiện tại.

Kiểm tra lại việc cài đặt bằng việc chạy thử Spark:

1
2
spark-shell
val textRDD= sc.textFile(README.md)textRDD.count()

Apache Spark hướng dẫn