Chạy Apache Spark với Jupyter Notebook
Note: This post is over 10 years old. The information may be outdated.
IPython Notebook là một công cụ tiện lợi cho Python. Ta có thể Debug chương trình PySpark Line-by-line trên IPython Notebook một cách dễ dàng, tiết kiệm được nhiều thời gian.
1. Cài đặt Spark
Truy cập trang chủ (https://spark.apache.org/downloads.html), tải về bản Spark phù hợp (ở đây tôi tải bản Apache Spark 1.6.2).
wget http://d3kbcqa49mib13.cloudfront.net/spark-1.6.2-bin-hadoop2.6.tgz
Giải nén và khởi động Spark Standard Alone (hoặc Cluster).
tar -xzvf spark-1.6.2-bin-hadoop2.6.tgz
cd spark-1.6.2-bin-hadoop2.6
./sbin/start-all.sh
Kiểm tra Spark đã Start thành công hay chưa, truy cập: http://spark-master-ip:8080
2. Cài đặt Jupyter Notebook
Cài đặt bằng command line
sudo apt-get install ipython-notebook
Cấu hình cho IPython Notebook
jupyter notebook --generate-config
Mở file .jupyter/jupyter_notebook_config.py và cấu hình lại các tham số sau:
c.NotebookApp.ip = '*'
c.NotebookApp.port = 1603
c.NotebookApp.open_browser = False
Port có thể thay đổi theo ý thích, nếu trùng thì Notebook sẽ tự động đổi sang Port khác.
3. RUN
Thực thi lệnh
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark \
--master local --conf spark.executor.memory=3g \
--conf spark.executor.cores=2 --conf spark.driver.memory=3g \
--conf spark.executor.instances=9 \
--conf spark.kryoserializer.buffer.max=256m
Tùy chỉnh các tham số tùy theo thực tế. Truy cập vào IPython Notebook và sử dụng: http://notebook-ip:1234
Related Posts
Cài Apache Spark standalone bản pre-built
Mình nhận được nhiều phản hồi từ bài viết BigData - Cài đặt Apache Spark trên Ubuntu 14.04 rằng sao cài khó và phức tạp thế. Thực ra bài viết đó mình hướng dẫn cách build và install từ source.
PySpark - Thiếu thư viện Python trên Worker
Apache Spark chạy trên Cluster, với Java thì đơn giản. Với Python thì package python phải được cài trên từng Node của Worker. Nếu không bạn sẽ gặp phải lỗi thiếu thư viện.
vnTokenizer trên PySpark
Trong blog này mình sẽ custom lại vn.vitk để có thể chạy như một thư viện lập trình, sử dụng ngôn ngữ python (trên PySpark và Jupyter Notebook).
Running Spark in GitHub Actions
This post provides a quick and easy guide on how to run Apache Spark in GitHub Actions for testing purposes



