LogoDuyệtSr. Data Engineer
HomeAboutPhotosInsightsCV

Footer

Logo

Resources

  • Rust Tiếng Việt
  • /archives
  • /series
  • /tags
  • Status

me@duyet.net

  • About
  • LinkedIn
  • Resume
  • Projects

© 2026 duyet.net | Sr. Data Engineer | 2026-02-27

Chạy Apache Spark với Jupyter Notebook

Note: This post is over 10 years old. The information may be outdated.

IPython Notebook là một công cụ tiện lợi cho Python. Ta có thể Debug chương trình PySpark Line-by-line trên IPython Notebook một cách dễ dàng, tiết kiệm được nhiều thời gian.

1. Cài đặt Spark

Truy cập trang chủ (https://spark.apache.org/downloads.html), tải về bản Spark phù hợp (ở đây tôi tải bản Apache Spark 1.6.2).

wget http://d3kbcqa49mib13.cloudfront.net/spark-1.6.2-bin-hadoop2.6.tgz

Giải nén và khởi động Spark Standard Alone (hoặc Cluster).

tar -xzvf spark-1.6.2-bin-hadoop2.6.tgz
cd spark-1.6.2-bin-hadoop2.6
./sbin/start-all.sh

Kiểm tra Spark đã Start thành công hay chưa, truy cập: http://spark-master-ip:8080

2. Cài đặt Jupyter Notebook

Cài đặt bằng command line

sudo apt-get install ipython-notebook

Cấu hình cho IPython Notebook

jupyter notebook --generate-config

Mở file .jupyter/jupyter_notebook_config.py và cấu hình lại các tham số sau:

c.NotebookApp.ip = '*'
c.NotebookApp.port = 1603
c.NotebookApp.open_browser = False

Port có thể thay đổi theo ý thích, nếu trùng thì Notebook sẽ tự động đổi sang Port khác.

3. RUN

Thực thi lệnh

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark \
 --master local --conf spark.executor.memory=3g \
 --conf spark.executor.cores=2 --conf spark.driver.memory=3g \
 --conf spark.executor.instances=9 \
 --conf spark.kryoserializer.buffer.max=256m

Tùy chỉnh các tham số tùy theo thực tế. Truy cập vào IPython Notebook và sử dụng: http://notebook-ip:1234

Sep 20, 2016·9 years ago
|Data|
Data EngineeringApache SparkPythonMachine Learning
|Edit|

Related Posts

Cài Apache Spark standalone bản pre-built

Mình nhận được nhiều phản hồi từ bài viết BigData - Cài đặt Apache Spark trên Ubuntu 14.04 rằng sao cài khó và phức tạp thế. Thực ra bài viết đó mình hướng dẫn cách build và install từ source.

May 31, 2017·9 years ago
Read more

PySpark - Thiếu thư viện Python trên Worker

Apache Spark chạy trên Cluster, với Java thì đơn giản. Với Python thì package python phải được cài trên từng Node của Worker. Nếu không bạn sẽ gặp phải lỗi thiếu thư viện.

Sep 8, 2016·9 years ago
Read more

vnTokenizer trên PySpark

Trong blog này mình sẽ custom lại vn.vitk để có thể chạy như một thư viện lập trình, sử dụng ngôn ngữ python (trên PySpark và Jupyter Notebook).

Dec 14, 2016·9 years ago
Read more

Running Spark in GitHub Actions

This post provides a quick and easy guide on how to run Apache Spark in GitHub Actions for testing purposes

May 7, 2023·3 years ago
Read more
On this page
  • 1. Cài đặt Spark
  • 2. Cài đặt Jupyter Notebook
  • 3. RUN
On this page
  • 1. Cài đặt Spark
  • 2. Cài đặt Jupyter Notebook
  • 3. RUN