Tôi là Duyệt

Showing posts 11-19 of 19 from python topic (Page 2 of 2). Checking out all my favorite topics here.

Tue Nov 22 2016 00:00:00 GMT+0000 (Coordinated Universal Time)Data Engineer

R trên Jupiter Notebook (Ubuntu 14.04 / 14.10 / 16.04)

Jupyter Notebook là công cụ khá mạnh của lập trình viên Python và Data Science. Nếu dùng R, Jupyter cũng cho phép ta tích hợp R kernel vào Notebook một cách dễ dàng.

Sat Oct 29 2016 00:00:00 GMT+0000 (Coordinated Universal Time)News

Openstack - App Catalog và Docker trên Devstack

DevStack là giúp triển khai mô hình Openstack cho Developers, có thể chạy trên Single-Machine

Wed Sep 21 2016 00:00:00 GMT+0000 (Coordinated Universal Time)Data Engineer

Spark: Convert Text (CSV) to Parquet để tối ưu hóa Spark SQL và HDFS

Lưu trữ dữ liệu dưới dạng Columnar như Apache Parquet góp phần tăng hiệu năng truy xuất trên Spark lên rất nhiều lần. Bởi vì nó có thể tính toán và chỉ lấy ra 1 phần dữ liệu cần thiết (như 1 vài cột trên CSV), mà không cần phải đụng tới các phần khác của data row. Ngoài ra Parquet còn hỗ trợ flexible compression do đó tiết kiệm được rất nhiều không gian HDFS.

Tue Sep 20 2016 00:00:00 GMT+0000 (Coordinated Universal Time)Data

Chạy Apache Spark với Jupyter Notebook

IPython Notebook là một công cụ tiện lợi cho Python. Ta có thể Debug chương trình PySpark Line-by-line trên IPython Notebook một cách dễ dàng, tiết kiệm được nhiều thời gian.

Thu Sep 08 2016 00:00:00 GMT+0000 (Coordinated Universal Time)Data

PySpark - Thiếu thư viện Python trên Worker

Apache Spark chạy trên Cluster, với Java thì đơn giản. Với Python thì package python phải được cài trên từng Node của Worker. Nếu không bạn sẽ gặp phải lỗi thiếu thư viện.

Fri Feb 05 2016 00:00:00 GMT+0000 (Coordinated Universal Time)Machine Learning

Tensorflow - hướng dẫn cài đặt

Cài đặt Tensorflow

Tue Sep 22 2015 00:00:00 GMT+0000 (Coordinated Universal Time)Linux

Install Odoo 8 in Ubuntu 14.04/15.04

Cài đặt Odoo trên Ubuntu 14.04/15.04

Sat Apr 18 2015 00:00:00 GMT+0000 (Coordinated Universal Time)Data

PySpark Getting Started

Hadoop is the standard tool for distributed computing across really large data sets and is the reason why you see "Big Data" on advertisements as you walk through the airport. It has become an operating system for Big Data, providing a rich ecosystem of tools and techniques that allow you to use a large cluster of relatively cheap commodity hardware to do computing at supercomputer scale. Two ideas from Google in 2003 and 2004 made Hadoop possible: a framework for distributed storage (The Google File System), which is implemented as HDFS in Hadoop, and a framework for distributed computing (MapReduce).

Fri Mar 27 2015 00:00:00 GMT+0000 (Coordinated Universal Time)BigData

Cài đặt Apache Spark trên Ubuntu 14.04

Trong lúc tìm hiểu vài thứ về BigData cho một số dự án, mình quyết định chọn Apache Spark thay cho Hadoop. Theo như giới thiệu từ trang chủ của Apache Spark, thì tốc độ của nó cao hơn 100x so với Hadoop MapReduce khi chạy trên bộ nhớ, và nhanh hơn 10x lần khi chạy trên đĩa, tương thích hầu hết các CSDL phân tán (HDFS, HBase, Cassandra, ...). Ta có thể sử dụng Java, Scala hoặc Python để triển khai các thuật toán trên Spark.