LogoDuyệtSr. Data Engineer
HomeAboutPhotosInsightsCV

Footer

Logo

Resources

  • Rust Tiếng Việt
  • /archives
  • /series
  • /tags
  • Status

me@duyet.net

  • About
  • LinkedIn
  • Resume
  • Projects

© 2026 duyet.net | Sr. Data Engineer | 2026-02-27

13.5TB - Yahoo ra mắt bộ Dataset cực lớn cho lĩnh vực máy học

Note: This post is over 11 years old. The information may be outdated.

Yahoo Labs đã tung ra nhiều loại bộ dữ liệu khác nhau cho những ai nghiên cứu trong lĩnh vực máy học (Machine Learning). Các bộ dữ liệu này chủ yếu được thu thập từ các dịch vụ của Yahoo, như thông tin hoạt động người dùng, dữ liệu đồ thị, ảnh đã gán nhãn, ngôn ngữ tự nhiên, tin nhắn, tương tác mạng xã hội, tương tác tin tức ... từ Yahoo News, Yahoo Sports, Yahoo Finance, Yahoo Movies, ...

Lưu ý: Bài viết từ năm 2016. Yahoo Webscope có thể đã ngừng hoạt động hoặc thay đổi. Vui lòng kiểm tra tính khả dụng hiện tại của dịch vụ.

Các bộ dữ liệu dùng làm tập train này thuộc nhiều lĩnh vực, bao gồm:

  • Advertising and Market Data
  • Competition Data
  • Computing Systems Data
  • Graph and Social Data
  • Image Data
  • Language Data
  • Ratings and Classification Data

Một số bộ dữ liệu như:

  • L27 - Yahoo Answers Factoids Queries, version 1.0 (3.5MB)
  • R10 - Yahoo News Feed dataset, version 1.0 (1.5TB)
  • L26 - Yahoo! Answers consisting of questions asked in French, version 1.0 (3.8Gb)
  • I4 - Title-based Video Summarization dataset, version 1.0(644M)
  • S5 - A Labeled Anomaly Detection Dataset, version 1.0(16M)
  • ...

Nổi bật nhất là bộ dataset với dung lượng cực khủng là 13.5TB (chưa nén), ghi nhận hoạt động khoảng 110 tỉ tương tác của 20 triệu người dùng Yahoo từ tháng 2/2015 đến tháng 5/2015

Các bộ Dataset được cung cấp miễn phí cho các nhà nghiên cứu, sinh viên, .... phục vụ cho mục đích nghiên cứu và phi thương mại.

Để tải về các Dataset này, truy cập vào trang chủ của Yahoo Webscope tại đây: http://webscope.sandbox.yahoo.com/

Đăng ký với tài khoản mail edu, chọn bộ dữ liệu thích hợp, nêu mục đích nghiên cứu, sử dụng. Yahoo sẽ xét duyệt trong khoảng 1 ngày đến dưới 1 tuần.

Ở đây cũng cung cấp nhiều bài báo khoa học cũng như các kết quả nghiên cứu của Yahoo Labs.

Tham khảo

Yahoo Releases the Largest-ever Machine Learning Dataset for Researchers

Feb 9, 2016·10 years ago
|News|
Big DataMachine LearningNlp
|Edit|

Related Posts

Google Big Data Meetup in Saigon

Felipe Hoffa is a US-based Big Data Developer Advocate of Google.

Nov 13, 2015·10 years ago
Read more

Big Data - Monitoring Spark with Graphite and Grafana

Guide to monitoring Apache Spark applications using GraphiteSink and Grafana dashboards for real-time metrics visualization and performance diagnostics.

Jul 14, 2015·11 years ago
Read more

[Slide] Sentiment Analysis

Mình vừa có bài nói về Sentiment Analysis trong NLP bao quát, xin phép chia sẻ lại slide tại đây.

Jun 30, 2018·8 years ago
Read more

Phân lớp SVM với Word2vec

Trong chuỗi bài viết này mình sử sử dụng thuật toán SVM để phân lớp sentiment (cảm xúc) cho văn bản, kết hợp với ứng dụng Word2vec để biểu diễn các text dưới dạng vector.

Feb 25, 2018·8 years ago
Read more