“Giải pháp xếp hạng và tính toán song song trên nền tảng Apache Spark”

Authors: Nguyễn, Đông Đức

Apache Spark (gọi tắt Spark) là một trong những công nghệ hot nhất năm 2015, đến mức nhiều người cho rằng nó sẽ là sự thay thế Apache Hadoop trong tương lai. Bài viết này sẽ tập trung mô tả tổng quan về Spark, so sánh nó với Hadoop để đưa ra câu trả lời.
Trong những năm trở lại đây, khi nói về dữ liệu lớn người ta nghĩ ngay đến Apache Hadoop, công nghệ được viết bởi Doug Cutting dựa trên GFS (Google File System) và MapReduce của Google vào năm 2005. Tháng Tư năm 2008, Hadoop trở thành hệ thống nhanh nhất để sắp xếp (sort) 1 terabyte dữ liệu, khi mất 209 giây chạy trên cluster gồm 910 nodes, đánh bại kỷ lục cũ là 297 giây. Tháng 11 năm 2008, Google thông báo hệ thống MapReduce của họ chỉ cần 68 giây để sắp xếp 1 terabyte dữ liệu. Đến tháng 5 năm 2009, Yahoo sử dụng Hadoop chỉ cần 62 giây để làm việc tương tự. Từ đó đến nay, cả một hệ sinh thái đã được xây dựng lấy Hadoop làm nòng cốt để giải quyết những bài toán về dữ liệu lớn…

Title:
Giải pháp xếp hạng và tính toán song song trên nền tảng Apache Spark
Authors: Nguyễn, Đông Đức
Keywords: Apache Spark Tính toán
Hệ thống thông tin
Issue Date: 2016
Publisher: Đại học Quốc gia Hà Nội
Citation: 52 tr.
URI: http://repository.vnu.edu.vn/handle/VNU_123/17411
Appears in Collections: Luận văn – Luận án (LIC)
Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s