Phân cụm thô của dữ liệu tuần tự

Authors: Vi, Văn Sơn

Phân cụm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức, nó được ứng dụng rộng rãi và đa dạng trong các ngành khoa học như sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, và điều kiển học v.v. Phân cụm dữ liệu tổ chức dữ liệu bằng cách nhóm các đối tượng có độ tương đồng cao vào một cụm, các đối tượng thuộc các cụm khác nhau có độ tương đồng thấp hơn so với các đối tượng trong cùng một cụm. Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phương pháp giải quyết khác nhau như: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lưới. Thông thường, thông tin về thế giới xung quanh là không chính xác, không đầy đủ, không chắc chắn hoặc chồng chéo. Đó cũng là vấn đề gặp phải khi phân cụm dữ liệu. Phân cụm được chia làm hai loại phân cụm là phân cụm cứng và phân cụm mềm. Trong phân cụm cứng đối tượng được phân thành các cụm khác nhau, mỗi đối tượng thuộc về chính xác một cụm, ngược lại ở phân cụm mềm các đối tượng có thể thuộc về nhiều hơn một cụm và mỗi đối tượng có độ thuộc với cụm. Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính. Lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… Đặc biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn. Mục đích chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằm đưa ra các xấp xỉ để biểu diễn các đối tượng không thể được phân lớp một cách chắc chắn bằng tri thức có sẵn. Theo quan điểm của lý thuyết tập thô, mọi tập thô đều liên kết với 2 tập “rõ” là xấp xỉ dưới và xấp xỉ trên của nó. Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc, còn xấp xỉ trên chứa tất cả các đối tượng có khả năng thuộc về tập đó. Các tập xấp xỉ là cơ sở để rút ra các kết luận(tri thức) từ cơ sở dữ liệu. Do đó trong luận văn này dựa trên lý thuyết tập thô cụ thể là xấp xỉ trên của tập thô và thuật toán phân cụm thô được đề xuất áp dụng phân cụm trên dữ liệu tuần tự….

Title: Phân cụm thô của dữ liệu tuần tự
Authors: Vi, Văn Sơn
Keywords: Khai thác dữ liệu;Hệ thống thông tin;2 BTĐCĐ
Issue Date: 2016
Publisher: Đại học Quốc gia Hà Nội
Citation: 46 tr.
URI: http://repository.vnu.edu.vn/handle/VNU_123/16972
Appears in Collections: Luận văn – Luận án (LIC)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s