Seminar khoa học “Phương pháp phân tích thành phần chính và ứng dụng”

Ngày 13/11/2023, Khoa Công nghệ thông tin đã tổ chức buổi seminar khoa học với chủ đề: “Phương pháp phân tích thành phần chính và ứng dụng” do TS. Vũ Thị Thu Giang – Bộ môn Toán trình bày.

Tham dự buổi seminar là sự có mặt của thầy cô giảng viên khoa công nghệ thông tin.

Hình 1: TS. Vũ Thị Thu Giang trình bày báo cáo

Phương pháp phân tích thành phần chính (PCA) là một phương pháp được sử dụng thường xuyên khi các nhà phân tích thống kê phải đối mặt với những bộ số liệu với số chiều lớn (big data). Mục đích của nó là rút gọn một tập gồm nhiều biến quan sát phụ thuộc lẫn nhau thành một tập biến (gọi là các thành phần chính) ít hơn để chúng có ý nghĩa hơn nhưng vẫn chứa đựng hầu hết nội dung thông tin của tập biến ban đầu. Phương pháp phân tích thành phần chính có rất nhiều ứng dụng trong các bài toán thống kê kinh tế, nông nghiệp, kỹ thuật… Vậy làm thể nào để giảm thiểu chiều dữ liệu mà vẫn không mất đi thông tin và giữ lại được những thông tin cần thiết cho việc xây dựng các mô hình? Nôi dung của bài Seminar đã đưa ra phương án để giải quyết vấn đề đó.

Cách đơn giản nhất để giảm chiều dữ liệu từ D về K<D là chỉ giữ lại K phần tử quan trọng nhất. Tuy nhiên, việc làm này chắc chắn chưa phải tốt nhất vì chúng ta chưa biết xác định thành phần nào là quan trọng hơn. Hoặc trong trường hợp xấu nhất, lượng thông tin mà mỗi thành phần mang là như nhau, bỏ đi thành phần nào cũng dẫn đến việc mất một lượng thông tin lớn.

Tuy nhiên, nếu chúng ta có thể biểu diễn các vector dữ liệu ban đầu trong một hệ cơ sở mới mà trong hệ cơ sở mới đó, tầm quan trọng giữa các thành phần là khác nhau rõ rệt, thì chúng ta có thể bỏ qua những thành phần ít quan trọng nhất.

Lấy một ví dụ về việc có hai camera đặt dùng để chụp một con người, một camera đặt phía trước người và một camera đặt trên đầu. Rõ ràng là hình ảnh thu được từ camera đặt phía trước người mang nhiều thông tin hơn so với hình ảnh nhìn từ phía trên đầu. Vì vậy, bức ảnh chụp từ phía trên đầu có thể được bỏ qua mà không có quá nhiều thông tin về hình dáng của người đó bị mất.

PCA chính là phương pháp đi tìm một hệ cơ sở mới sao cho thông tin của dữ liệu chủ yếu tập trung ở một vài toạ độ, phần còn lại chỉ mang một lượng nhỏ thông tin. Và để cho đơn giản trong tính toán, PCA sẽ tìm một hệ trực chuẩn để làm cơ sở mới.

Trong nội dung bài Seminar, TS. Vũ Thị Thu Giang đã nêu rõ các phương pháp, quy trình, kỹ thuật và các cách phân tích thành phần chính. Nội dung chi tiết bài Seminar được đăng tại: https://fita.vnua.edu.vn/wp-content/uploads/2023/12/

          Hình 2: Sơ đồ các bước phân tích và quy trình phân tích thành phần chính

Sau phần trình bày của các báo cáo viên, thành viên tham dự buổi seminar có nhiều thảo luận xoay quanh chủ đề. Nội dung của báo cáo có ý nghĩa và ứng dụng cao đối với các mô hình toán học . Buổi seminar là cơ hội trao đổi học thuật, cập nhật, cung cấp thêm nhiều kiến thức mới thuộc lĩnh vực Toán – Tin. Kết quả thảo luận của buổi seminar làm cơ sở để định hướng, xác định chiến lược khoa học công nghệ của khoa Công nghệ thông tin trong thời gian tới.

Khoa Công nghệ thông tin