Bỏ qua

Người làm dữ liệu đối diện với sự thiếu sót của dữ liệu thế nào?

Lưu ý

Đây chỉ là quan sát dựa trên giới hạn kiến thức và giả định cá nhân; tác giả chưa tìm trích dẫn nào.

Khi bàn về sự thiết sót của dữ liệu phải bàn về việc dữ liệu đến từ đâu trước.

Dữ liệu đến từ đâu?

Ở các ngành khoa học xã hội, dữ liệu đến từ sự đo đếm của con người về chính mình. VD: bao nhiêu người là nam, bao nhiêu người tin là có thần linh, bao nhiêu người truy cập web, v.v. Những kiểu dữ liệu này vốn đã mang tính phân loại rồi. Và những sự phân loại này đã mang tính thiên kiến ngay từ đầu rồi. Dù ta có thể tìm cách để đồng ý với nhau là số người truy cập web là một con số khách quan, thì vẫn còn rất nhiều loại dữ liệu khác ta sẽ nói là chủ quan. Tức là kiểu dữ liệu là không đồng nhất. Và cũng vì dữ liệu chỉ là từ sự phân loại, nên có lẽ việc xử lý cũng chỉ tập trung vào việc chọn mô hình thống kê phù hợp là đủ. (Xác suất thống kê được xem là một lĩnh vực hơi cô độc trong toán, vì nó ít kết nối với các lĩnh vực khác.)

Trong khi đó, ở các ngành khoa học tự nhiên, đặc biệt là ở vật lý, các thí nghiệm đã vượt qua khả năng nắm bắt của giác quan rồi. Ở các ngành này, dữ liệu có từ cảm biến. Tất cả cảm biến đều hoạt động bằng việc cộng hưởng với một tần số năng lượng nào đó. Cơ bản chúng là những cái radio mini, nếu gặp trúng tần số thì nó báo tín hiệu. Việc thí nghiệm giống như việc dò vài triệu cái đài cùng lúc. Dù ta xếp loại dữ liệu do chúng tạo ra là chủ quan hay khách quan, thì chúng cũng đều đồng nhất. Tức là có tính phân loại thấp.

Chưa kể, mô hình xử lý dữ liệu trong vật lý cũng không dừng ở việc chạy các phép thống kê, mà còn phải giúp xây dựng lý thuyết vật lý. Các lý thuyết phải giải thích được tại sao cảm biến ở vị trí này lại cho ra con số này vào thời điểm này, và tiên đoán được các con số đó sẽ ra sao nếu sắp xếp chúng theo kiểu khác. Để xây dựng các lý thuyết này phải đụng đến đủ loại toán cao cấp. Ví dụ như phương trình Schrödinger dùng số ảo và vi phân, phương trình Einstein dùng tensor. Mệnh đề Vũ trụ của chúng ta là một vũ trụ có nhóm đối xứng SU(3)×SU(2)×U(1) là một mệnh đề chứa một khái niệm trong đại số trừu tượng là nhóm đối xứng, và nó phù hợp với dữ liệu hiện giờ. Và thực tế là các lý thuyết này có độ thành công cao, làm tăng thêm niềm tin rằng toán học là ngôn ngữ của tự nhiên.

Cách tư duy khi nhìn vào thiếu sót của dữ liệu

Tóm lại, các ngành khác nhau sẽ có các tư duy về dữ liệu khác nhau. Nên khi đặt vấn đề rằng những người trong ngành khoa học dữ liệu đối diện với sự thiếu sót của dữ liệu thế nào, thì phải xem xuất phát điểm của họ từ đâu. Nếu từ góc nhìn của các ngành xã hội thì họ thấy mọi thứ đều là sự kiến tạo, rằng dữ liệu luôn chứa thiên kiến của người thu thập nó. Họ sẽ xem bản thân việc lấy dữ liệu đã là có luôn có vấn đề. Còn nếu từ góc nhìn của các ngành tự nhiên, thì tuy là họ cũng thấy việc làm việc với dữ liệu có rất nhiều sai sót dễ mắc phải, thì họ cũng không nặng nề chuyện người thu thập dữ liệu có thiên kiến. Với họ, đó chỉ do mô hình hiện tại chưa đủ mạnh để giải thích được hết các quan sát. Và đó là chuyện hiển nhiên, không có gì phải xấu hổ. Họ không thấy quan niệm Tự bản thân việc lấy dữ liệu đã là có vấn đề là cần thiết; [[Mọi mô hình đều sai, nhưng một số thì hữu ích|Mọi mô hình đều sai]] là đã đủ rồi.

Do nhu cầu xử lý dữ liệu ở các ngành khoa học tự nhiên phức tạp hơn ở các ngành khoa học xã hội nhiều, nên có lẽ nhu cầu xây dựng lý thuyết mới về dữ liệu cũng chủ yếu đến từ các ngành khoa học tự nhiên. Nghĩa là, ở cấp độ học thuật vấn đề thiên kiến của dữ liệu có lẽ ít khi được đặt ra, vì nó cũng không hữu ích lắm và cũng có gì mới. Nhưng điều đó sẽ ảnh hưởng tới việc giảng dạy cho sinh viên.

Với những người làm kinh doanh, việc tối đa hóa lợi nhuận gắn liền với việc tối đa hóa hành vi trả tiền. Có lẽ tư bản đã chăm sóc ngành khoa học dữ liệu đến mức tài liệu trong ngành này gần như không bàn gì khác ngoài phục vụ cho nhu cầu xử lý dữ liệu có tính phân loại cao. Tiền thì chắc là khách quan, nên với những người không trực tiếp làm việc với dữ liệu như những người ở cấp lãnh đạo, nếu có đặt câu hỏi về độ đáng tin của dữ liệu, sẽ thường thấy thiếu sót đến từ giới hạn của việc thu thập dữ liệu. Nhưng vì lý do cho việc trả tiền thì chắc là chủ quan, nên có lẽ những người thực sự làm công việc xử lý dữ liệu sẽ để ý hơn về thiên kiến của dữ liệu.

Khái niệm:: Dữ liệu, Mô hình