người trong ngành khoa học dữ liệu đối diện với sự thiếu sót của dữ liệu thế nào?
Lưu ý
Đây chỉ là quan sát dựa trên giới hạn kiến thức và giả định cá nhân; tác giả chưa tìm trích dẫn nào.
Đầu tiên phải để ý rằng khoa học dữ liệu là một ngành trong khoa học hình thức, tương tự khoa học máy tính. Cả hai đều là con của toán học. Chúng không có mục đích tự thân, mà là để hỗ trợ các ngành khoa học khác đạt được mục tiêu của mình.
Ở các ngành khoa học xã hội, dữ liệu đến từ sự đo đếm của con người về chính mình, vốn đã mang tính phân loại rồi. VD: bao nhiêu người là nam, bao nhiêu người tin là có thần linh, bao nhiêu người truy cập web, v.v. Và những sự phân loại này đã mang tính thiên kiến ngay từ đầu rồi. Dù ta có thể tìm cách để đồng ý với nhau là số người truy cập web là một con số khách quan, thì vẫn còn rất nhiều loại dữ liệu khác ta sẽ nói là chủ quan. Tức là kiểu dữ liệu là không đồng nhất. Và cũng vì dữ liệu chỉ là từ sự phân loại, nên có lẽ việc xử lý cũng chỉ tập trung vào việc chọn mô hình thống kê phù hợp là đủ. (Xác suất thống kê được xem là một lĩnh vực hơi cô độc trong toán, vì nó ít kết nối với các lĩnh vực khác.)
Trong khi đó, ở các ngành khoa học tự nhiên, đặc biệt là ở vật lý, các thí nghiệm đã vượt qua khả năng nắm bắt của giác quan rồi. Ở các ngành này, dữ liệu được tạo ra từ cảm biến. Tất cả cảm biến đều hoạt động bằng việc cộng hưởng với một tần số năng lượng nào đó. Cơ bản chúng là những cái radio mini, nếu gặp trúng tần số thì nó báo tín hiệu. Việc thí nghiệm giống như việc dò vài triệu cái đài cùng lúc. Dù ta xếp loại dữ liệu do chúng tạo ra là chủ quan hay khách quan, thì chúng cũng đều đồng nhất. Tức là có tính phân loại thấp.
Chưa kể, mô hình xử lý dữ liệu trong vật lý cũng không dừng ở việc chạy các phép thống kê, mà còn phải giúp xây dựng lý thuyết vật lý. Các lý thuyết phải giải thích được tại sao cảm biến ở vị trí này lại cho ra con số này vào thời điểm này, và tiên đoán được các con số đó sẽ ra sao nếu sắp xếp chúng theo kiểu khác. Để xây dựng các lý thuyết này phải đụng đến đủ loại toán cao cấp. Ví dụ như phương trình Schrödinger dùng số ảo và vi phân, phương trình Einstein dùng tensor. Mệnh đề “vũ trụ của chúng ta là một vũ trụ có nhóm đối xứng SU(3)×SU(2)×U(1)” là một mệnh đề chứa một khái niệm trong đại số trừu tượng là nhóm đối xứng, và nó phù hợp với dữ liệu hiện giờ. Và thực tế là các lý thuyết này có độ thành công cao, làm tăng thêm niềm tin rằng toán học là ngôn ngữ của tự nhiên.
Tóm lại, các ngành khác nhau sẽ có các tư duy về dữ liệu khác nhau. Nên khi đặt vấn đề rằng những người trong ngành khoa học dữ liệu đối diện với sự thiếu sót của dữ liệu thế nào, thì phải xem họ xuất thân từ đâu. Nếu họ từ các ngành xã hội thì họ sẽ luôn để ý tới việc dữ liệu luôn chứa thiên kiến của con người ở mọi bước lập luận. Còn nếu từ các ngành tự nhiên thì họ sẽ thấy đó là do mình chưa đủ dữ liệu, hoặc do giới hạn của công nghệ để có loại dữ liệu mình cần, hoặc do sai sót trong việc chọn mô hình xử lý, chứ không xem bản thân dữ liệu từ đầu đã là có vấn đề.
Do nhu cầu xử lý dữ liệu ở vật lý phức tạp hơn ở các ngành khoa học xã hội nhiều, nên có lẽ ở các thảo luận về những lý thuyết khoa học dữ liệu mới, các nhà nghiên cứu có xu hướng không đặt vấn đề về sự thiên kiến của dữ liệu, dù về lý thuyết họ nên làm điều đó, do lý thuyết họ đưa ra cũng được dùng để áp dụng cho các ngành xã hội.
Việc tối đa hóa lợi nhuận gắn liền với việc tối đa hóa hành vi trả tiền. Có lẽ tư bản đã chăm sóc ngành khoa học dữ liệu đến mức tài liệu trong ngành này gần như không bàn gì khác ngoài phục vụ cho nhu cầu xử lý dữ liệu có tính phân loại cao. Tiền thì chắc là khách quan, nên với những người không trực tiếp làm việc với dữ liệu như những người ở cấp lãnh đạo, nếu có đặt câu hỏi về độ đáng tin của dữ liệu, sẽ thường thấy thiếu sót đến từ giới hạn của việc thu thập dữ liệu. Nhưng vì lý do cho việc trả tiền thì chắc là chủ quan, nên có lẽ những người thực sự làm công việc xử lý dữ liệu sẽ để ý hơn về thiên kiến của dữ liệu.
Khái niệm:: Dữ liệu