Bỏ qua

Người làm dữ liệu đối diện với sự thiếu sót của dữ liệu thế nào?

Ngành khoa học dữ liệu còn nhiều thuật ngữ không có sự ổn định về nghĩa. Thậm chí có người còn cho rằng cái gọi là khoa học dữ liệu đúng ra chỉ là kỹ thuật dữ liệu. (Giống như không có khoa học phần mềm mà chỉ có kỹ thuật phần mềm.) Cho nên không có một loại người làm dữ liệu duy nhất để bàn về quan điểm của họ, mà phải biết là mình đang nói về loại người làm dữ liệu nào. Và loại người làm dữ liệu nào phụ thuộc vào bài toán dữ liệu nào họ thường giải quyết. Mỗi loại bài toán sẽ có nguồn gốc dữ liệu và cách sử dụng chúng khác nhau, dẫn đến cách tư duy khi giải quyết chúng cũng khác nhau.

Dữ liệu có nguồn gốc từ đâu?

Tôi cho rằng dữ liệu có hai loại nguồn gốc. Loại dữ liệu thứ nhất đến từ sự định lượng của con người về một khái niệm. VD: bao nhiêu người là nam, bao nhiêu vị thần linh, bao nhiêu lượt truy cập web, v.v. Những khái niệm này vốn đã mang tính phân loại, và có nhiều cách để định nghĩa. Các định nghĩa này dù na ná nhau nhưng độc lập với nhau, không thể quy đổi được. Giả sử bạn đã thống kê được bao nhiêu người là nam theo định nghĩa 1, nhưng sau đó muốn biết bao nhiêu người là nam theo định nghĩa 2, thì bạn phải thống kê lại từ đầu chứ không chuyển đổi đơn vị được. Không có chuyện quy đổi 1 nam theo định nghĩa 1 bằng bao nhiêu nam theo định nghĩa 2.

Loại dữ liệu thứ hai đến từ sự đo lường các đại lượng vật lý. VD: dài bao nhiêu mét, nặng bao nhiêu ký, v.v. Sự đo lường này đến từ các cảm biến, vốn hoạt động bằng việc đo một tần số năng lượng nào đó. Chúng giống như các radio mini, nếu dò trúng đài (gặp đúng tần số) thì báo tín hiệu. Các thí nghiệm (nhất là với các thí nghiệm lớn) giống như việc dò vài triệu cái đài cùng lúc. Dữ liệu chúng tạo ra sẽ luôn có đơn vị là tổ hợp của 7 đơn vị cơ bản sau:

Các đơn vị này được định nghĩa thông qua các hằng số vũ trụ. Ví dụ, 1 mét được định nghĩa là độ dài tương đương 1/299792458 quãng đường ánh sáng đi được trong 1 giây, còn 1 giây được định nghĩa là 9192631770 lần khoảng thời gian nguyên tử cesium-133 dao động giữa hai mức năng lượng. Vì các hằng số vũ trụ là giống nhau ở bất kỳ nơi nào trên vũ trụ, nên ta luôn có thể đảm bảo là bất kỳ nền văn hóa nào cũng sẽ đưa ra được định nghĩa như thế. Kể cả văn hóa của người ngoài hành tinh.

Văn hóa loài người có đưa ra nhiều định nghĩa khác nhau về các đại lượng, ví dụ như ở độ dài thì có mét, gang chân (foot), hải lý, v.v. Nhưng chúng có thể quy đổi được cho nhau. Ví dụ như 1 gang chân = 0.3048 m. Ta không cần phải đo lại từ đầu nếu muốn dùng định nghĩa độ dài này trong khi dữ liệu dùng định nghĩa độ dài kia. Còn nếu sử dụng một đơn vị đo chưa được quy chuẩn (VD: gang tay), thì đây là loại dữ liệu thứ nhất.

Dữ liệu được xử lý thế nào?

Dù là loại dữ liệu nào thì cũng được dùng để lập hoặc kiểm tra giả thuyết. Nhưng với dữ liệu loại 1, mối quan hệ giữa các đại lượng chưa thể biểu diễn bằng biểu thức toán học được. Giả sử ta đã có một định nghĩa vô cùng chính xác về khái niệm “nam” và “thần linh” (các khái niệm này được định nghĩa qua các hằng số vũ trụ :-?), thì làm sao để biết được mối quan hệ giữa số nam và số thần linh? Làm sao để viết được biểu thức $nam=f(thần linh)$ một cách tường minh? Cho nên, khi xử lý dữ liệu loại 1, người ta chỉ sử dụng toán thống kê, vì mối quan hệ giữa các đại lượng trong thống kê không mang tính nhân quả. (Thống kê được xem là một mảng hơi cô độc trong toán, vì nó ít kết nối với các mảng khác.)

Còn với dữ liệu loại 2, ta có thể xây dựng biểu thức toán học giữa các đại lượng một cách tường minh. Ví dụ như $lực = khối lượng\times gia tốc$. Các biểu thức này giúp giải thích được tại sao cảm biến ở vị trí này lại cho ra con số này vào thời điểm này, và tiên đoán được các con số đó sẽ thay đổi ra sao nếu sắp xếp vị trí các cảm biến khác đi. Cho nên, khi xử lý dữ liệu loại 2, người ta không chỉ sử dụng thống kê mà còn sử dụng đủ loại toán cao cấp. Ví dụ như phương trình Schrödinger dùng số phức và vi phân, phương trình Einstein dùng tensor. Phát biểu Vũ trụ của chúng ta là một vũ trụ có nhóm đối xứng SU(3)×SU(2)×U(1) là một phát biểu sử dụng một khái niệm trong đại số trừu tượng là nhóm đối xứng, và nó phù hợp với dữ liệu hiện giờ. Và thực tế là các lý thuyết này có năng lực tiên đoán cao, làm tăng thêm niềm tin rằng toán học là ngôn ngữ của tự nhiên.

Sự khác biệt về cách xử lý giữa dữ liệu loại 1 và loại 2 là sự khác biệt giữa khoa học dữ liệu và khoa học tính toán: Khoa học dữ liệu tập trung vào mẫu hình, khoa học tính toán tập trung vào các mối quan hệ nhân quả. Làm việc với mẫu hình thì chỉ làm việc được những thứ mà ta có dữ liệu, những chỗ không có dữ liệu thì chịu chết. Còn làm việc với các mối quan hệ nhân quả thì ta mới phân tích được toàn bộ các hành vi của hệ, dù ta có ta dữ liệu về các hành vi đó hay không. Ví dụ, trong một hệ gồm những người mua và người bán, thì thường ta chỉ thu thập dữ liệu cho các giao dịch thành công, bởi vì nó dễ thấy nhất. Nhưng bộ dữ liệu như vậy không cho ta biết khi nào thì giao dịch thất bại, huống chi là lý do vì sao nó thất bại. Một giao dịch thất bại có thể là vì người mua không đủ tiền, cửa hàng không có món họ cần, cửa hàng ở quá xa, cửa hàng chỉ nhận tiền mặt mà người mua thì chỉ có tiền tài khoản, v.v. Nếu xây dựng được mô phỏng thì ta có thể phân tích được các tình huống giao dịch thất bại. Tất nhiên, để xây dựng mô phỏng người ta phải sử dụng rất nhiều giả thiết. Nhưng đây chính là lúc bộ dữ liệu phát huy tác dụng: loại trừ các mô phỏng cho ra kết quả giao dịch thành công không đúng với dữ liệu. Giả sử như ta không đi thu thập dữ liệu lại lần nữa, thì bộ dữ liệu về những giao dịch thành công vẫn giúp ta dự đoán được những lúc chúng thất bại. Đây là điều mà việc phân tích mẫu hình không làm được.

Cách tư duy của người làm dữ liệu khi nhìn vào thiếu sót của dữ liệu

Tóm lại, các ngành khác nhau sẽ có các tư duy về dữ liệu khác nhau. Các ngành khoa học xã hội thì có lẽ chỉ có dữ liệu loại 1. Các ngành khoa học tự nhiên thì tuyệt đại đa số là dữ liệu loại 2; loại 1 vẫn có nhưng không đáng kể.

Cách nhìn của người làm các ngành khoa học xã hội về dữ liệu

Do cuộc đời của họ gắn chặt với dữ liệu loại 1 nên góc nhìn của họ về dữ liệu chỉ gồm những vấn đề của dữ liệu loại 1. Bài viết The Limits of Data chắc là tổng kết khá đầy đủ:

  • Không nắm bắt được những thứ khó đo lường
  • Dữ liệu định tính sẽ bị loại bỏ khi tổng hợp
  • Hệ thống phân loại cứng nhắc, kém bao hàm
  • Thiên kiến hệ thống ảnh hưởng đến cách chọn mẫu
  • Quá tập trung vào một chỉ số

Có những cách để hạn chế những vấn đề này, nhưng có lẽ nếu họ làm được thì đã làm luôn rồi. Nhớ rằng, vì các khái niệm có nhiều cách để định nghĩa và không có cách nào để quy đổi dữ liệu dùng cho định nghĩa này sang định nghĩa kia, nên có lẽ sẽ vĩnh viễn không thể loại trừ được những vấn đề này, dù có ý thức đến mức độ nào đi chăng nữa. (Có lẽ trừ vấn đề cuối, do nó thiên về việc xây dựng chính sách, ra quyết định hơn.)

Một số ý hay khác trong bài:

Cách nhìn của người làm các ngành khoa học tự nhiên về dữ liệu

Do cuộc đời của họ gắn chặt với dữ liệu loại 2 nên góc nhìn của họ về dữ liệu chỉ gồm những vấn đề của dữ liệu loại 2. Tức chỉ là phương pháp lấy dữ liệu. Nếu đúng phương pháp thì là dữ liệu tốt. Những vấn đề của dữ liệu loại 1 nếu có ở dữ liệu loại 2 thì cũng không quá nhiều, nên họ không thấy quan niệm Tự bản thân việc lấy dữ liệu đã là có vấn đề là cần thiết. Ngay cả khi họ làm việc trên dữ liệu loại 1 thì vẫn thấy rằng quan niệm Mọi mô hình đều sai là đã đủ rồi.

Trích Max Planck:

Mỗi thí nghiệm là một câu hỏi mà khoa học đặt ra cho tự nhiên, và mỗi phép đo là sự ghi lại câu trả lời của tự nhiên

Nếu xem con số là câu trả lời của tự nhiên, và nếu xem tự nhiên thì không nói dối, thì đúng là Các con số không biết nói dối thật. Tất nhiên, họ cũng biết rằng một nửa sự thật thì không phải là sự thật, và rằng có thể có những điều mà không những các cảm biến không đo được, mà cả các mô hình tính toán cũng không chỉ ra được luôn. Giống như những hạt neutrino bay qua không để lại tương tác gì cả. Nhưng việc có những thứ không đo đạc được đó không làm họ đau khổ như những đồng nghiệp bên khoa học xã hội. Nó đúng là kiểu “out of sight, out of mind” mà những người kia sợ hãi. Nếu bằng lập luận họ chỉ ra được còn những thứ mà lần lấy dữ liệu lần trước còn thiếu sót thì họ đi đo lại thôi, không việc gì phải xoắn. Nếu bây giờ chưa đo được thì tương lai con cháu sau này sẽ đo được. Còn nếu nó mãi mãi không đo được thì chắc được gọi là triết học, tâm linh, hoặc lý thuyết dây.

Ảnh hưởng của ngành vật lý lên ngành dữ liệu

Có lẽ có thể nói là nhu cầu xây dựng lý thuyết mới về tính toán và thống kê gắn chặt với nhu cầu giải quyết bài toán của các ngành khoa học tự nhiên, đặc biệt là vật lý. (Vật lý tính toán là ứng dụng đầu tiên của máy tính vào khoa học. Những chiếc máy tính đầu tiên được phát triển những năm thế chiến 2, lúc nhu cầu tính toán đường đạn và phản ứng hạt nhân tăng cao.) Cộng với việc khoa học tính toán ra đời sớm hơn và đòi hỏi những xử lý phức tạp hơn khoa học dữ liệu, nên có lẽ những người làm khoa học tự nhiên sẽ có lợi thế khi chuyển sang ngành dữ liệu.

Trong khi đó, ngành này thì lại chỉ xử lý dữ liệu loại 1 (vì dữ liệu loại 2 là ở ngành khoa học tính toán). Và vì cả hai loại dữ liệu đều được gọi chung là dữ liệu, nên những người làm khoa học tự nhiên sẽ không để ý thấy mình đang dùng tư duy sai lên bộ dữ liệu của mình, trừ phi làm trong ngành thật lâu. Nên có lẽ một phần việc người sử dụng dữ liệu không để ý đến vấn đề của dữ liệu là từ chuyện này. Có thể xem đây là một dạng lấy vật lý làm trung tâm. (Nó khác vật lý luận ở chỗ nó chỉ dùng tư duy vật lý trong việc xử lý dữ liệu, không phải là quan niệm xem mọi thứ đều giải thích được bằng vật lý).

Xem thêm

Khái niệm:: Dữ liệu, Mô hình, Phân loại