Dữ liệu
-
💎 Giới thiệu về Obsidian:
-
Công nghệ thông tin:
- 4 cấp độ phân tích dữ liệu – mô tả hiện tượng, lý giải nguyên nhân, dự đoán kết quả, đề xuất hành động
- Dữ liệu của ta không chỉ là từ những thứ ta tạo ra, mà còn là sự liên kết với những dữ liệu người khác tạo ra
- Dữ liệu, AI
- Khoa học dữ liệu tập trung vào mẫu hình, khoa học tính toán tập trung vào các mối quan hệ nhân quả
- Rất nhiều thuật toán được sinh ra vì dữ liệu có nhiều chiều. Nếu chỉ có vài chiều thì dùng mắt tốt hơn
- Cái gọi là khoa học dữ liệu đúng ra chỉ là kỹ thuật dữ liệu
- Ngành khoa học dữ liệu còn nhiều thuật ngữ không có sự ổn định về nghĩa
- 70% thời gian chỉ là để làm sạch dữ liệu
- Feature Extraction, Text Representation, Text Extraction, Text Vectorization là những cái tên khác nhau cho cùng một thứ
- Ngoài việc sử dụng mô hình chủ đề và tạo cơ sở dữ liệu, các dự án nhân văn số dường như không sử dụng các lĩnh vực khác của công nghệ thông tin
- Tiên đoán từ dữ liệu chỉ đúng khi tương lai giống như quá khứ
- Dữ liệu có thể là ngôn ngữ mà tất cả mọi người đều hiểu
- Cứt bò cứt ngựa trong thời đại dữ liệu
- Có sự đánh đổi giữa sự tự do sử dụng dữ liệu và sự tiện lợi trong việc hợp tác
- Dữ liệu là danh từ, giao diện là động từ
- Bạn có quyền chỉnh sửa dữ liệu của mình dưới bất kỳ hình thức nào
- Việc trung tâm hóa việc lưu trữ dữ liệu trên máy chủ sẽ lấy đi autonomy và agency của người dùng cuối
- Việc lưu trữ dữ liệu tại máy cá nhân và ở định dạng đơn giản sẽ giúp người dùng quen thuộc hơn với việc lập trình
-
Giải pháp kỹ thuật:
-
Hệ hình nghiên cứu:
- Dữ liệu nhỏ cũng có tính dự báo xu hướng giống như dữ liệu lớn
- Topic modelling trong NLP dùng cho máy và cần tập dữ liệu lớn. Còn thematic analysis trong nhân học thì dành cho người, nhấn mạnh vào yếu tố thị giác
- Dữ liệu đến từ sự định lượng của con người chỉ sử dụng thống kê. Dữ liệu từ sự đo lường các đại lượng vật lý dùng cả các loại toán khác
-
Lĩnh vực:
-
Nghĩ về việc nghĩ:
- Dữ liệu không phải thông tin, thông tin không phải kiến thức, kiến thức không phải hiểu biết, hiểu biết không phải thông thái
- All classification systems are the result of political and social processes, which involve decisions about what’s worth remembering and what we can afford to forget
- Mặc dù yếu tố con người luôn ảnh hưởng đến quá trình thu thập dữ liệu, nhưng mong muốn loại bỏ nó ra khỏi dữ liệu để tăng cường tính khách quan vẫn rất mạnh mẽ
- Sự định lượng là cách để ra quyết định mà trông không giống như quyết định
- The wider the user base for the data, the more decontextualized the data needs to be
- Institutional quantification is designed to support procedures that can be executed by fungible employees
-
Nhu cầu công nghệ:
-
Nhu cầu công việc:
-
Quản lý dự án, phát triển sản phẩm, xây dựng tổ chức:
- Dữ liệu chính là lập trình
- Dữ liệu dưới dạng văn bản phù hợp cho việc quản lý kiến thức
- ❓Tại sao không cho người chưa biết gì về CNTT học về cơ sở dữ liệu trước thay vì học lập trình trước?
- Việc lưu dữ liệu ở các công cụ khác nhau tạo thành các silo thông tin
- Excel không phù hợp cho việc lập cơ sở dữ liệu
- ❓Thu thập dữ liệu đến đâu là đủ
- Làm sản phẩm thiên về cảm giác, làm tăng trưởng thiên về dữ liệu
- Dữ liệu cho dự đoán tin cậy về hành vi người dùng
- Dữ liệu cho ta biết hành vi của một người, nhưng không nói lý do họ làm điều đó
- Bội thực chat nhóm gây phân tán nguồn lực, mất tập trung, tăng rủi ro lộ dữ liệu