Dữ liệu, AI
-
-:
- 4 cấp độ phân tích dữ liệu – mô tả hiện tượng, lý giải nguyên nhân, dự đoán kết quả, đề xuất hành động
- Dữ liệu có thể là ngôn ngữ mà tất cả mọi người đều hiểu
- Khi một AI thực sự hữu ích, ta không còn gọi nó là AI
- Ngành khoa học dữ liệu còn nhiều thuật ngữ không có sự ổn định về nghĩa
- Nếu robot không cần phải giống người, thì AI không cần phải suy luận giống người
- Tiềm năng để kiếm tiền từ AI đến từ mảng học có giám sát nhiều hơn ở mảng tạo sinh
-
AI tạo sinh:
- AI tạo sinh
- Chủ thể tính
- Con người có xu hướng đánh đồng việc nói chuyện trôi chảy và việc suy nghĩ
- LLM không lao động để cải tạo thế giới
- LLM không được xem là tác giả tri thức mới, vì nó không có khả năng chịu trách nhiệm đối với các tuyên bố tri thức
- Người sử dụng LLM không thể tự nhận mình là tác giả của tác phẩm do nó tạo ra được, vì nghệ thuật đòi hỏi ta phải đưa ra rất nhiều lựa chọn
- Nếu LLM thay thế được nhân viên, thì nó cũng thay thế được quản lý
- Sự khác biệt giữa con người và mô hình ngôn ngữ lớn là con người có niềm tin và có thể kiểm chứng niềm tin từ môi trường bên ngoài
- Tranh do LLM vẽ không thể hiện được mối quan hệ giữa tác giả và thứ được vẽ
- Đằng sau vẻ ngoài tự trị của LLM là những người làm công việc dán nhãn và kiểm duyệt, vô hình và bếp bênh
- 100% các mô hình hiện tại đều chỉ có thể hoạt động được nhờ được pre train từ LAION5B
- Các lỗi cơ xương và lực này thường thấy ở các cảnh hành động xuất bởi AI
- Có bằng chứng cho thấy việc có thêm dữ liệu và phần cứng để tính toán cũng không làm tăng khả năng nhận diện
- Có những dấu hiệu phi ngôn ngữ mà LLM không thể cảm nhận hay phân tích
- LAION5B là một big data khai thác trái phép
- LLM không học. Nó chỉ được tối ưu hoá trong một tập điều kiện
- LLM không tất định mà tạo sinh kết quả mỗi lần mỗi khác dù với cùng một câu nhập
- LLM không đọc được hàm ý
- LLM là định dạng ảnh mờ của web
- Chatbot LLM nào cũng dẫn sai thông tin khoảng 60%. Riêng Grok là tới 96%
- Các LLM thương mại sẽ có chất lượng giảm dần do bị huấn luyện từ dữ liệu của LLM
- Shadow prompting means that genuine users cannot discover real biases in the model, or any constraints imposed on the model to mitigate those biases
- Với các lệnh vẽ hình, nó sẽ được điều chỉnh trước khi đi tới chương trình vẽ
- Khi nào các công ty LLM không còn tuyển lập trình viên nữa thì lúc đó nó mới đủ khả năng code
- LLM gần như không có khả năng tự sửa lỗi code
- Người mới học nên bắt đầu bằng việc hiểu code đúng hơn là sửa lỗi code sai với lời hướng dẫn chưa chắc đúng
- Trước khi LLM có thể kiểm định và sửa lỗi code, ta vẫn cần phải học lập trình để kiểm định và sửa lỗi cho nó
- Để LLM có thể tham gia vào việc lập trình được, nó cần phải làm được cả việc kiểm định và sửa lỗi code, chứ không phải chỉ mỗi sinh code
- Lợi thế của các trang tài nguyên cộng đồng là ở chỗ nó được tạo bằng con người. Vì nếu nó được tạo bằng LLM thì người ta chẳng cần vào đó
- Mô hình không tồn tại sau khi học xong. Con người đã tồn tại trước khi học
- Mô hình ngôn ngữ lớn làm việc với ngôn ngữ, không phải kiến thức
- Nếu như LLM không thể thay thế tư duy của con người, thì người không dùng LLM luôn có lợi thế về tư duy với người sử dụng
- Nếu phải điều chỉnh lại kết quả của LLM thì tự làm luôn còn nhanh hơn
- Ta chỉ cần tự động hoá những thứ ta có thể làm mà không cần nghĩ
- Bài kiểm tra Turing được thiết kế cho những thứ biết nghĩ, không phải cho thứ không biết nghĩ
- Cách để LLM không bị ảo giác là kêu nó viết truy vấn cho Wikidata
- Con người xem mệnh đề phủ định nằm ở hướng đối lập. LLM xem là kế bên
- Không có sự chính xác thì giống như lái xe trong sương mù
- Khả năng tự hoàn thiện nằm ở việc nghĩ được về việc nghĩ của mình
- LLM nhất thiết không được luôn lựa chọn từ tiếp theo có xác suất xuất hiện cao nhất, nếu không sẽ không tạo ra sự tự nhiên nữa
- Tất cả các tác phẩm viễn tưởng từ trước tới nay đều vẽ về một nhân vật AI không có ảo giác
- Việc truy xuất thông tin cần có accuracy, sourcing, consistency, and fragility. LLM không có những thứ đó
- Ảo giác là việc có niềm tin sai về thế giới do có giác quan sai. LLM không có giác quan cũng không có niềm tin, nên gọi nó là ảo giác là không đúng
- Ảo giác ở người thể hiện sự trục trặc. Ảo giác ở LLM thể hiện nó hoạt động đúng chức năng
- Ở con người, sự chính xác vẫn có thể tồn tại trong lúc sáng tạo. Ở LLM, khi đã làm nó chính xác thì nó không thể ngẫu nhiên nữa
- Ở thời điểm hiện tại không có bất cứ ai có thể đủ tiềm lực và khối lượng dữ liệu vừa có bản quyền vừa đủ khổng lồ để tự huấn luyện
- Nên dùng khái niệm LLM cho loại AI đa số người dùng biết đến
- Phép thử Turing không được sinh ra để đánh giá trực tiếp trí năng, mà chỉ đánh giá mức độ dễ lừa con người của máy
- AGI không thể được tạo bởi LLM, vì các kiến thức mới là ngôn ngữ nhỏ
- AI giống như công nghệ tua bin. Gắn nó với xe hơi thì không sử dụng được. Nhưng nếu có thể có thêm những công nghệ mới thì có thể thành máy bay
- LLM làm rất tốt việc gợi ý từ khoá
- Thế mạnh của LLM là làm những công việc cần tốc độ mà không đòi hỏi sự chính xác, chất lượng
- Nếu LLM được huấn luyện có chọn lọc, nó có thể bị bẻ theo ý của người tạo ra nó. Nếu LLM được huấn luyện không chọn lọc, nó có thể bị bẻ bởi các chiến dịch tuyên truyền
- Sự không phân biệt giữa AI học có giám sát và AI tạo sinh mà chỉ gộp chung vào AI làm nhiều người nhầm lẫn giữa điểm mạnh và điểm yếu của AI
- Việc có được cách phân biệt một sản phẩm là do LLM tạo ra hay không một cách tin cậy được không chỉ giúp người dùng mà còn giúp chính các LLM đó
- Việc LLM được thiết kế như chat khiến ta không để ý rằng nó chỉ là tự động điền chữ
- Việc làm cho LLM như có thêm cảm xúc khiến ta dễ bị lệ thuộc vào chúng hơn
- Việc tích hợp LLM vào sản phẩm là để bán lời hứa cho nhà đầu tư, không phải để bán sản phẩm cho người dùng
- Việc xem LLM có nhân tính sẽ tạo thêm rào cản để lên án chúng
- Việc xem LLM là học được cho phép các công ty đòi quyền cung cấp dữ liệu
- ❓Nếu như tất cả LLM đều là nhận dạng pattern, thì dùng topic modelling sẽ nhanh hơn
-
Máy học, dữ liệu lớn:
- Chỉ có thể đảm bảo kết quả không thiên kiến khi kết quả đầu vào không thiên kiến
- Dữ liệu lớn không nhất thiết là dữ liệu tốt
- Không giám sát nghĩa là giả định rằng người huấn luyện không có giả định nào
- Máy học dự đoán xem mẫu hình có bao nhiêu khả năng lặp lại trong tương lai
- Rất nhiều thuật toán được sinh ra vì dữ liệu có nhiều chiều. Nếu chỉ có vài chiều thì dùng mắt tốt hơn
- Việc dùng máy học có thể làm ta nghĩ mô hình rất phức tạp mặc dù thực chất nó rất đơn giản
-
Trung tâm dữ liệu:
- 40% lượng điện của các trung tâm dữ liệu là để cho việc làm mát
- Dấu chân carbon của việc tính toán đã vượt qua công nghiệp hàng không
- Ngành công nghiệp siêu tính toán được xây dựng trên nền tảng thuộc địa từ việc khai thác tài nguyên ở các nước bán cầu nam
- Việc dùng ẩn dụ đám mây làm ta nghĩ là nó không có địa điểm và không cần tốn công xử lý
