Frederic Kaplan - How i built an information time machine

Translator: Thùy Dung Reviewer: Nhu PHAM Đây là hình ảnh của hành tinh Trái Đất. Nó trông giống với hình ảnh của Apollo mà chúng ta thường biết. Nhưng có một số khác biệt; bạn có thể click vào nó, và nếu click vào, bạn có thể nhìn rõ hơn từ bất cứ nơi nào trên Trái Đất. Ví dụ, đây là hình ảnh bao quát của khuôn viên EPFL. Trong nhiều trường hợp, bạn cũng có thể nhìn thấy một tòa nhà trông như thế nào từ một con phố gần đó. Điều này quả thực tuyệt vời. Nhưng còn thiếu một điều trong chuyến hành trình thú vị này: Đó là thời gian. Tôi không chắc chắn là bức tranh này được chụp khi nào. Tôi còn không chắc chắn liệu nó có được chụp cùng thời điểm với khung cảnh nhìn từ trên cao. Trong phòng thí nghiệm của tôi, chúng tôi phát triển các công cụ để di chuyển không chỉ qua không gian mà còn qua thời gian. Loại câu hỏi mà chúng tôi thường đặt ra là Liệu có thể xây dựng một cái gì đó giống với Bản đồ Google trong quá khứ không? Tôi có thể thêm một thanh trượt trên đầu Bản đồ Google và điều chỉnh năm, để xem nó có gì khác so với 100 năm trước, 1000 năm trước đây không? Điều đó có thể không? Tôi có thể thiết lập lại mạng lưới xã hội của quá khứ không? Tôi có thể làm một trang Facebook của thời Trung cổ không? Hay, tôi có thể làm một cỗ máy thời gian không? Có lẽ chúng ta chỉ có thể nói rằng, "Không, tuyệt đối không thể." Hoặc, có thể, chúng ta sẽ nghĩ về nó từ một cách nhìn thông tin khác. Đây là cái mà tôi gọi là nấm thông tin. Theo chiều dọc, bạn có thời gian. Và theo chiều ngang là lượng thông tin số có sẵn. Rõ ràng là, trong 10 năm qua, chúng ta có rất nhiều thông tin. Và có thể thấy, chúng càng đi sâu vào quá khứ thì thông tin chúng ta có càng ít. Nếu chúng ta muốn tạo ra một kiểu như Bản đồ Google của quá khứ hoặc Facebook của quá khứ, thì chúng ta cần mở rộng khu vực này, chúng ta cần làm cho nó giống một hình chữ nhật. Làm thế nào mà chúng ta làm được điều đó? Có một cách là số hóa. Có rất nhiều nguồn có sẵn -- báo chí, sách in, hàng ngàn cuốn sách in. Tôi có thể số hóa tất cả. Tôi có thể chọn lọc thông tin từ đó. Dĩ nhiên là bạn càng lùi về quá khứ thì sẽ có ít thông tin hơn. Nên, có thể sẽ không có đủ thông tin. Nên, tôi có thể làm như các nhà sử học. Tôi có thể ngoại suy. Điều này là cái trong khoa học máy tính vẫn gọi là mô phỏng. Nếu tôi có một quyển nhật kỳ hàng hải, tôi có thể xem xét, nó không chỉ là một quyển nhật ký hàng hải của một thuyền trưởng người Venice trên một hành trình đặc biệt. Tôi có thể xem nó là một quyển nhật ký hàng hải thực sự phản ánh rất nhiều hành trình trong giai đoạn đó. Tôi đang ngoại suy. Nếu có một bức tranh về bề ngoài, tôi có thể nó như không phải là một tòa nhà bình thường, mà nó còn chắc chắn chia sẻ cùng nguyên lý tòa nhà nơi mà chúng ta đánh mất bất kỳ thông tin nào. Vì thể nếu chúng ta muốn tạo ra một cỗ máy thời gian, chúng ta cần 2 thứ. Chúng ta cần một lượng tài liệu lớn, và cần những chuyên gia xuất sắc. Cỗ máy thời gian thành Venice, dự án mà tôi đang nói với các bạn, là một dự án hợp tác giữa EPFL và trường Đại học Venice Ca'Foscari. Có một điều rất khác biệt ở Venice, làm cho việc quản lý nó trở nên rất rất quan liêu. Họ đã giữ gìn tất cả mọi thứ, gần giống như Google ngày nay. Ở Archivio di Stato, bạn có 80 cây số dữ liệu ghi chép mọi điều về cuộc sống ở Venice hơn 100 năm qua. Bạn có ghi chép về từng con thuyền đi ra, đi vào cảng. Bạn có tất cả mọi thay đổi có ở thành phố. Tất cả đều ở đó. Chúng tôi đang thiết lập một chương trình số hóa 10 năm với mục tiêu là chuyển những con số bị quên lãng này vào trong một hệ thống thông tin khổng lồ. Loại mục tiêu mà chúng tôi hướng đến là số hóa 450 quyển sách một ngày. Tất nhiên nếu chỉ số hóa thôi thì vẫn chưa đủ, bởi vì những tài liệu này, phần lớn là bằng tiếng Latin, bằng tiếng Ý, bằng tiếng địa phương Venice, vì thế bạn cần chuyển ngữ, dịch thuật trong một số trường hợp, và tra cứu. và điều này rõ ràng là không hề dễ dàng. Đặc biệt là phương pháp nhận biết bằng quang học các ký tự cổ mà có thể được sử dụng với các bản in, lại không hiệu quả đối với các bản viết tay. Vì thế giải pháp là cần phải có sự giúp đỡ từ một nguồn khác: nhận biết bằng giọng nói. Đây là nguồn nghe có vẻ như không tưởng, nhưng có thể được hoàn thiện một cách đơn giản bằng việc cho thêm các ràng buộc. Nếu bạn sử dụng một mô hình ngôn ngữ tốt, nếu bạn có một mô hình văn bản tốt, thì cấu trúc của nó cũng sẽ rất tuyệt. Và đây là những văn bản hành chính. Chúng đều có cấu trúc tốt trong nhiều trường hợp. Nếu bạn chia lượng dữ liệu lớn này thành các tập con nhỏ hơn nơi mà một tập con nhỏ hơn chia sẻ các tài nguyên tương tự nhau, thì có cơ hội để thành công. Nếu chúng ta làm được điều đó thì còn một vấn đề nữa: chúng ta có thể chọn lọc sự kiện từ những tài liệu này. Có tới 10 tỷ sự kiện có thể được chọn ra từ dữ liệu này. Và hệ thống thông tin khổng lồ này có thể được tìm thấy bằng nhiều cách. Bạn có thể hỏi các câu kiểu như, "Ai sống trong tòa nhà này vào năm 1323?" "Một con cá tráp biển có giá bao nhiêu ở siêu thị Realto vào năm 1434?" "Mức lương của một thợ làm kính ở Murano có thể có được sau hơn mười năm là bao nhiêu?" Bạn cũng có thể hỏi những câu hỏi rộng hơn bởi nó được mã hóa bằng từ ngữ. Và sau đó cái mà bạn có thể làm là cho nó vào không gian, vì phần lớn những thông tin thuộc về không gian. Và từ đó, bạn có thể làm những việc như xây dựng lại một hành trình không tưởng về thành phố đã có được một sự phát triển bền vững qua hàng nghìn năm, đang cố để luôn giữ được một hình thái cân bằng với môi trường. Bạn có thể tái dựng lại hành trình đó, mường tượng nó theo nhiều cách. Nhưng đương nhiên, bạn không thể hiểu được Venice, nếu chỉ nhìn vào thành phố. Bạn phải đặt nó trong một hệ thống châu Âu rộng hơn. Vì thế, ý tưởng cũng là để ghi chép tất cả mọi việc được làm ở đẳng cấp châu Âu. Chúng tôi cũng có thể tái dựng hành trình của Đế chế hàng hải Venice, cách nó dần dần điều khiển tiến trình biển Adriatic, cách nó trở thành đế chế trung cổ quyền lực nhất thời đó, quản lý phần lớn các lộ trình biển từ bắc tới nam. Nhưng bạn thậm chí còn làm được những thứ khác, vì trong những hành trình hàng hải này, có những mô hình quen thuộc. Bạn có thể đi trước một bước và thực sự tạo ra một hệ thống mô phỏng, tạo ra một bản mô phỏng Địa Trung Hải mà có thể thực sự tái dựng lại cả những thông tin còn thiếu, và cho phép chúng ta đặt ra mọi câu hỏi như thể bạn đang sử dụng một bản kế hoạch hải trình vậy. "Nếu tôi đang ở đảo Corfu vào tháng 6/1323 và muốn đến thành phố Constantinople, tôi có thể đi thuyền từ đâu?" Chắc chắn chúng ta có thể trả lời câu hỏi đó với độ chính xác từ một, hai, hay ba ngày. "Sẽ mất khoảng bao nhiêu tiền?" "Cơ hội gặp phải cướp biển là bao nhiêu?" Dĩ nhiên, bạn hiểu rằng, thách thức khoa học chính của một dự án như thế này là việc xác định tiêu chuẩn, số lượng và biểu đạt sự không chắc chắn và mâu thuẫn ở mỗi bước của quá trình. Có nhiều lỗi sai, trong văn bản, có thể là sai tên thuyền trưởng, một số thuyền thực ra chưa bao giờ ra khơi. Có lỗi sai trong việc dịch, chênh lệch về trích dẫn, và hơn hết là, nếu bạn thêm vào các quá trình thuật toán, bạn sẽ có các lỗi sai trong việc nhận diện, trong việc chắt lọc thông tin, hay bạn có một dữ liệu rất không chắc chắn. Thế thì làm thế nào chúng ta có thể phát hiện và sửa chữa những mâu thuẫn đó? Làm thế nào để trình bày các hình thái không chắc chắn đó? Rất khó. Điều duy nhất bạn có thể làm là ghi chép từng quá trình một, không chỉ việc mã hóa thông tin lịch sử mà còn là cái được gọi là thông tin lịch sử bên lề, cách các hiểu biết về lịch sử được xây dựng, ghi chép từng bước một. Điều đó không chỉ đảm bảo rằng chúng ta đang thực sự nói về một câu chuyện Venice độc nhất, mà còn chắc chắn được chúng ta đang tái dựng một câu chuyện của Venice được ghi chép lại đầy đủ. Có thể sẽ không chỉ có một bản đồ duy nhất. Có thể sẽ có vài bản đồ. Hệ thống nên cho phép điều đó, bởi vì chúng ta phải chấp nhận một hình thái không chắc chắn mới, cái thực sự mới đối với loại dữ liệu khổng lồ này. Và chúng ta nên truyền đạt nghiên cứu mới này tới lượng lớn khán giả bằng cách nào? Một lần nữa, Venice lại là một ngoại lệ. Với hàng tỷ du khách đến đây, hàng năm, Venice thực sự là một trong những địa điểm lý tưởng để thử nghiệm việc tạo ra bảo tàng của tương lai. Hãy tưởng tượng, theo chiều ngang bạn nhìn thấy bản đồ được tái dựng trong một năm bất kỳ được chọn, và theo chiều dọc ,bạn sẽ thấy các số liệu phục vụ cho việc tái dựng đó, chẳng hạn như các bức vẽ. Tưởng tượng một hệ thống chìm cho phép đi đến, nghiên cứu và tái dựng lại Venice của một năm cho trước, một vài kinh nghiệm mà bạn có thể chia sẻ trong một nhóm. Trái lại, tưởng tượng rằng bạn đang thực sự bắt đầu từ một dữ liệu, một bản chép tay tiếng Venice địa phương, và bạn chỉ ra cái mà bạn có thể xây dựng được từ nó, nó được giải mã như thế nào, nội dung của dữ liệu đó có thể được tái tạo ra sao. Đây là một bức tranh từ một triển lãm đang diễn ra tại Geneva về loại hệ thống đó. Vì thế tóm lại, chúng ta có thể nói rằng nghiên cứu về nhân loại là việc trải qua một cuộc tiến hóa có thể giống như những gì xảy ra với khoa học cuộc sống 30 năm trước. Đó thực sự là một câu hỏi về quy mô. Chúng tôi thấy dự án này không thể do bất kỳ đội nghiên cứu riêng biệt nào đảm nhiệm, và điều này thực sự mới mẻ đối với nhân loại, cái thường đòi hỏi việc phải làm theo từng nhóm nhỏ hoặc chỉ với một vài nhà nghiên cứu. Khi đến thăm Archivio di Stato, bạn sẽ nhận ra việc này vượt xa khả năng của bất kỳ một đội đơn lẻ nào, và nó nên có một nỗ lực hợp tác cùng nhau. Vì thế, cái mà chúng tôi có thể làm được cho tiến trình biến hóa này là ấp ủ một thế hệ mới của "nhân văn số học" cái đang ngày một sẵn sàng cho bước chuyển mình này. Xin cảm ơn rất nhiều. (Vỗ tay)