Hãy nghe những tiếng động này đi, rồi tự hỏi có khi nào âm thanh đang phát ra quanh chúng ta chỉ là giả lập?

    Dink,  

    Những ứng dụng của Deeplearning càng ngày càng phong phú.

    Để một con robot có thể tìm đường tự đi ngoài thực địa, ngoài khả năng nhìn đường quan sát vật cản, nó còn phải nghe được tiếng động để đưa ra phán đoán xem xung quanh đang diễn ra sự kiện gì, từ đó đưa ra quyết định đi tiếp hay dừng lại, né sang một bên hay quay đầu đi đường khác.

    Con người chúng ta học cách phân biệt âm thanh bằng việc trải nghiệm những âm thanh ấy bằng chính tai của mình. Liệu ta có thể áp dụng chính cách thức này lên máy móc hay không?

    Tại Viện Công nghệ Massachusetts MIT, Phóng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo CSAIL đã biểu diễn cho ta thấy một thuật toán cho phép máy móc có thể dự đoán được tiếng động như thế nào: Khi được xem một đoạn video ngắn về hành động của một vật thể, máy móc sẽ đưa ra được dự đoán và tạo ra được âm thanh y hệt hành động kia.

    Những âm thanh ấy nghe “thật” tới mức chắc chắn bạn sẽ bị cỗ máy trí tuệ nhân tạo kia lừa.

    Chẳng mấy mà AI sẽ tiến xa.

    Được gọi là Bài thử Turing cho âm thanh, thí nghiệm này không chỉ đơn thuần là một trò đoán âm thanh rất thú vị, nó còn có ý nghĩa sâu xa hơn thế nhiều. Các nhà nghiên cứu đã nhìn thấy một tương lai sáng lạn cho đồ điện tử tự động, một tương lai mà ở đó, chúng ta sẽ có thể sử dụng máy tính để tạo hiệu ứng âm thanh cho phim ảnh.

    Đó là một mũi tên trúng hai đích: ta vừa có được một âm thanh chân thực được tạo ra ngay từ máy tính, ta lại vừa có thể giúp máy tính học thêm được những thứ mới thông qua thuật toán này.

    Khi bạn đưa ngón tay xoay quanh miệng ly rượu vang, âm thanh tạo ra sẽ cho ta biết trong ly chứa được bao nhiêu rượu”, Andrew Owens thuộc phòng thí nghiệm CSAIL, tác giả của báo cáo khoa học về nghiên cứu này cho hay.

    Một thuật toán có thể tái tạo lại những âm thanh ấy sẽ là chìa khóa nhận biết hình dáng và vật liệu tạo nên vật chất ấy, cũng như lực và hướng lực tạo ra khi vật đó tiếp xúc với các vật chất khác”.

     Viện Công nghệ Massachusetts.

    Viện Công nghệ Massachusetts.

    Để làm được điều này, các nhà nghiên cứu đã sử dụng kĩ thuật đến từ lĩnh vực deeplearning, một kĩ thuật cho phép máy tính lọc ra những khuôn mẫu nhất định từ một cơ sở dữ liệu khổng lồ. Deeplearning nhanh và hiệu quả hơn nhiều khi mà nó không cần các nhà khoa học phải tự tay viết thuật toán và giám sát từng bước quá trình hoạt động của máy móc.

    Đây là cách thuật toán kia hoạt động

    Bước đầu tiên để “huấn luyện” một thuật toán tạo ra âm thanh là cho nó những âm thanh mẫu để nghiên cứu. Trong một quá trình dài nhiều tháng trời, các nhà khoa học đã ghi lại khoảng 1.000 đoạn video ngắn cùng với 46.000 đoạn âm thanh của rất nhiều bề mặt, đồ vật bị cạo, gõ và đập bằng một chiếc gậy chơi trống.

    Bước tiếp theo, những video (và cả những đoạn âm thanh ấy) được thuật toán deeplearning nghiên cứu, chia nhỏ và phân tích từng cao độ, độ to nhỏ của từng giai đoạn và nhiều yếu tố âm thanh khác.

    Để đoán âm thanh của mỗi hình ảnh nó được xem, thuật toán sẽ so sánh những gì nó nghe được với cơ sở dữ liệu đã phân tích sẵn của mình, sau đó nó sẽ đưa ra đoạn âm thanh có tỉ lệ trùng lặp cao nhất”, anh Owens nói. “Một khi hệ thống đã có được những dữ liệu đó rồi, nó sẽ chắp nối những đoạn dữ liệu nhỏ lại để tạo nên một âm thanh hoàn chỉnh”.

    Kết quả ấn tượng cuối cùng là đoạn video ở trên, thuật toán đã đưa ra những âm thanh trùng khớp một cách chính xác với những đoạn phim nó được xem.

    Những phương pháp dạy dỗ AI hiện tại đang tập trung vào năm giác quan cơ bản”, Abhinav Gupta, trợ lý giáo sư chuyên về robot tại Đại học Carnegie Mellon, một người không thuộc nghiên cứu trên nói. “Kết quả nghiên cứu này là một hướng đi đúng đắn trong việc dạy dỗ AI phương pháp nghe âm thanh y hẹt như với con người”.

    AI đã đánh lừa được con người

    Để thử nghiệm xem độ “chân thực” của những âm thanh kia đến được mức nào, đội ngũ đã đưa ra hai đoạn phim lồng âm thanh: một là âm thanh thực và một là âm thanh được tạo ra nhờ thuật toán, hỏi người làm thí nghiệm rằng đâu là thực và đâu là giả.

    Kết quả đáng kinh ngạc cho thấy số người nhầm lẫn âm giả với âm thực nhiều hơn gấp đôi số người đoán đúng.

    Chưa hết, đội ngũ nghiên cứu còn có được một thành công nữa, đó là thuật toán của họ có thể đoán được cả độ cứng/mềm của vật liệu thông qua âm thanh nó được nghe, với tỉ lệ chính xác lên tới 67%.

    Và một tương lai rộng mở cho AI

    Các nhà khoa học nói rằng công nghệ này vẫn còn có thể phát triển được hơn nữa để tạo ra những âm thanh chính xác hơn nữa. Ví dụ, khi mà chiếc gậy trống được thử nghiệm gõ một nhát không dứt khoát, thuật toán sẽ đưa ra dự đoán sai hoặc không đưa ra được một dự đoán âm thanh nào.

    Bên cạnh đó, thuật toán chỉ có thể dự đoán được âm thanh khi mà hai vật thể rắn tiếp xúc với nhau. “Âm thanh của gió thổi nhẹ hay tiếng quạt tản nhiệt của laptop sẽ quá khó đoán”, anh Owens nói.

    Nhưng trong tương lai, đội ngũ những nhà nghiên cứu sẽ tìm ra cách để khắc phục được điểm yếu này. “Khả năng dự đoán được âm thanh là một bước đầu cực kì quan trọng để thuật toán deeplearning này có thể đoán được những kết quả của sự việc diễn ra trong đời thực”, Owens kết luận.

    Tin cùng chuyên mục
    Xem theo ngày