CTO của Facebook: AI đã sàng lọc những thứ xấu, với nhiều thứ sắp tới
Phần mềm xử lý một phần đáng kể của công việc kiểm duyệt nội dung lớn nhất thế giới, Mike Schroepfer nói. Và nó đã sẵn sàng để nâng vật nặng hơn.
CTO của Facebook: AI đã sàng lọc những thứ xấu, với nhiều thứ sắp tới
CTO Facebook Mike Schroepfer [Ảnh: Hội nghị thượng đỉnh web / Wikimedia Commons]
TÁC GIẢ HARRY MCCRACKEN5 PHÚT ĐỌC
Vào năm 2017, khi Facebook nổi lên bởi một loạt các tranh cãi liên quan đến nội dung trên nền tảng của mình, từ tin tức giả mạo , lời nói căm thù, và rõ ràng hơn là công ty tin rằng một phần của giải pháp liên quan đến thiết bị xử lý thông tin lâu đời nhất trong số đó : nhãn cầu của con người. Nó tuyên bố rằng họ sẽ thuê hàng ngàn người điều hành bổ sung để quét các bài đăng của người dùng để tìm tài liệu gây khó chịu, bất hợp pháp hoặc nghi vấn khác, đó là một sự thừa nhận rằng một mình công nghệ không thể ngăn chặn các diễn viên xấu của mạng xã hội. Và nhiều chuyên gia đã tuyên bố rằng không có dấu hiệu AI sẽ có nhiệm vụ xác định và loại bỏ các tài liệu có vấn đề mà không cần sự can thiệp của con người.
Tại bài phát biểu ngày thứ hai trong hội nghị F8 của Facebook hôm nay, CTO của công ty, Mike Schroepfer, đã đưa ra trường hợp AI đã phát hiện nội dung không phù hợp ở quy mô. Ông cũng nói rằng các nhà nghiên cứu tại Facebook và các nơi khác hiện đang tiến hành các kỹ thuật sẽ cho phép phần mềm xử lý nhiều công việc hơn với ít sự trợ giúp của con người. Đầu tuần này, trong một phòng hội thảo tại trụ sở Facebook, anh ấy đã cho tôi xem qua các biểu đồ mà anh ấy dự định trình bày tại bài phát biểu, với các thanh đại diện cho nhiều loại vật phẩm vi phạm Thư rác, tài khoản giả, ảnh khoả thân, bạo lực và các số liệu thống kê hiển thị khi Facebook bắt đầu xác định chúng bằng AI và khi AI chiếm phần lớn quá trình.
Bằng cách chia sẻ dữ liệu này, Schroepfer hy vọng sẽ tin vào những ấn tượng rằng Facebook sẽ không thực hiện thách thức trong việc làm sạch nền tảng của mình đủ nghiêm túc. Tuy nhiên, anh ta nhanh chóng thừa nhận rằng vẫn còn nhiều việc phải làm và không chỉ trích những người hoài nghi. Điều khó nhất đối với cá nhân tôi là cảm giác mà chúng ta không quan tâm, anh ấy nói. Tôi không quan tâm, hoặc chúng tôi không ưu tiên nó, hoặc 'Nó chỉ không phù hợp với kinh nghiệm cá nhân của tôi ngày này qua ngày khác.' Nhưng mọi người cảm nhận được những gì họ cảm nhận, và cho đến khi chúng tôi hiểu đúng, họ mới cảm nhận được bất cứ điều gì họ muốn.
Schroepfer cẩn thận không giám sát lời hứa của AI như một giải pháp phổ quát cho những tai ương kiểm duyệt nội dung. Tôi không dự đoán được tương lai bất cứ lúc nào sớm, nơi chúng tôi không cần những người liên quan đến vòng lặp, bởi vì đây là những vấn đề cơ bản của mọi người, và quyết định những gì ghét lời nói và thông tin sai là gì là nỗ lực của con người, ông nói. Nhưng ông nói rằng AI có thể ngày càng có thể xử lý sự quyết liệt của kiểm duyệt. Và như bất cứ ai đọc Tháng hai bờ vực câu chuyện của Casey Newton biết , chi tiêu ngày của bạn eyeballing mục kinh hoàng đăng bởi người dùng tồi tệ nhất của Facebook không chỉ đơn thuần là ảm đạm; nó có thể làm đau tâm hồn bạn
Một số nội dung này thực sự khủng khiếp để xem xét, Schroepfer nói. Vì vậy, nếu tôi có thể nhận được những điều tồi tệ nhất trong số những người đánh giá tồi tệ nhất, thì đó chỉ là ít người tiếp xúc với những thứ này.
HAI CÔNG VIỆC TRONG MỘT
Schroepfer ước tính rằng ông hiện đang dành khoảng một nửa thời gian của mình cho các công nghệ để xử lý các khó khăn hiện tại trên Facebook và một nửa cho các nhiệm vụ khác, bao gồm các công cụ tương lai thú vị hơn như Oculus VR . Một số ngày, nó có thể là 70/30 và đôi khi có thể là 30/70, anh ấy nói. Nhưng khi nói đến nghiên cứu, dòng này bị mờ. Chẳng hạn, các cuộc điều tra về tầm nhìn máy móc mà Facebook tiến hành để cho phép màn hình trò chuyện video Portal của nó thông minh, có thể giúp công ty kiểm duyệt video và xóa nhanh những rắc rối hơn. Schroepfer nói rằng tôi có thể sống ở cả hai thế giới, điều đó thật thú vị.
Sau đó, tiến bộ của ngành công nghệ đang thực hiện trong việc dạy AI để xác định những thứ mà cả giáo dục và hình ảnh trực quan mà không cần sự trợ giúp sâu rộng. Đó là một tiến bộ vượt ra ngoài các kỹ thuật học máy hiện tại, đòi hỏi nhiều sự đào tạo từ phía trước từ con người. Schroepfer nói rằng việc đào tạo thông thường như vậy có hai vấn đề rất lớn. Một, nó rất đẹp. Nếu nó không có trong tập huấn luyện, có lẽ bạn sẽ không tìm thấy nó. Và toàn bộ quá trình là khá chậm. Bạn có thể mất vài tuần để xây dựng một bộ phân loại đặc biệt mới. Càng nhiều máy tính có thể tự làm, chúng sẽ càng giỏi hơn trong một loạt các nhiệm vụ.
Schroepfer chỉ ra một dự án nghiên cứu của Google có tên BERT . Đó là viết tắt của Đại diện bộ mã hóa hai chiều từ Transformers, mà nếu bạn không phải là nhà khoa học AI thì không làm rõ vấn đề. Nhưng ý tưởng cơ bản không khó để hiểu. Thay vì đào tạo một mô hình AI với các ví dụ được chọn bởi con người, bạn có thể dạy nó bằng cách cho nó ăn các vật phẩm trông giống như các câu đố chữ. Một bài tập như vậy bao gồm các câu với các từ bị che đi, với máy tính cung cấp các từ còn thiếu như thể nó là một thí sinh trong Trò chơi trận đấu . Một cái khác cung cấp cho máy tính các cặp câu, với thử thách là đoán xem câu thứ hai có theo câu thứ nhất trong một đoạn văn bản thực sự hay không.
Các nhà khoa học máy tính đang sử dụng các kỹ thuật tương tự với video, chẳng hạn như đưa ra một mô hình AI một đoạn phim và nhạc phim, và yêu cầu nó dự đoán liệu thực tế chúng có thuộc về nhau hay không. Các nhà khoa học của Facebook cũng đã dạy các mô hình AI bằng cách cho họ xem các cặp video clip và yêu cầu họ đoán xem các clip đó có phải là một phần của một chuỗi hay không. Theo Schroepfer, phương pháp đào tạo này giúp giảm số lượng lao động thủ công của con người từ 12.000 giờ xuống còn 80. Đổi đó là giảm nhiều đơn hàng, ông nói.
Schoepfer nói, thật dễ dàng để biến các loại câu đố văn bản và hình ảnh này thành một thuật toán: Bạn có thể lấy cả tấn dữ liệu đầu vào và biến đổi nó. Phần mềm càng giải quyết được phần mềm, nó càng thông minh hơn khi xử lý chính xác các phần mềm trong tương lai và do đó hiểu được nội dung dựa trên các ngữ cảnh theo bối cảnh, một kỹ năng có giá trị trên Facebook, từ việc xác định quảng cáo không thể chấp nhận đến sắp xếp thông minh News Feed. Những kỹ thuật như vậy rơi vào một lớp đào tạo tự giám sát của người dùng mà người được vinh danh trên Facebook mà Yann LeCun đã gọi là một trong những cơ hội chính của AI trong thập kỷ tới.
Quan điểm của các thuật toán đào tạo hiệu quả hơn không phải là làm cho quá trình trở thành một phần ít quan trọng hơn trong cách Facebook hiểu tài liệu trên các nền tảng của mình. Thay vào đó, điều đó khả thi khi thực hiện nhiều khóa đào tạo hơn để xử lý các loại nội dung bổ sung, theo những cách có thể là không thể khi con người phải thực hiện nhiều thao tác hơn. Schroepfer cung cấp một ví dụ về việc học tự giám sát đã được sử dụng tại Facebook: Tháng Nếu chúng tôi đào tạo một trình phân loại để tìm hiểu xem mọi người có nói về một cuộc bầu cử hay không, chúng tôi có thể đào tạo qua nhiều ngôn ngữ cùng một lúc, để nó hoạt động tốt hơn trong những nơi như Ấn Độ.
Cuối cùng, Schroepfer nói, anh ta thấy một ngày khi sự ảm đạm hiện tại của ngành công nghệ vượt xa các vấn đề của Facebook. Tin tức: Tôi nghĩ rằng chúng ta đang ở trong tình trạng bi quan tột đỉnh về công nghệ, hoặc chúng ta đang tiến gần đến nó. Đối với Facebook, ông nói thêm, một phần của giải pháp sẽ nằm ở việc công ty trở nên tốt hơn trong việc xác định các vấn đề trước khi chúng trở thành vấn đề, vì vậy nó có thể triển khai nguồn nhân lực công nghệ và nhân sự của mình trong cơ hội sớm nhất có thể.
Thực tế là, chúng ta có thể dự đoán chúng tốt hơn so với trước đây, bởi vì một số trong số chúng có thể dự đoán được, ông nói. Chúng tôi có thể tốt hơn để phản ứng với những điều mới nhanh hơn. Vì vậy, ngay cả khi chúng tôi không dự đoán nó, chúng tôi có cơ bắp hoạt động để đối phó với nó.
CTO của Facebook: AI đã sàng lọc những thứ xấu, với nhiều thứ sắp tới
CTO Facebook Mike Schroepfer [Ảnh: Hội nghị thượng đỉnh web / Wikimedia Commons]
TÁC GIẢ HARRY MCCRACKEN5 PHÚT ĐỌC
Vào năm 2017, khi Facebook nổi lên bởi một loạt các tranh cãi liên quan đến nội dung trên nền tảng của mình, từ tin tức giả mạo , lời nói căm thù, và rõ ràng hơn là công ty tin rằng một phần của giải pháp liên quan đến thiết bị xử lý thông tin lâu đời nhất trong số đó : nhãn cầu của con người. Nó tuyên bố rằng họ sẽ thuê hàng ngàn người điều hành bổ sung để quét các bài đăng của người dùng để tìm tài liệu gây khó chịu, bất hợp pháp hoặc nghi vấn khác, đó là một sự thừa nhận rằng một mình công nghệ không thể ngăn chặn các diễn viên xấu của mạng xã hội. Và nhiều chuyên gia đã tuyên bố rằng không có dấu hiệu AI sẽ có nhiệm vụ xác định và loại bỏ các tài liệu có vấn đề mà không cần sự can thiệp của con người.
Tại bài phát biểu ngày thứ hai trong hội nghị F8 của Facebook hôm nay, CTO của công ty, Mike Schroepfer, đã đưa ra trường hợp AI đã phát hiện nội dung không phù hợp ở quy mô. Ông cũng nói rằng các nhà nghiên cứu tại Facebook và các nơi khác hiện đang tiến hành các kỹ thuật sẽ cho phép phần mềm xử lý nhiều công việc hơn với ít sự trợ giúp của con người. Đầu tuần này, trong một phòng hội thảo tại trụ sở Facebook, anh ấy đã cho tôi xem qua các biểu đồ mà anh ấy dự định trình bày tại bài phát biểu, với các thanh đại diện cho nhiều loại vật phẩm vi phạm Thư rác, tài khoản giả, ảnh khoả thân, bạo lực và các số liệu thống kê hiển thị khi Facebook bắt đầu xác định chúng bằng AI và khi AI chiếm phần lớn quá trình.
Bằng cách chia sẻ dữ liệu này, Schroepfer hy vọng sẽ tin vào những ấn tượng rằng Facebook sẽ không thực hiện thách thức trong việc làm sạch nền tảng của mình đủ nghiêm túc. Tuy nhiên, anh ta nhanh chóng thừa nhận rằng vẫn còn nhiều việc phải làm và không chỉ trích những người hoài nghi. Điều khó nhất đối với cá nhân tôi là cảm giác mà chúng ta không quan tâm, anh ấy nói. Tôi không quan tâm, hoặc chúng tôi không ưu tiên nó, hoặc 'Nó chỉ không phù hợp với kinh nghiệm cá nhân của tôi ngày này qua ngày khác.' Nhưng mọi người cảm nhận được những gì họ cảm nhận, và cho đến khi chúng tôi hiểu đúng, họ mới cảm nhận được bất cứ điều gì họ muốn.
Schroepfer cẩn thận không giám sát lời hứa của AI như một giải pháp phổ quát cho những tai ương kiểm duyệt nội dung. Tôi không dự đoán được tương lai bất cứ lúc nào sớm, nơi chúng tôi không cần những người liên quan đến vòng lặp, bởi vì đây là những vấn đề cơ bản của mọi người, và quyết định những gì ghét lời nói và thông tin sai là gì là nỗ lực của con người, ông nói. Nhưng ông nói rằng AI có thể ngày càng có thể xử lý sự quyết liệt của kiểm duyệt. Và như bất cứ ai đọc Tháng hai bờ vực câu chuyện của Casey Newton biết , chi tiêu ngày của bạn eyeballing mục kinh hoàng đăng bởi người dùng tồi tệ nhất của Facebook không chỉ đơn thuần là ảm đạm; nó có thể làm đau tâm hồn bạn
Một số nội dung này thực sự khủng khiếp để xem xét, Schroepfer nói. Vì vậy, nếu tôi có thể nhận được những điều tồi tệ nhất trong số những người đánh giá tồi tệ nhất, thì đó chỉ là ít người tiếp xúc với những thứ này.
HAI CÔNG VIỆC TRONG MỘT
Schroepfer ước tính rằng ông hiện đang dành khoảng một nửa thời gian của mình cho các công nghệ để xử lý các khó khăn hiện tại trên Facebook và một nửa cho các nhiệm vụ khác, bao gồm các công cụ tương lai thú vị hơn như Oculus VR . Một số ngày, nó có thể là 70/30 và đôi khi có thể là 30/70, anh ấy nói. Nhưng khi nói đến nghiên cứu, dòng này bị mờ. Chẳng hạn, các cuộc điều tra về tầm nhìn máy móc mà Facebook tiến hành để cho phép màn hình trò chuyện video Portal của nó thông minh, có thể giúp công ty kiểm duyệt video và xóa nhanh những rắc rối hơn. Schroepfer nói rằng tôi có thể sống ở cả hai thế giới, điều đó thật thú vị.
Sau đó, tiến bộ của ngành công nghệ đang thực hiện trong việc dạy AI để xác định những thứ mà cả giáo dục và hình ảnh trực quan mà không cần sự trợ giúp sâu rộng. Đó là một tiến bộ vượt ra ngoài các kỹ thuật học máy hiện tại, đòi hỏi nhiều sự đào tạo từ phía trước từ con người. Schroepfer nói rằng việc đào tạo thông thường như vậy có hai vấn đề rất lớn. Một, nó rất đẹp. Nếu nó không có trong tập huấn luyện, có lẽ bạn sẽ không tìm thấy nó. Và toàn bộ quá trình là khá chậm. Bạn có thể mất vài tuần để xây dựng một bộ phân loại đặc biệt mới. Càng nhiều máy tính có thể tự làm, chúng sẽ càng giỏi hơn trong một loạt các nhiệm vụ.
Schroepfer chỉ ra một dự án nghiên cứu của Google có tên BERT . Đó là viết tắt của Đại diện bộ mã hóa hai chiều từ Transformers, mà nếu bạn không phải là nhà khoa học AI thì không làm rõ vấn đề. Nhưng ý tưởng cơ bản không khó để hiểu. Thay vì đào tạo một mô hình AI với các ví dụ được chọn bởi con người, bạn có thể dạy nó bằng cách cho nó ăn các vật phẩm trông giống như các câu đố chữ. Một bài tập như vậy bao gồm các câu với các từ bị che đi, với máy tính cung cấp các từ còn thiếu như thể nó là một thí sinh trong Trò chơi trận đấu . Một cái khác cung cấp cho máy tính các cặp câu, với thử thách là đoán xem câu thứ hai có theo câu thứ nhất trong một đoạn văn bản thực sự hay không.
Các nhà khoa học máy tính đang sử dụng các kỹ thuật tương tự với video, chẳng hạn như đưa ra một mô hình AI một đoạn phim và nhạc phim, và yêu cầu nó dự đoán liệu thực tế chúng có thuộc về nhau hay không. Các nhà khoa học của Facebook cũng đã dạy các mô hình AI bằng cách cho họ xem các cặp video clip và yêu cầu họ đoán xem các clip đó có phải là một phần của một chuỗi hay không. Theo Schroepfer, phương pháp đào tạo này giúp giảm số lượng lao động thủ công của con người từ 12.000 giờ xuống còn 80. Đổi đó là giảm nhiều đơn hàng, ông nói.
Schoepfer nói, thật dễ dàng để biến các loại câu đố văn bản và hình ảnh này thành một thuật toán: Bạn có thể lấy cả tấn dữ liệu đầu vào và biến đổi nó. Phần mềm càng giải quyết được phần mềm, nó càng thông minh hơn khi xử lý chính xác các phần mềm trong tương lai và do đó hiểu được nội dung dựa trên các ngữ cảnh theo bối cảnh, một kỹ năng có giá trị trên Facebook, từ việc xác định quảng cáo không thể chấp nhận đến sắp xếp thông minh News Feed. Những kỹ thuật như vậy rơi vào một lớp đào tạo tự giám sát của người dùng mà người được vinh danh trên Facebook mà Yann LeCun đã gọi là một trong những cơ hội chính của AI trong thập kỷ tới.
Quan điểm của các thuật toán đào tạo hiệu quả hơn không phải là làm cho quá trình trở thành một phần ít quan trọng hơn trong cách Facebook hiểu tài liệu trên các nền tảng của mình. Thay vào đó, điều đó khả thi khi thực hiện nhiều khóa đào tạo hơn để xử lý các loại nội dung bổ sung, theo những cách có thể là không thể khi con người phải thực hiện nhiều thao tác hơn. Schroepfer cung cấp một ví dụ về việc học tự giám sát đã được sử dụng tại Facebook: Tháng Nếu chúng tôi đào tạo một trình phân loại để tìm hiểu xem mọi người có nói về một cuộc bầu cử hay không, chúng tôi có thể đào tạo qua nhiều ngôn ngữ cùng một lúc, để nó hoạt động tốt hơn trong những nơi như Ấn Độ.
Cuối cùng, Schroepfer nói, anh ta thấy một ngày khi sự ảm đạm hiện tại của ngành công nghệ vượt xa các vấn đề của Facebook. Tin tức: Tôi nghĩ rằng chúng ta đang ở trong tình trạng bi quan tột đỉnh về công nghệ, hoặc chúng ta đang tiến gần đến nó. Đối với Facebook, ông nói thêm, một phần của giải pháp sẽ nằm ở việc công ty trở nên tốt hơn trong việc xác định các vấn đề trước khi chúng trở thành vấn đề, vì vậy nó có thể triển khai nguồn nhân lực công nghệ và nhân sự của mình trong cơ hội sớm nhất có thể.
Thực tế là, chúng ta có thể dự đoán chúng tốt hơn so với trước đây, bởi vì một số trong số chúng có thể dự đoán được, ông nói. Chúng tôi có thể tốt hơn để phản ứng với những điều mới nhanh hơn. Vì vậy, ngay cả khi chúng tôi không dự đoán nó, chúng tôi có cơ bắp hoạt động để đối phó với nó.
Nhận xét
Đăng nhận xét