Tương lai của Big Data là Small Data

MỤC LỤC

Bước 1. Tiêu đề của bước đi đến đây như mong đợi

Hãy tưởng tượng bạn muốn tạo phần mềm để thực hiện một nhiệm vụ. Có hai cách chính để làm điều đó và một cách trung gian.

Phương thức mã

Cách đầu tiên là lập trình phần mềm để thực hiện tác vụ, mà tôi sẽ gọi là "phương thức mã". Trong trường hợp này, bạn biết tất cả các tương tác có thể xảy ra và dự đoán chúng trong chương trình của bạn. Ví dụ cơ bản nhất về điều này là chuỗi "Nếu thì", trong đó bạn nói với máy tính, nếu điều này xảy ra, thì hãy làm điều này. Ví dụ: nếu nút này được nhấp vào thì hiển thị màn hình này.

Phương pháp mã không sử dụng dữ liệu và không liên quan đến đào tạo. Trình tự được lập trình xảy ra xác định, bất kể dữ liệu. Để rõ ràng, các chương trình có thể được tạo bằng phương pháp mã được viết bằng mã thực tế hoặc sử dụng các công cụ trực quan hoặc tương tự.

Phương pháp tàu hỏa

Cách thứ hai là đào tạo phần mềm để thực hiện nhiệm vụ bằng cách sử dụng dữ liệu lớn, mà tôi sẽ gọi là "phương pháp đào tạo". Trong trường hợp này, bạn viết một thuật toán, chẳng hạn như mạng thần kinh, để cho phép phần mềm được đào tạo trên dữ liệu. Sau đó, bạn giải phóng phần mềm trên dữ liệu và máy tính tìm hiểu, thông qua một vòng phản hồi, cách thực hiện tác vụ. Ví dụ, bạn có thể dạy phần mềm nhận dạng mèo bằng cách huấn luyện nó trên hình ảnh mèo.

Phương pháp đào tạo, tất nhiên, là bản chất của trí tuệ nhân tạo. Nó được gọi là phương pháp tiếp cận dữ liệu lớn vì càng có nhiều dữ liệu đào tạo chất lượng cao, kết quả sẽ càng tốt. Có tối thiểu dữ liệu đào tạo cần thiết để có được kết quả hợp lý.

Ở dạng tinh khiết nhất, phương pháp đào tạo có thể sử dụng dữ liệu phi cấu trúc và việc học tự nó xảy ra theo cách không được giám sát. Điều này có nghĩa là con người hoàn toàn không giúp phần mềm đào tạo.

Thuật toán sẽ học hỏi từ ngữ cảnh ngầm (không phải từ việc dán nhãn rõ ràng) cho dù một bức tranh nhất định có phải là của một con mèo hay không. Ví dụ: người dùng thông thường của một nền tảng có thể theo cách đặc biệt và tự phát đặt từ mèo trong mô tả ảnh của họ, từ mèo có thể có trong bài viết mà hình ảnh xuất hiện hoặc nếu đó là video, mọi người có thể nói từ mèo khi con mèo xuất hiện. Tất cả dữ liệu người dùng này tất nhiên là hoàn toàn không có cấu trúc (có nghĩa là lộn xộn) và thuật toán sẽ cần phải tìm ra con mèo là gì từ dữ liệu lộn xộn này.

Tất nhiên, có những lợi thế lớn tiềm năng đối với một thuật toán không được giám sát. Điều này có khả năng có nghĩa là một lượng lớn nỗ lực sẽ được tiết kiệm từ phía con người về mặt ghi nhãn và phân loại dữ liệu. Nó không phải là tầm thường (hoặc kích thích cho vấn đề đó) để dán nhãn chính xác một trăm nghìn hình ảnh của mèo.

Các vấn đề

Một vấn đề lớn với phương pháp tàu phi cấu trúc là nó cần nhiều dữ liệu hơn. Nếu dữ liệu không có sẵn, nó không thể được đào tạo theo cách này. Các phương pháp tiếp cận được giám sát cũng cần rất nhiều dữ liệu, vì vậy cũng gặp phải vấn đề tương tự.

Tất nhiên, đây là lý do tại sao mọi người đang tìm kiếm cơ hội ứng dụng AI hơn là áp dụng AI vào mọi thứ. Các thuật toán AI hoạt động tốt nhất khi có nhiều dữ liệu để đào tạo (hoặc chúng có thể tạo ra nhiều dữ liệu - trong trường hợp trò chơi).

Một vấn đề khác với cách tiếp cận không có cấu trúc, không giám sát là việc viết và kiểm tra thuật toán trên dữ liệu trong tay khó hơn nhiều. Thuật toán cần phải phức tạp hơn để xử lý dữ liệu phi cấu trúc hơn là nơi dữ liệu gọn gàng và được phân loại.

Một cách tiếp cận có giám sát bổ sung ý định của con người vào quá trình về cách phân loại dữ liệu tuy nhiên nó vẫn là một phương pháp đào tạo, một cách tiếp cận dữ liệu lớn. Con người với sự hiểu biết về các thuật toán có thể gắn nhãn dữ liệu và bằng cách đó, làm giảm công việc của thuật toán.

Phương pháp dữ liệu nhỏ

Có một phương thức là sự pha trộn giữa các phương thức mã và train mà tôi sẽ gọi là "phương thức dữ liệu nhỏ". Đây là cách tiếp cận dữ liệu nhỏ mà tôi đã ám chỉ trong tiêu đề. Có thể kết hợp cả mã và kỹ thuật đào tạo để giảm đáng kể lượng dữ liệu cần thiết để đào tạo một thuật toán.

Đối với phương thức dữ liệu nhỏ, nhà phát triển mã hóa một mô hình tương tác, nhưng sau đó mô hình này được đào tạo trên một tập dữ liệu nhỏ hơn nhiều so với yêu cầu đối với dữ liệu lớn được tiếp cận. Điều này dẫn đến mô hình được đào tạo nhanh hơn nhiều so với mức cần thiết với phương pháp đào tạo thuần túy.

Tất nhiên, cách tiếp cận dữ liệu nhỏ này sẽ có ý nghĩa nếu thời gian cần thiết để mã hóa mô hình và đào tạo dữ liệu ít hơn nhiều so với thời gian cần thiết để thu thập dữ liệu và đào tạo thuật toán.

Có những tình huống mà giải pháp dữ liệu nhỏ sẽ cho phép chúng tôi làm những việc hiện không khả thi. Phương thức dữ liệu nhỏ là phương pháp duy nhất có sẵn nếu dữ liệu cần thiết cho phương thức train không tồn tại ngay từ đầu. Trong trường hợp này, thuật toán cần được đào tạo trên dữ liệu được tạo thủ công. Thông thường không thực tế để tạo ra hàng chục ngàn hồ sơ bằng tay.

Cách tiếp cận dữ liệu nhỏ hiện đang được nghiên cứu bởi các công ty AI bao gồm: botpress.io, và tôi hy vọng nó sẽ trở thành một kỹ thuật chủ đạo trong những năm tới.

Chia sẻ điều này trên:

Xây dựng chatbot AI được cá nhân hóa của riêng bạn miễn phí

Bắt đầu xây dựng bot GPT được cá nhân hóa với giao diện kéo và thả trực quan của chúng tôi.

Bắt đầu - hoàn toàn miễn phí! 🤖

Không cần thẻ tín dụng

Luôn cập nhật thông tin mới nhất về AI chatbots

Tương lai của Big Data là Small Data

Phương thức mã

Phương pháp tàu hỏa

Các vấn đề

Phương pháp dữ liệu nhỏ

Những bài viết liên quan

Cách thêm quy trình làm việc nâng cao vào Trợ lý OpenAI của bạn trên Botpress

Cách tối ưu hóa chi phí chi tiêu AI trong Botpress

Làm thế nào một chatbot có thể tăng tạo khách hàng tiềm năng và tăng doanh số bán hàng cho doanh nghiệp của bạn

Xây dựng tốt hơn với Botpress