مستقبل البيانات الضخمة هو البيانات الصغيرة

جدول المحتويات

الخطوة 1. عنوان الخطوة يذهب هنا كما هو متوقع

تخيل أنك تريد إنشاء برنامج للقيام بمهمة. هناك طريقتان رئيسيتان للقيام بذلك وطريقة وسيطة واحدة.

طريقة التعليمات البرمجية

الطريقة الأولى هي برمجة البرنامج للقيام بالمهمة ، والتي سأسميها "طريقة الكود". في هذه الحالة ، تعرف جميع التفاعلات التي يمكن أن تحدث وتتوقعها في برنامجك. المثال الأساسي على ذلك هو تسلسل "إذا كان ثم" ، حيث تخبر الكمبيوتر ، إذا حدث هذا ، فقم بذلك. على سبيل المثال ، إذا تم النقر فوق هذا الزر ، فقم بإظهار هذه الشاشة.

لا تستخدم طريقة التعليمات البرمجية أي بيانات ولا تتضمن أي تدريب. يحدث التسلسل المبرمج بشكل حتمي ، بغض النظر عن البيانات. للتوضيح ، يمكن إنشاء البرامج باستخدام طريقة التعليمات البرمجية المكتوبة برمز فعلي أو باستخدام أدوات مرئية أو أدوات مماثلة.

طريقة القطار

الطريقة الثانية هي تدريب البرنامج على القيام بالمهمة باستخدام البيانات الضخمة ، والتي سأسميها "طريقة القطار". في هذه الحالة ، تكتب خوارزمية ، مثل شبكة عصبية ، للسماح بتدريب البرنامج على البيانات. ثم تطلق العنان للبرنامج على البيانات ويتعلم الكمبيوتر ، عبر حلقة التغذية الراجعة ، كيفية القيام بالمهمة. على سبيل المثال ، يمكنك تعليم البرنامج التعرف على القطط من خلال تدريبه على صور القطط.

طريقة القطار هي ، بالطبع ، جوهر الذكاء الاصطناعي. يعرف باسم نهج البيانات الضخمة لأنه كلما زادت بيانات التدريب عالية الجودة المتاحة ، كانت النتيجة أفضل. هناك حد أدنى من بيانات التدريب المطلوبة للحصول على نتائج معقولة.

في أنقى صورها ، يمكن لطريقة القطار استخدام بيانات غير منظمة ويحدث التعلم نفسه بطريقة غير خاضعة للإشراف. هذا يعني أن البشر لا يساعدون البرنامج في التدريب على الإطلاق.

ستتعلم الخوارزمية من السياق الضمني (وليس من وضع العلامات الصريحة) ما إذا كانت صورة معينة لقط أم لا. على سبيل المثال ، قد يضع المستخدمون العاديون لمنصة بطريقة مخصصة وعفوية كلمة قطة في وصف صورتهم ، وقد تكون كلمة قطة في المقالة التي تظهر فيها الصورة ، أو إذا كان مقطع فيديو ، فقد يقول الأشخاص كلمة قطة عندما تظهر القطة. كل بيانات المستخدم هذه بالطبع غير منظمة تماما (مما يعني فوضوي) ، وستحتاج الخوارزمية إلى معرفة ماهية القطة من هذه البيانات الفوضوية.

بالطبع ، هناك مزايا كبيرة محتملة لخوارزمية غير خاضعة للإشراف. هذا يعني أنه سيتم توفير قدر كبير من الجهد من جانب البشر من حيث تصنيف البيانات وتصنيفها. ليس من التافه (أو المحفز لهذه المسألة) تسمية مائة ألف صورة للقطط بدقة.

المشاكل

تتمثل إحدى المشكلات الرئيسية في طريقة القطار غير المهيكلة في أنها تحتاج إلى الكثير من البيانات. إذا لم تكن البيانات متوفرة ، فلا يمكن تدريبها بهذه الطريقة. تحتاج الأساليب الخاضعة للإشراف أيضا إلى الكثير من البيانات ، لذا تعاني من نفس المشكلة.

هذا ، بالطبع ، هو السبب الذي يجعل الناس يبحثون عن فرص لتطبيق الذكاء الاصطناعي بدلا من تطبيق الذكاء الاصطناعي على كل شيء. تعمل خوارزميات الذكاء الاصطناعي بشكل أفضل عندما يتوفر الكثير من البيانات للتدريب (أو يمكنها توليد الكثير من البيانات - في حالة الألعاب).

هناك مشكلة أخرى في النهج غير المنظم وغير الخاضع للإشراف وهي أنه من الصعب جدا كتابة واختبار الخوارزمية على البيانات المتوفرة. يجب أن تكون الخوارزمية أكثر تعقيدا للتعامل مع البيانات غير المهيكلة مما يجب أن تكون عليه حيث تكون البيانات مرتبة ومصنفة بشكل مرتب.

يضيف النهج الخاضع للإشراف نية بشرية إلى العملية من حيث كيفية تصنيف البيانات ، لكنها لا تزال طريقة قطار إلى حد كبير ، نهج البيانات الضخمة. يمكن للبشر الذين لديهم فهم للخوارزميات تسمية البيانات ومن خلال القيام بذلك ، تقليل عمل الخوارزمية.

طريقة البيانات الصغيرة

هناك طريقة عبارة عن مزيج بين طرق الكود والقطار والتي سأسميها "طريقة البيانات الصغيرة". هذا هو نهج البيانات الصغيرة الذي أشرت إليه في العنوان. من الممكن الجمع بين كل من تقنيات الكود والتدريب لتقليل كمية البيانات اللازمة لتدريب الخوارزمية بشكل كبير.

بالنسبة لطريقة البيانات الصغيرة ، يقوم المطور بترميز نموذج للتفاعلات ولكن بعد ذلك يتم تدريب هذا النموذج على مجموعة بيانات أصغر بكثير مما هو مطلوب للبيانات الضخمة التي يتم التعامل معها. ينتج عن هذا تدريب النموذج بشكل أسرع بكثير مما هو مطلوب باستخدام طريقة القطار النقية.

بالطبع سيكون نهج البيانات الصغيرة هذا منطقيا إذا كان الوقت اللازم لترميز النموذج وتدريب البيانات أقل بكثير من الوقت الذي سيستغرقه جمع البيانات وتدريب الخوارزمية.

هناك سيناريوهات يسمح لنا فيها حل البيانات الصغيرة بالقيام بأشياء غير ممكنة حاليا. طريقة البيانات الصغيرة هي الطريقة الوحيدة المتاحة إذا كانت البيانات المطلوبة لطريقة القطار غير موجودة في المقام الأول. في هذه الحالة ، يجب تدريب الخوارزمية على البيانات التي يتم إنشاؤها يدويا. ليس من العملي عادة إنشاء عشرات الآلاف من السجلات يدويا.

يتم حاليا البحث في نهج البيانات الصغيرة من قبل الذكاء الاصطناعي الشركات بما في ذلك botpress.io ، وأتوقع أن تصبح تقنية سائدة في السنوات القادمة.

شارك هذا على: