# تكامل مُقَدِّر تيك توكين #Tiktoken Estimator تقدير عدد الرموز الرمزية للنص باستخدام مكتبة tiktoken، مما يتيح عد الرموز الرمزية بدقة لنماذج OpenAI . ## الميزات - **عدّ دقيق للرموز الرمزية**: يستخدم مكتبة tiktoken الرسمية لتوفير تقديرات دقيقة للرموز المميزة - **دعم نماذج متعددة**: يدعم العديد من نماذج OpenAI المختلفة (gpt-3.5-turbo، gpt-4، إلخ). - **حدود الأمان**: فحص حد الأمان الاختياري لمنع التجاوزات في الرمز المميز - **تكوين صفري**: لا حاجة للإعداد - يعمل خارج الصندوق - **معالجة الأخطاء**: معالجة الأخطاء**: معالجة الأخطاء برشاقة مع رسائل وصفية ## الاستخدام ### تقدير إجراء الرموز التقديرية يوفر التكامل إجراءً واحدًا: 'تقدير الرموز' **معلمات الإدخال:** - 'النص' (مطلوب): النص المطلوب تقدير الرموز له - 'النموذج' (اختياري): نموذج OpenAI المراد استخدامه لترميز الرموز (الافتراضي هو "gpt-3.5-turbo") - 'حد الأمان' (اختياري): حد الأمان لتقدير عدد الرموز الرمزية. إذا تُرك فارغًا، فلن يتم تطبيق أي حد **الإخراج:** - 'عدد الرموز الرمزية': العدد المقدر للرموز في النص. - اسم الرمز المميز: اسم أداة الترميز المستخدمة - 'النموذج': النموذج الذي استند إليه الترميز - 'LimitExceeded': يُشير إلى ما إذا كان عدد الرموز المقدرة قد تجاوز حد الأمان (موجود فقط عند توفير حد الأمان) ### مثال على الاستخدام **الاستخدام الأساسي:** ``` النص: "مرحبًا أيها العالم!" النموذج: "gpt-3.5-turbo" النتيجـة - الرمز المميز 4 - اسم الرمز المميز: "tiktoken" - النموذج: "gpt-3.5-turbo" ``` **مع حد الأمان:** ``` النص: "هذا نص طويل قد يتجاوز حد الأمان..." الطراز: "gpt-3.5-turbo" حد الأمان: 10 النتيجـة - عدد الرمز المميز: 15 - اسم الرمز المميز: "tiktoken" - النموذج: "gpt-3.5-turbo" - تم تجاوز الحد: صحيح ``` ## النماذج المدعومة - 'gpt-3.5-turbo' - 'gpt-4' - 'gpt-4-turbo' - 'Text-davinci-003' - 'نص-دافينشي-002' - 'كود-دافينشي 002' - ونماذج OpenAI الأخرى التي يدعمها tiktoken ## حدود الأمان الموصى بها عند تعيين حدود الأمان، ضع في اعتبارك أن مكالماتك الفعلية لواجهة برمجة التطبيقات ستتضمن رموزًا إضافية لمطالبات النظام وسجل المحادثة وتوليد الردود. فيما يلي توصيات متحفظة: ### GPT.5-Turbo (حد 4,096 رمزًا مميزًا) - **محافظ**: 2,500 رمز مميز (يترك حوالي 1,600 رمز لمطالبات النظام + الاستجابة) - **معتدل**: 3000 رمز (يترك حوالي 1,100 رمز لمطالبات النظام + الاستجابة) - **عنيف**: 3,500 رمز (يترك حوالي 600 لمطالبات النظام + الاستجابة) ### GPT(حد 8,192 رمزًا مميزًا) - **متحفظ**: 5000 رمز مميز (يترك حوالي 3200 رمز لمطالبات النظام + الاستجابة) - **معتدل**: 6,000 رمز مميز (يترك حوالي 2,200 تقريبًا لمطالبات النظام + الاستجابة) - **عنيف**: 7,000 رمز مميز (يترك حوالي 1,200 لمطالبات النظام + الاستجابة) ### GPT Turbo (حد 128,000 رمز مميز) - **محافظ**: 100,000 رمز مميز (يترك حوالي 28,000 لمطالبات النظام + الاستجابة) - **معتدل**: 110,000 رمز مميز (يترك حوالي 18,000 لمطالبات النظام + الاستجابة) - **عنيف**: 120,000 رمز مميز (يترك حوالي 8,000 لمطالبات النظام + الاستجابة) **ملاحظة**: تفترض هذه التوصيات أحجام مطالبات النظام النموذجية (200-800 رمز مميز) وأطوال الاستجابة المطلوبة (500-2000 رمز مميز). اضبطها بناءً على حالة الاستخدام الخاصة بك. ## معالجة الأخطاء يعالج التكامل سيناريوهات الأخطاء المختلفة: - **إدخال غير صالح**: إرجاع رسائل خطأ واضحة للنص المفقود أو غير الصالح - **نص فارغ**: إرجاع 0 رموز للسلاسل الفارغة - **نموذج غير مدعوم**: إرجاع خطأ للنماذج غير المدعومة من قبل tiktoken - **أخطاء الترميز**: يعالج أخطاء مكتبة tiktoken برشاقة - **تحذيرات حد الأمان**: يسجل تحذيرات عندما يتجاوز عدد الرموز الرمزية حدود الأمان ## الفوائد - **تحسين التكلفة**: تقدير تكاليف الرمز المميز قبل إجراء مكالمات واجهة برمجة التطبيقات - **تحديد السعر**: إدارة ميزانيات التوكنات ومنع التجاوزات باستخدام حدود الأمان - **منطق سير العمل**: تمكين المنطق الشرطي بناءً على عدد الرموز وعتبات الأمان - **الشفافية**: الشفافية**: توفير رؤية واضحة لأنماط استخدام الرمز المميز - **المراقبة الاستباقية**: تعيين حدود الأمان لاكتشاف التجاوزات المحتملة للرموز في وقت مبكر