توکن‌ها و پنجره متن در API مدل‌های زبانی

وقتی با API مدل‌های زبانی کار می‌کنید، دو مفهوم کلیدی وجود داره که باید بشناسید: توکن و پنجره متن. این‌ها مستقیماً روی هزینه و محدودیت‌های استفاده از API تأثیر می‌ذارن.

توکن‌ها

توکن‌ها واحد پردازش متن در مدل‌های زبانی هستن. هر متنی که به API می‌فرستید، به توکن‌ها تقسیم میشه. برای مثال، یک متن فارسی معمولی به ازای هر ۴ کاراکتر تقریباً یک توکن مصرف می‌کنه.

تعدادی مثال تقریبی برای توکن‌ها:

کتاب

۱۲۰,۰۰۰

توکن برای یک کتاب ۳۰۰ صفحه‌ای

کد

۱,۵۰۰

توکن برای ۱۰۰ خط کد

مکالمه

۵۰۰

توکن برای یک مکالمه کوتاه

مقاله

۳,۰۰۰

توکن برای یک مقاله متوسط

قانون سرانگشتی برای تخمین تعداد توکن

متن انگلیسی: هر ۰.۷۵ کلمه = ۱ توکن
متن فارسی: هر ۴ کاراکتر = ۱ توکن (تقریبی)
اعداد: هر رقم = تقریباً ۰.۵ توکن
ایموجی‌ها: هر ایموجی = ۱-۲ توکن
فاصله‌ها و علائم نگارشی: معمولاً کمتر از ۱ توکن

پنجره متن (Context Window)

پنجره متن حداکثر تعداد توکن‌هایی هست که می‌تونید در یک درخواست API استفاده کنید، که شامل هم توکن‌های ورودی شما و هم توکن‌های خروجی مدل میشه. این محدودیت برای همه مدل‌ها متفاوته و باید در نظر گرفته بشه.

توکن‌های ورودی (پیام‌های شما)
توکن‌های خروجی (پاسخ مدل)
توکن‌های استدلال (توکن‌هایی که مدل برای تحلیل استفاده می‌کنه)

در درس بعدی درباره API مدل‌های زبانی، با مفهوم پیام‌ها و تاثیر آن‌ها بر پنجره متن بیشتر آشنا خواهیم شد.

محدودیت پنجره متن

اگر مجموع توکن‌ها از حد مجاز بیشتر بشه، با یکی از این مشکلات مواجه میشید:

خطای محدودیت توکن دریافت می‌کنید
پاسخ API ناقص میشه
مدل نمی‌تونه به درستی متن رو درک و پردازش کنه

مقایسه برخی مدل‌ها

GPT-4o-mini

پنجره متن: ۱۲۸ هزار توکن

مناسب برای پردازش اسناد طولانی و کارهای متوسط مثل پرسش و پاسخ ساده روی مستندات. می‌تونید تقریباً ۱۰۰ صفحه متن رو در یک درخواست پردازش کنید. با توجه به قیمت بسیار مناسب و مقرون به صرفه، گزینه خوبی برای کارهای روزمره و پروژه‌های متوسط هست.

Claude 3.5 Sonnet

پنجره متن: ۲۰۰ هزار توکن

برای استدلال و پروژه‌های پیچیده کد. با پنجره متن بزرگ، می‌تونه کل کدبیس رو تحلیل کنه. با توجه به قیمت بالای API، مناسب برای پروژه‌های سازمانی و تجاری هست.

DeepSeek

پنجره متن: ۳۲ هزار توکن

مناسب برای چت‌بات و متون متوسط. بهترین نسبت قیمت به کارایی رو داره.

تخمین هزینه

نحوه محاسبه هزینه API

هزینه ورودی = تعداد توکن‌های ورودی × قیمت هر هزار توکن
هزینه خروجی = تعداد توکن‌های خروجی × قیمت هر هزار توکن
معمولاً قیمت توکن‌های خروجی ۲ برابر توکن‌های ورودی است
برای محاسبه دقیق هزینه هر مدل می‌تونید از ماشین حساب صفحه مدل‌ها (models/) استفاده کنید

نکات کاربردی

۱. انتخاب مدل مناسب

برای انتخاب مدل مناسب، باید این موارد رو در نظر بگیرید:

نیازمندی‌های پروژه شما (پنجره متن، دقت، سرعت)
قیمت API برای توکن‌های ورودی و خروجی
حجم درخواست‌های روزانه و ماهانه
محدودیت‌های فنی و زیرساختی

۲. بهینه‌سازی مصرف توکن

حذف فضاهای خالی و فرمت‌های اضافی
استفاده از پرامپت‌های کوتاه و مؤثر
تقسیم متن‌های طولانی به بخش‌های کوچکتر
استفاده از ابزار تخمین توکن قبل از ارسال درخواست
بررسی دقیق قیمت‌گذاری مدل‌ها در صفحه مدل‌ها

رفرنس:

مستندات OpenAI