یک ادعای جسورانه، یا شاید هم نه؟
بیایید یک راست به سراغ اصل مطلب برویم: فراخوانی API در AvalAI از دسترسی مستقیم به OpenAI سریعتر است. نه، اشتباه تایپی نیست. مشکل فنی هم نداریم. و نه، از GPT برای نوشتن این مقاله استفاده نکردهایم (خب، شاید فقط کمی).
اعداد چه میگویند:
- اروپا: ۳۹٪ سریعتر (۰.۴۳۵ ثانیه در مقابل ۰.۷۱۷ ثانیه)
- خاورمیانه: ۴۴٪ سریعتر (۰.۶۶۸ ثانیه در مقابل ۱.۰۴۸ ثانیه)
- توان عملیاتی: ۷۷٪ بیشتر در هر دو منطقه
میدانیم به چه فکر میکنید: «یک واسط API دیگر که ادعا میکند از منبع اصلی سریعتر است.» ما هم وقتی برای اولین بار این اعداد را دیدیم، همین فکر را کردیم.
بخش «این با عقل جور در نمیآید»
صادق باشیم: طبق قوانین فیزیک، افزودن یک لایه میانی باید باعث کندی شود، نه سرعت. هر توسعهدهندهای که زمانی یک Reverse Proxy راهاندازی کرده باشد، این را میداند.
اما بیایید نگاهی به دادهها بیندازیم:
نتایج بنچمارک اروپا (مهر ۱۴۰۴)
┌─────────────────────┬──────────┬─────────┐
│ معیار │ OpenAI │ AvalAI │
├─────────────────────┼──────────┼─────────┤
│ میانه TTFB (ثانیه) │ 0.393 │ 0.685 │
└─────────────────────┴──────────┴─────────┘نتایج بنچمارک خاورمیانه (مهر ۱۴۰۴)
┌─────────────────────┬──────────┬─────────┐
│ معیار │ OpenAI │ AvalAI │
├─────────────────────┼──────────┼─────────┤
│ میانه TTFB (ثانیه) │ 0.668 │ 1.048 │
└─────────────────────┴──────────┴─────────┘خب، حالا که توجه شما را جلب کردیم، بیایید توضیح دهیم این اتفاق چگونه ممکن شده است.
شیرجهای در اعماق فنی (بخش خستهکننده اما حیاتی)
راز اول: استخر اتصالات (اصلی که همه میدانند، اما کمتر کسی اجرا میکند)
تصور کنید هر بار که میخواهید با OpenAI ارتباط برقرار کنید، باید این مراحل را طی کنید:
- TLS Handshake (حدود ۱۰۰-۲۰۰ میلیثانیه سربار)
- برقراری اتصال TCP
- احراز هویت
- ارسال درخواست
تکرار این فرآیند برای هر درخواست، مانند این است که برای خواندن هر فایل، کامپیوتر خود را راهاندازی مجدد کنید.
راه حل ما؟ ما همیشه یک «استخر اتصالات» گرم و آماده به OpenAI داریم. مانند یک خط تلفن مستقیم که هرگز قطع نمیشود.
# توسعهدهنده:
for request in requests:
connection = establish_connection() # ۱۰۰ms سربار
response = send_request(connection)
close_connection()
# AvalAI:
connection_pool = maintain_warm_connections() # همیشه آماده
for request in requests:
response = send_request(connection_pool.get()) # بدون سربار
راز دوم: حجم بالا = یک مزیت ذاتی
وقتی روزانه صدها هزار درخواست از API شما عبور میکند، یک اتفاق جالب رخ میدهد: اتصالات شما هرگز «سرد» نمیشوند. OpenAI ما را میشناسد، سرورهایش برای ما آمادهاند و همه چیز روان پیش میرود.
اما یک توسعهدهنده مستقل؟ او باید هر بار از ابتدا شروع کند.
راز سوم: بهینهسازیهای طاقتفرسا (که واقعا کار میکنند)
در سه ماه گذشته، تیم ما:
- هر میلیثانیه سربار (Overhead) را شناسایی و حذف کرد.
- لایه شبکه را بهینهسازی کرد.
- مسیریابی را تنظیم کرد.
- کدی را که ۵ میلیثانیه بیشتر زمان میبرد، بهسازی (Refactor) کرد.
میدانیم، خیلی هیجانانگیز به نظر نمیرسد. اما همین کارهای به ظاهر کوچک، تفاوتهای بزرگ را رقم میزنند.
پیچش داستان: چرا تجمیعکنندهها (قاعدتا) باید کندتر باشند؟
بیایید بررسی کنیم: چرا همه تصور میکنند استفاده از یک واسطه باید کندتر باشد؟
باور رایج:
- یک گام (Hop) اضافی = تاخیر بیشتر
- یک لایه پردازش اضافی = سربار (Overhead)
- منطقی به نظر میرسد، درست است؟
واقعیت فنی:
- اگر تجمیعکننده شما استخر اتصالات داشته باشد و شما نداشته باشید ← تجمیعکننده سریعتر است.
- اگر تجمیعکننده شما در همان دیتاسنتر ارائهدهنده باشد ← تجمیعکننده سریعتر است.
- اگر تجمیعکننده شما روزانه میلیونها درخواست را پردازش کند ← تجمیعکننده بهینهتر است.
و اما بخش طعنهآمیز ماجرا: بیشتر توسعهدهندگان به درستی استخر اتصالات را پیادهسازی نمیکنند. چرا؟ چون کار خستهکنندهای است و بسته توسعه نرمافزار (SDK) پیشفرض OpenAI آنقدرها هم که فکر میکنید، هوشمند نیست.
چالش «خودتان امتحان کنید»
اینجا بخش جالب ماجراست: ما کاملا شفاف هستیم. اگر فکر میکنید بلوف میزنیم، این شما و این اسکریپت:
import os
import requests
import time
import numpy as np
import matplotlib.pyplot as plt
import json
from tabulate import tabulate
from tqdm import tqdm
from datetime import datetime
import seaborn as sns
def test_api_performance(
api_name, api_url, api_key, model, num_requests=10, prompt="Say hi"
):
"""Test API performance and collect comprehensive metrics"""
headers = {"Content-Type": "application/json", "Authorization": f"Bearer {api_key}"}
data = {"model": model, "messages": [{"role": "user", "content": prompt}]}
ttfb_times = []
total_times = []
token_counts = []
tokens_per_second = []
errors = 0
print(f"Testing {api_name} API with {num_requests} requests...")
for _ in tqdm(range(num_requests)):
try:
start_time = time.time()
response = requests.post(
api_url, headers=headers, json=data, timeout=(10, 30)
)
response_time = time.time()
# Process the response
response_json = response.json()
end_time = time.time()
# Calculate metrics
ttfb = response_time - start_time
total_time = end_time - start_time
# Try to get token count if available
try:
usage = response_json.get("usage", {})
total_tokens = usage.get("total_tokens", 0)
completion_tokens = usage.get("completion_tokens", 0)
token_counts.append(total_tokens)
# Calculate tokens per second (using completion tokens)
if completion_tokens > 0 and total_time > 0:
tokens_per_second.append(completion_tokens / total_time)
else:
tokens_per_second.append(0)
except Exception as e:
token_counts.append(0)
tokens_per_second.append(0)
ttfb_times.append(ttfb)
total_times.append(total_time)
# Add a small delay to avoid rate limiting
time.sleep(0.5)
except Exception as e:
print(f"Error on request: {e}")
errors += 1
return {
"name": api_name,
"url": api_url,
"model": model,
"average_ttfb": np.mean(ttfb_times) if ttfb_times else None,
"median_ttfb": np.median(ttfb_times) if ttfb_times else None,
"p95_ttfb": np.percentile(ttfb_times, 95) if ttfb_times else None,
"average_total": np.mean(total_times) if total_times else None,
"median_total": np.median(total_times) if total_times else None,
"p95_total": np.percentile(total_times, 95) if total_times else None,
"ttfb_times": ttfb_times,
"total_times": total_times,
"token_counts": token_counts,
"avg_tokens": (
np.mean(token_counts) if token_counts and any(token_counts) else None
),
"tokens_per_second": tokens_per_second,
"avg_tokens_per_second": (
np.mean([t for t in tokens_per_second if t > 0])
if tokens_per_second and any(tokens_per_second)
else None
),
"median_tokens_per_second": (
np.median([t for t in tokens_per_second if t > 0])
if tokens_per_second and any(tokens_per_second)
else None
),
"success_rate": (
len(ttfb_times) / (len(ttfb_times) + errors)
if (len(ttfb_times) + errors) > 0
else 0
),
"error_count": errors,
}
def print_comparison_table(results_avalai, results_openai):
"""Print comparison table between two APIs"""
headers = [
"Metric",
f"AvalAI ({results_avalai['model']})",
f"OpenAI ({results_openai['model']})",
]
data = [
[
"Average TTFB (s)",
f"{results_avalai['average_ttfb']:.3f}",
f"{results_openai['average_ttfb']:.3f}",
],
[
"Median TTFB (s)",
f"{results_avalai['median_ttfb']:.3f}",
f"{results_openai['median_ttfb']:.3f}",
],
[
"95th Percentile TTFB (s)",
f"{results_avalai['p95_ttfb']:.3f}",
f"{results_openai['p95_ttfb']:.3f}",
],
[
"Average Total Time (s)",
f"{results_avalai['average_total']:.3f}",
f"{results_openai['average_total']:.3f}",
],
[
"Median Total Time (s)",
f"{results_avalai['median_total']:.3f}",
f"{results_openai['median_total']:.3f}",
],
[
"95th Percentile Total (s)",
f"{results_avalai['p95_total']:.3f}",
f"{results_openai['p95_total']:.3f}",
],
[
"Success Rate",
f"{results_avalai['success_rate']:.2%}",
f"{results_openai['success_rate']:.2%}",
],
]
# Add token metrics if available
if (
results_avalai["avg_tokens"] is not None
and results_openai["avg_tokens"] is not None
):
data.append(
[
"Avg Tokens per Response",
f"{results_avalai['avg_tokens']:.1f}",
f"{results_openai['avg_tokens']:.1f}",
]
)
# Add tokens per second metrics if available
if (
results_avalai["avg_tokens_per_second"] is not None
and results_openai["avg_tokens_per_second"] is not None
):
data.append(
[
"Avg Tokens per Second",
f"{results_avalai['avg_tokens_per_second']:.1f}",
f"{results_openai['avg_tokens_per_second']:.1f}",
]
)
data.append(
[
"Median Tokens per Second",
f"{results_avalai['median_tokens_per_second']:.1f}",
f"{results_openai['median_tokens_per_second']:.1f}",
]
)
print("\nAPI Performance Comparison:")
print(tabulate(data, headers=headers, tablefmt="grid"))
def plot_comparison(results_avalai, results_openai, output_file=None):
"""Create improved visualization plots for API comparison"""
# Set the style
sns.set(style="whitegrid")
# Create figure with subplots - adding a third subplot for tokens per second
fig, axes = plt.subplots(3, 1, figsize=(12, 15))
# Define metrics to plot
metrics = [
("ttfb_times", "Time to First Byte (s)"),
("total_times", "Total Request Time (s)"),
("tokens_per_second", "Tokens per Second"),
]
# Define colors for each API
colors = {"AvalAI": "#3498db", "OpenAI": "#2ecc71"}
for i, (metric, title) in enumerate(metrics):
# Create violin plots with individual points
ax = axes[i]
# Prepare data for plotting
data_to_plot = []
labels = []
for result, label in [(results_avalai, "AvalAI"), (results_openai, "OpenAI")]:
# Filter out zeros for tokens per second
if metric == "tokens_per_second":
data_to_plot.append([t for t in result[metric] if t > 0])
else:
data_to_plot.append(result[metric])
labels.append(f"{label}\n({result['model']})")
# Create violin plot
parts = ax.violinplot(data_to_plot, showmeans=True, showmedians=True)
# Customize violin plots
for pc, color_key in zip(parts["bodies"], colors.keys()):
pc.set_facecolor(colors[color_key])
pc.set_alpha(0.7)
# Add boxplot inside violin
bp = ax.boxplot(
data_to_plot,
positions=range(1, len(data_to_plot) + 1),
widths=0.15,
patch_artist=True,
showfliers=False,
)
# Customize boxplots
for box, color_key in zip(bp["boxes"], colors.keys()):
box.set(color="black", linewidth=1.5)
box.set(facecolor="white")
# Add scatter points with jitter
for j, data in enumerate(
[
(
results_avalai[metric]
if metric != "tokens_per_second"
else [t for t in results_avalai[metric] if t > 0]
),
(
results_openai[metric]
if metric != "tokens_per_second"
else [t for t in results_openai[metric] if t > 0]
),
]
):
# Add jitter to x position
x = np.random.normal(j + 1, 0.05, size=len(data))
ax.scatter(
x,
data,
alpha=0.4,
s=20,
color=list(colors.values())[j],
edgecolor="white",
linewidth=0.5,
)
# Set labels and title
ax.set_title(title, fontsize=14, fontweight="bold")
if metric == "tokens_per_second":
ax.set_ylabel("Tokens/second", fontsize=12)
else:
ax.set_ylabel("Time (seconds)", fontsize=12)
ax.set_xticks(range(1, len(labels) + 1))
ax.set_xticklabels(labels, fontsize=12)
# Add horizontal grid lines
ax.yaxis.grid(True, linestyle="--", alpha=0.7)
# Add stats as text
for j, (result, label) in enumerate(
[(results_avalai, "AvalAI"), (results_openai, "OpenAI")]
):
if metric == "tokens_per_second":
if result["avg_tokens_per_second"] is not None:
stats = (
f"Mean: {result['avg_tokens_per_second']:.1f}\n"
f"Median: {result['median_tokens_per_second']:.1f}"
)
max_val = (
max([t for t in result[metric] if t > 0])
if any(t > 0 for t in result[metric])
else 0
)
ax.annotate(
stats,
xy=(j + 1, max_val * 1.05),
ha="center",
va="bottom",
fontsize=10,
bbox=dict(boxstyle="round,pad=0.5", fc="white", alpha=0.7),
)
else:
stats = (
f"Mean: {result[f'average_{metric.split("_")[0]}']:.3f}s\n"
f"Median: {result[f'median_{metric.split("_")[0]}']:.3f}s\n"
f"95th: {result[f'p95_{metric.split("_")[0]}']:.3f}s"
)
ax.annotate(
stats,
xy=(j + 1, result[f'p95_{metric.split("_")[0]}'] * 1.05),
ha="center",
va="bottom",
fontsize=10,
bbox=dict(boxstyle="round,pad=0.5", fc="white", alpha=0.7),
)
# Add title and timestamp
plt.suptitle(
f"API Performance Comparison: AvalAI vs OpenAI", fontsize=16, fontweight="bold"
)
plt.figtext(
0.5,
0.01,
f'Generated on {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}',
ha="center",
fontsize=10,
)
plt.tight_layout(rect=[0, 0.03, 1, 0.97])
if output_file:
plt.savefig(output_file, dpi=300, bbox_inches="tight")
print(f"Plot saved to {output_file}")
else:
plt.show()
def save_results(results_avalai, results_openai, filename):
"""Save results to JSON file"""
# Convert numpy arrays to lists for JSON serialization
results_avalai_copy = results_avalai.copy()
results_openai_copy = results_openai.copy()
for key in ["ttfb_times", "total_times", "token_counts"]:
if key in results_avalai_copy:
results_avalai_copy[key] = [float(x) for x in results_avalai_copy[key]]
if key in results_openai_copy:
results_openai_copy[key] = [float(x) for x in results_openai_copy[key]]
data = {
"timestamp": time.strftime("%Y-%m-%d %H:%M:%S"),
"results": {"avalai": results_avalai_copy, "openai": results_openai_copy},
}
with open(filename, "w") as f:
json.dump(data, f, indent=2)
print(f"Results saved to {filename}")
def main():
# API configuration
model_name = "gpt-4o-mini"
url_avalai = "https://api.avalai.ir/v1/chat/completions"
api_key_avalai = os.getenv("AVALAI_API_KEY") # Replace with actual key
url_openai = "https://api.openai.com/v1/chat/completions"
api_key_openai = os.getenv("OPENAI_API_KEY") # Replace with actual key
# Number of requests to make for each API
num_requests = 60
# Test prompt
prompt = "Say hi"
# Run the tests
results_avalai = test_api_performance(
"AvalAI", url_avalai, api_key_avalai, model_name, num_requests, prompt
)
results_openai = test_api_performance(
"OpenAI", url_openai, api_key_openai, model_name, num_requests, prompt
)
# Print comparison table
print_comparison_table(results_avalai, results_openai)
# Generate visualization
plot_comparison(results_avalai, results_openai, "api_performance_comparison.png")
# Save results
save_results(results_avalai, results_openai, "api_performance_results.json")
if __name__ == "__main__":
main()
چالش واقعی: اگر نتایج متفاوتی به دست آوردید، به ما بگویید. ما تمام تستهای خود را عمومی کردهایم؛ شما نیز همین کار را بکنید.
فلسفه ما: چرا این برایمان مهم است؟
بگذارید یک چیز را روشن کنیم: ما yet another api aggregator نیستیم.
کارهایی که ما انجام نمیدهیم:
- ❌ افزودن کارمزد به قیمت ارائهدهندگان
- ❌ تبلیغات تهاجمی و وعدههای توخالی
- ❌ ارائه ویژگیهای بیفایده
- ❌ قولهای بیاساس (البته تنظیم دقیق و دستیار را قول دادهایم!)
کارهایی که ما انجام میدهیم:
- ✅ قیمتگذاری ۱۰۰٪ مطابق با ارائهدهنده
- ✅ بهینهسازی مداوم کارایی
- ✅ شفافیت کامل در آزمونهای عملکرد
- ✅ تمرکز بر ارائه تجربهای در سطح سازمانی
واقعیت تلخ: بازار پر از تجمیعکنندههای API است که کارمزد دریافت میکنند و ارزش افزوده واقعی ارائه نمیدهند. ما تصمیم گرفتیم مسیر دیگری را برویم.
حرف آخر: چرا باید باور کنید؟
شما نباید به حرف ما اعتماد کنید. باید به کد اعتماد کنید.
- تمام آزمونهای عملکرد ما عمومی هستند.
- اسکریپت تست در دسترس همگان است.
- هیچ دادهای را دستچین نکردهایم.
- نتایج از دو منطقه و دو زمان مختلف به دست آمدهاند.
اگر تجمیعکننده بودن به معنای کندتر بودن بود، ما اکنون این مطلب را نمینوشتیم.
سؤال بحثبرانگیز: پس چرا همه این کار را انجام نمیدهند؟
خب، این سؤال خوبی است. چرا هر واسط API نمیتواند این کار را انجام دهد؟
پاسخ ساده: چون کار سختی است. خستهکننده است و نیازمند:
- نگهداری از استخرهای اتصالات پیچیده
- نظارت مداوم
- بهینهسازیهای موشکافانه
- صبر و حوصله برای یافتن هر میلیثانیه سربار
پاسخ پیچیدهتر: چون بیشتر تجمیعکنندهها بر روی چیزهای دیگری تمرکز کردهاند (مانند دریافت هزینه اضافی بیشتر).
ما تصمیم گرفتیم بر روی کارایی تمرکز کنیم. و حالا… خب، اعداد خودشان گویا هستند.
دعوت به گفتگو
این مطلب برای ایجاد گفتگو نوشته شده است. میدانیم که ادعاهای جسورانهای را مطرح میکند. از شما میخواهیم:
- تست کنید: اسکریپت را اجرا کرده و خودتان نتایج را ببینید.
- سؤال بپرسید: اگر شک دارید، بپرسید.
- به چالش بکشید: اگر نتایج متفاوتی گرفتید، به ما اطلاع دهید.
- بحث کنید: آیا یک تجمیعکننده میتواند سریعتر از دسترسی مستقیم باشد؟
تنها یک درخواست داریم: در هنگام بحث، به دادهها نگاه کنید، نه فقط به فرضیات.
لینکهای مرتبط
پینوشت
اگر این مطلب شما را عصبانی کرد یا فکر میکنید حرف بیاساسی زدهایم، عالی است! دقیقا همین را میخواستیم. حالا بیایید با دادهها صحبت کنیم، نه با پیشفرضها.
و اگر فکر میکنید این تستها دستکاری شده یا گزینشی هستند، کد تست را بردارید، خودتان اجرا کنید و نتایج را به اشتراک بگذارید.
ما اینجا منتظریم. ☕
نویسنده: تیم فنی AvalAI تاریخ: ۱۴۰۴/۰۷/۲۰
پینوشت دوم: اگر تا اینجا خواندهاید و هنوز شک دارید، عالی است! شک کردن خوب است. حالا بروید و تست کنید 😉
