स्थानीय हार्डवेयरमा चल्ने उत्पादन-तयार एज एआई अनुप्रयोगहरू निर्माण गर्नको लागि व्यावहारिक सिकाइ मार्ग
Microsoft Foundry Local को साथ स्थानीय एआई परिनियोजनमा मास्टर गर्नुहोस्, पहिलो च्याट कम्प्लिशनदेखि बहु-एजेन्ट समन्वयसम्म ६ प्रगतिशील सत्रहरूमा।
एज एआईका शुरुवातकर्ताहरूको कार्यशालामा स्वागत छ - स्थानीय हार्डवेयरमा पूर्ण रूपमा चल्ने बुद्धिमान अनुप्रयोगहरू निर्माण गर्नको लागि तपाईंको व्यावहारिक, हात-मा आधारित मार्गदर्शन। यो कार्यशालाले Microsoft Foundry Local र साना भाषा मोडेलहरू (SLMs) प्रयोग गरेर क्रमिक चुनौतीपूर्ण अभ्यासहरू मार्फत सैद्धान्तिक एज एआई अवधारणाहरूलाई वास्तविक संसारको सीपमा रूपान्तरण गर्दछ।
एज एआई क्रान्ति यहाँ छ
विश्वभरका संगठनहरू तीन महत्वपूर्ण कारणहरूको लागि क्लाउड-निर्भर एआईबाट एज कम्प्युटिङमा सर्दैछन्:
- गोपनीयता र अनुपालन - संवेदनशील डाटा स्थानीय रूपमा प्रक्रिया गर्नुहोस् क्लाउड ट्रान्समिशन बिना (HIPAA, GDPR, वित्तीय नियमहरू)
- प्रदर्शन - नेटवर्क विलम्बता हटाउनुहोस् (५०-५००ms स्थानीय बनाम ५००-२०००ms क्लाउड राउन्ड-ट्रिप)
- खर्च नियन्त्रण - प्रति-टोकन API लागत हटाउनुहोस् र क्लाउड खर्च बिना स्केल गर्नुहोस्
तर एज एआई फरक छ
स्थानीय रूपमा एआई चलाउन नयाँ सीपहरूको आवश्यकता पर्छ:
- स्रोत सीमाहरूको लागि मोडेल चयन र अनुकूलन
- स्थानीय सेवा व्यवस्थापन र हार्डवेयर एक्सेलेरेशन
- साना मोडेलहरूको लागि प्रम्प्ट इन्जिनियरिङ
- एज उपकरणहरूको लागि उत्पादन परिनियोजन ढाँचाहरू
यो कार्यशालाले ती सीपहरू प्रदान गर्दछ
६ केन्द्रित सत्रहरू (~३ घण्टा कुल), तपाईं "हेलो वर्ल्ड" बाट उत्पादन-तयार बहु-एजेन्ट प्रणालीहरू परिनियोजन गर्न प्रगति गर्नुहुनेछ - सबै स्थानीय रूपमा तपाईंको मेसिनमा चल्दै।
यो कार्यशाला पूरा गरेर, तपाईं सक्षम हुनुहुनेछ:
-
स्थानीय एआई सेवाहरू परिनियोजन र व्यवस्थापन गर्नुहोस्
- Microsoft Foundry Local स्थापना र कन्फिगर गर्नुहोस्
- एज परिनियोजनको लागि उपयुक्त मोडेलहरू चयन गर्नुहोस्
- मोडेल जीवनचक्र व्यवस्थापन गर्नुहोस् (डाउनलोड, लोड, क्यास)
- स्रोत उपयोगको निगरानी गर्नुहोस् र प्रदर्शन अनुकूलन गर्नुहोस्
-
एआई-संचालित अनुप्रयोगहरू निर्माण गर्नुहोस्
- स्थानीय रूपमा OpenAI-संगत च्याट कम्प्लिशनहरू कार्यान्वयन गर्नुहोस्
- साना भाषा मोडेलहरूको लागि प्रभावकारी प्रम्प्टहरू डिजाइन गर्नुहोस्
- राम्रो UX को लागि स्ट्रिमिङ प्रतिक्रियाहरू ह्यान्डल गर्नुहोस्
- स्थानीय मोडेलहरूलाई विद्यमान अनुप्रयोगहरूमा एकीकृत गर्नुहोस्
-
RAG (Retrieval Augmented Generation) प्रणालीहरू सिर्जना गर्नुहोस्
- एम्बेडिङको साथ सेम्यान्टिक खोज निर्माण गर्नुहोस्
- LLM प्रतिक्रियाहरूलाई डोमेन-विशिष्ट ज्ञानमा आधार बनाउनुहोस्
- उद्योग-मानक मेट्रिक्सको साथ RAG गुणस्तर मूल्यांकन गर्नुहोस्
- प्रोटोटाइपबाट उत्पादनमा स्केल गर्नुहोस्
-
मोडेल प्रदर्शन अनुकूलन गर्नुहोस्
- तपाईंको प्रयोग केसको लागि धेरै मोडेलहरूको बेंचमार्क गर्नुहोस्
- विलम्बता, थ्रूपुट, र पहिलो-टोकन समय मापन गर्नुहोस्
- गति/गुणस्तर व्यापार-अफहरूमा आधारित उपयुक्त मोडेलहरू चयन गर्नुहोस्
- वास्तविक परिदृश्यहरूमा SLM बनाम LLM व्यापार-अफहरूको तुलना गर्नुहोस्
-
बहु-एजेन्ट प्रणालीहरू समन्वय गर्नुहोस्
- विभिन्न कार्यहरूको लागि विशेष एजेन्टहरू डिजाइन गर्नुहोस्
- एजेन्ट मेमोरी र सन्दर्भ व्यवस्थापन कार्यान्वयन गर्नुहोस्
- जटिल कार्यप्रवाहहरूमा एजेन्टहरू समन्वय गर्नुहोस्
- धेरै मोडेलहरूमा अनुरोधहरू बुद्धिमानीपूर्वक रुट गर्नुहोस्
-
उत्पादन-तयार समाधानहरू परिनियोजन गर्नुहोस्
- त्रुटि ह्यान्डलिङ र पुन: प्रयास तर्क कार्यान्वयन गर्नुहोस्
- टोकन उपयोग र प्रणाली स्रोतहरूको निगरानी गर्नुहोस्
- मोडेल-को-टूल्स ढाँचाहरूको साथ स्केलेबल आर्किटेक्चरहरू निर्माण गर्नुहोस्
- एजबाट हाइब्रिड (एज + क्लाउड) मा माइग्रेशन मार्गहरू योजना गर्नुहोस्
यो कार्यशाला समाप्त गर्दा, तपाईंले निम्न निर्माण गर्नुभएको हुनेछ:
| सत्र | डेलिभरेबल | प्रदर्शन गरिएको सीपहरू |
|---|---|---|
| १ | स्ट्रिमिङको साथ च्याट अनुप्रयोग | सेवा सेटअप, आधारभूत कम्प्लिशनहरू, स्ट्रिमिङ UX |
| २ | मूल्यांकनको साथ RAG प्रणाली | एम्बेडिङ, सेम्यान्टिक खोज, गुणस्तर मेट्रिक्स |
| ३ | बहु-मोडेल बेंचमार्क सुइट | प्रदर्शन मापन, मोडेल तुलना |
| ४ | SLM बनाम LLM तुलना | व्यापार-अफ विश्लेषण, अनुकूलन रणनीतिहरू |
| ५ | बहु-एजेन्ट समन्वयकर्ता | एजेन्ट डिजाइन, मेमोरी व्यवस्थापन, समन्वय |
| ६ | बुद्धिमान रुटिङ प्रणाली | उद्देश्य पत्ता लगाउने, मोडेल चयन, स्केलेबिलिटी |
| सीप स्तर | सत्र १-२ | सत्र ३-४ | सत्र ५-६ |
|---|---|---|---|
| शुरुवातकर्ता | ✅ सेटअप र आधारभूत | ❌ धेरै उन्नत | |
| मध्यम स्तर | ✅ छिटो समीक्षा | ✅ मुख्य सिकाइ | |
| उन्नत | ✅ सजिलै पार गर्नुहोस् | ✅ परिष्करण | ✅ उत्पादन ढाँचाहरू |
यो कार्यशाला पछि, तपाईं तयार हुनुहुनेछ:
✅ गोपनीयता-प्रथम अनुप्रयोगहरू निर्माण गर्नुहोस्
- PHI/PII स्थानीय रूपमा ह्यान्डल गर्ने स्वास्थ्य सेवा अनुप्रयोगहरू
- अनुपालन आवश्यकताहरूको साथ वित्तीय सेवाहरू
- डाटा सार्वभौमिकता आवश्यकताहरूको साथ सरकारी प्रणालीहरू
✅ एज वातावरणहरूको लागि अनुकूलन गर्नुहोस्
- सीमित स्रोतहरू भएका IoT उपकरणहरू
- अफलाइन-प्रथम मोबाइल अनुप्रयोगहरू
- कम-विलम्बता वास्तविक-समय प्रणालीहरू
✅ बुद्धिमान आर्किटेक्चरहरू डिजाइन गर्नुहोस्
- जटिल कार्यप्रवाहहरूको लागि बहु-एजेन्ट प्रणालीहरू
- हाइब्रिड एज-क्लाउड परिनियोजनहरू
- लागत-अप्टिमाइज्ड एआई पूर्वाधार
✅ एज एआई पहलहरू नेतृत्व गर्नुहोस्
- परियोजनाहरूको लागि एज एआई सम्भाव्यता मूल्यांकन गर्नुहोस्
- उपयुक्त मोडेलहरू र फ्रेमवर्कहरू चयन गर्नुहोस्
- स्केलेबल स्थानीय एआई समाधानहरू आर्किटेक्ट गर्नुहोस्
| सत्र | विषय | फोकस | अवधि |
|---|---|---|---|
| १ | Foundry Local को साथ सुरु गर्दै | स्थापना, मान्यकरण, पहिलो कम्प्लिशनहरू | ३० मिनेट |
| २ | RAG को साथ एआई समाधानहरू निर्माण गर्दै | प्रम्प्ट इन्जिनियरिङ, एम्बेडिङ, मूल्यांकन | ३० मिनेट |
| ३ | ओपन सोर्स मोडेलहरू | मोडेल खोज, बेंचमार्किङ, चयन | ३० मिनेट |
| ४ | अत्याधुनिक मोडेलहरू | SLM बनाम LLM, अनुकूलन, फ्रेमवर्कहरू | ३० मिनेट |
| ५ | एआई-संचालित एजेन्टहरू | एजेन्ट डिजाइन, समन्वय, मेमोरी | ३० मिनेट |
| ६ | टूलको रूपमा मोडेलहरू | रुटिङ, चेनिङ, स्केलिङ रणनीतिहरू | ३० मिनेट |
सिस्टम आवश्यकताहरू:
- OS: Windows 10/11, macOS 11+, वा Linux (Ubuntu 20.04+)
- RAM: न्यूनतम ८GB, १६GB+ सिफारिस गरिएको
- स्टोरेज: मोडेलहरूको लागि १०GB+ खाली ठाउँ
- CPU: AVX2 समर्थन भएको आधुनिक प्रोसेसर
- GPU (वैकल्पिक): CUDA-संगत वा Qualcomm NPU एक्सेलेरेशनको लागि
सफ्टवेयर आवश्यकताहरू:
- Python 3.8+ (डाउनलोड)
- Microsoft Foundry Local (स्थापना गाइड)
- Git (डाउनलोड)
- Visual Studio Code (सिफारिस गरिएको) (डाउनलोड)
Windows:
winget install Microsoft.FoundryLocalmacOS:
brew tap microsoft/foundrylocal
brew install foundrylocalस्थापना प्रमाणित गर्नुहोस्:
foundry --version
foundry service statusAzure AI Foundry Local निश्चित पोर्टको साथ चलिरहेको छ भनेर सुनिश्चित गर्नुहोस्
# Set FoundryLocal to use port 58123 (default)
foundry service set --port 58123 --show
# Or use a different port
foundry service set --port 58000 --showयो काम गरिरहेको छ भनेर प्रमाणित गर्नुहोस्:
# Check service status
foundry service status
# Test the endpoint
curl http://127.0.0.1:58123/v1/modelsउपलब्ध मोडेलहरू फेला पार्दै तपाईंको Foundry Local इन्स्ट्यान्समा उपलब्ध मोडेलहरू हेर्नको लागि, तपाईं मोडेल्स एन्डप्वाइन्ट सोध्न सक्नुहुन्छ:
# cmd/bash/powershell
foundry model listवेब एन्डप्वाइन्ट प्रयोग गर्दै
# Windows PowerShell
powershell -Command "Invoke-RestMethod -Uri 'http://127.0.0.1:58123/v1/models' -Method Get"
# Or using curl (if available)
curl http://127.0.0.1:58123/v1/models# Clone repository
git clone https://github.com/microsoft/edgeai-for-beginners.git
cd edgeai-for-beginners/Workshop
# Create virtual environment
python -m venv .venv
# Activate virtual environment
# Windows:
.\.venv\Scripts\activate
# macOS/Linux:
source .venv/bin/activate
# Install dependencies
pip install -r requirements.txt# Start Foundry Local and load a model
foundry model run phi-4-mini
# Run the chat bootstrap sample
cd samples
python -m session01.chat_bootstrap "What is edge AI?"✅ सफल! तपाईंले एज एआईको बारेमा स्ट्रिमिङ प्रतिक्रिया देख्नुपर्छ।
प्रत्येक अवधारणालाई प्रदर्शन गर्ने प्रगतिशील हात-मा आधारित उदाहरणहरू:
| सत्र | नमूना | विवरण | चलाउने समय |
|---|---|---|---|
| १ | chat_bootstrap.py |
आधारभूत र स्ट्रिमिङ च्याट | ~३० सेकेन्ड |
| २ | rag_pipeline.py |
एम्बेडिङको साथ RAG | ~४५ सेकेन्ड |
| २ | rag_eval_ragas.py |
RAG गुणस्तर मूल्यांकन | ~६० सेकेन्ड |
| ३ | benchmark_oss_models.py |
बहु-मोडेल बेंचमार्किङ | ~२-३ मिनेट |
| ४ | model_compare.py |
SLM बनाम LLM तुलना | ~४५ सेकेन्ड |
| ५ | agents_orchestrator.py |
बहु-एजेन्ट प्रणाली | ~६० सेकेन्ड |
| ६ | models_router.py |
उद्देश्य-आधारित रुटिङ | ~४५ सेकेन्ड |
| ६ | models_pipeline.py |
बहु-चरण पाइपलाइन | ~६० सेकेन्ड |
व्याख्या र दृश्यहरूको साथ अन्तरक्रियात्मक अन्वेषण:
| सत्र | नोटबुक | विवरण | कठिनाई |
|---|---|---|---|
| १ | session01_chat_bootstrap.ipynb |
च्याट आधारभूत र स्ट्रिमिङ | ⭐ शुरुवातकर्ता |
| २ | session02_rag_pipeline.ipynb |
RAG प्रणाली निर्माण गर्नुहोस् | ⭐⭐ मध्यम |
| २ | session02_rag_eval_ragas.ipynb |
RAG गुणस्तर मूल्यांकन गर्नुहोस् | ⭐⭐ मध्यम |
| ३ | session03_benchmark_oss_models.ipynb |
मोडेल बेंचमार्किङ | ⭐⭐ मध्यम |
| ४ | session04_model_compare.ipynb |
मोडेल तुलना | ⭐⭐ मध्यम |
| ५ | session05_agents_orchestrator.ipynb |
एजेन्ट समन्वय | ⭐⭐⭐ उन्नत |
| ६ | session06_models_router.ipynb |
उद्देश्य रुटिङ | ⭐⭐⭐ उन्नत |
| ६ | session06_models_pipeline.ipynb |
पाइपलाइन समन्वय | ⭐⭐⭐ उन्नत |
व्यापक मार्गदर्शन र सन्दर्भहरू:
| दस्तावेज | विवरण | प्रयोग गर्दा |
|---|---|---|
| QUICK_START.md | छिटो सेटअप गाइड | सुरुबाट |
| QUICK_REFERENCE.md | कमाण्ड र API चिट शीट | छिटो उत्तर चाहिन्छ |
| FOUNDRY_SDK_QUICKREF.md | SDK ढाँचाहरू र उदाहरणहरू | कोड लेख्दै |
| ENV_CONFIGURATION.md | वातावरण चर गाइड | नमूनाहरू कन्फिगर गर्दै |
| notebooks/TROUBLESHOOTING.md | सामान्य समस्याहरू र समाधानहरू | समस्या समाधान गर्दै |
- ✅ सत्र १: सुरु गर्दै (सेटअप र आधारभूत च्याटमा ध्यान केन्द्रित गर्नुहोस्)
- ✅ सत्र २: RAG आधारभूत (सुरुमा मूल्यांकन छोड्नुहोस्)
- ✅ सत्र ३: सरल बेंचमार्किङ (मात्र २ मोडेलहरू)
- ⏭️ सत्र ४-६ हाललाई छोड्नुहोस्
- 🔄 पहिलो अनुप्रयोग निर्माण गरेपछि सत्र ४-६ मा फर्कनुहोस्
- ⚡ सत्र १: छिटो सेटअप मान्यकरण
- ✅ सत्र २: मूल्यांकनको साथ पूर्ण RAG पाइपलाइन
- ✅ सत्र ३: पूर्ण बेंचमार्किङ सुइट
- ✅ सत्र ४: मोडेल अनुकूलन
- ✅ सत्र ५-६: आर्किटेक्चर ढाँचाहरूमा ध्यान केन्द्रित गर्नुहोस्
- ⚡ सत्र १-३: छिटो समीक्षा र मान्यकरण
- ✅ सत्र ४: अनुकूलन गहिरो अध्ययन
- ✅ सत्र ५: बहु-एजेन्ट आर्किटेक्चर
- ✅ सत्र ६: उत्पादन ढाँचाहरू र स्केलिङ
- 🚀 विस्तार गर्नुहोस्: कस्टम रुटिङ तर्क र हाइब्रिड परिनियोजनहरू निर्माण गर्नुहोस्
यदि तपाईं संक्षिप्त ६-सत्र कार्यशाला ढाँचालाई पछ्याउँदै हुनुहुन्छ भने, यी समर्पित मार्गदर्शनहरू प्रयोग गर्नुहोस् (प्रत्येकले माथिका व्यापक मोड्युल दस्तावेजहरूलाई नक्सा गर्दछ र पूरक बनाउँछ):
| कार्यशाला सत्र | मार्गदर्शन | मुख्य फोकस |
|---|---|---|
| १ | Session01-GettingStartedFoundryLocal | स्थापना, मान्यकरण, phi & GPT-OSS-20B चलाउनुहोस्, एक्सेलेरेशन |
| २ | Session02-BuildAISolutionsRAG | प्रम्प्ट इन्जिनियरिङ, RAG ढाँचाहरू, CSV & दस्तावेज ग्राउन्डिङ, माइग्रेशन |
| ३ | Session03-OpenSourceModels | Hugging Face एकीकरण, बेंचमार्किङ |
| 6 | Session06-ModelsAsTools | Azureमा राउटिङ, चेनिङ, स्केलिङको बाटो |
प्रत्येक सेसन फाइलमा समावेश छ: सारांश, सिकाइ उद्देश्यहरू, ३०-मिनेटको डेमो फ्लो, स्टार्ट प्रोजेक्ट, भ्यालिडेसन चेकलिस्ट, समस्या समाधान, र आधिकारिक Foundry Local Python SDKको सन्दर्भहरू।
वर्कशप निर्भरता स्थापना गर्नुहोस् (Windows):
cd Workshop
py -m venv .venv
.\.venv\Scripts\activate
pip install -r requirements.txtmacOS / Linux:
cd Workshop
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txtयदि Foundry Local सेवा macOSबाट फरक (Windows) मेसिन वा VMमा चलिरहेको छ भने, एन्डप्वाइन्ट निर्यात गर्नुहोस्:
export FOUNDRY_LOCAL_ENDPOINT=http://<windows-host>:5273/v1| सेसन | स्क्रिप्ट(हरू) | विवरण |
|---|---|---|
| 1 | samples/session01/chat_bootstrap.py |
सेवा सुरु गर्नुहोस् र स्ट्रिमिङ च्याट |
| 2 | samples/session02/rag_pipeline.py |
न्यूनतम RAG (इन-मेमोरी इम्बेडिङ्स) |
samples/session02/rag_eval_ragas.py |
RAG मूल्याङ्कन रागास मेट्रिक्ससँग | |
| 3 | samples/session03/benchmark_oss_models.py |
बहु-मोडेल लेटेंसी र थ्रुपुट बेंचमार्किङ |
| 4 | samples/session04/model_compare.py |
SLM बनाम LLM तुलना (लेटेंसी र नमूना आउटपुट) |
| 5 | samples/session05/agents_orchestrator.py |
दुई-एजेन्ट अनुसन्धान → सम्पादकीय पाइपलाइन |
| 6 | samples/session06/models_router.py |
इरादा-आधारित राउटिङ डेमो |
samples/session06/models_pipeline.py |
बहु-चरण योजना/कार्यान्वयन/सुधार चेन |
| चर | उद्देश्य | उदाहरण |
|---|---|---|
FOUNDRY_LOCAL_ALIAS |
आधारभूत नमूनाहरूको लागि डिफल्ट एकल मोडेल उपनाम | phi-4-mini |
SLM_ALIAS / LLM_ALIAS |
SLM बनाम ठूलो मोडेलको लागि स्पष्ट तुलना | phi-4-mini / gpt-oss-20b |
BENCH_MODELS |
बेंचमार्क गर्न उपनामहरूको सूची | qwen2.5-0.5b,mistral-7b |
BENCH_ROUNDS |
प्रत्येक मोडेलको लागि बेंचमार्क दोहोर्याइ | 3 |
BENCH_PROMPT |
बेंचमार्किङमा प्रयोग गरिएको प्रम्प्ट | Explain retrieval augmented generation briefly. |
EMBED_MODEL |
वाक्य-ट्रान्सफर्मर इम्बेडिङ मोडेल | sentence-transformers/all-MiniLM-L6-v2 |
RAG_QUESTION |
RAG पाइपलाइनको लागि परीक्षण प्रश्न अधिलेखन | Why use RAG with local inference? |
AGENT_QUESTION |
एजेन्ट पाइपलाइन प्रश्न अधिलेखन | Explain why edge AI matters for compliance. |
AGENT_MODEL_PRIMARY |
अनुसन्धान एजेन्टको लागि मोडेल उपनाम | phi-4-mini |
AGENT_MODEL_EDITOR |
सम्पादक एजेन्टको लागि मोडेल उपनाम (भिन्न हुन सक्छ) | gpt-oss-20b |
SHOW_USAGE |
जब 1, प्रत्येक कम्प्लिशनमा टोकन प्रयोग प्रिन्ट गर्दछ |
1 |
RETRY_ON_FAIL |
जब 1, अस्थायी च्याट त्रुटिहरूमा एकपटक पुन: प्रयास गर्नुहोस् |
1 |
RETRY_BACKOFF |
पुन: प्रयास अघि कुर्नु पर्ने सेकेन्ड | 1.0 |
यदि कुनै चर सेट गरिएको छैन भने, स्क्रिप्टहरूले उपयुक्त डिफल्टमा फर्किन्छ। एकल-मोडेल डेमोहरूको लागि सामान्यत: तपाईंलाई केवल FOUNDRY_LOCAL_ALIAS चाहिन्छ।
सबै नमूनाहरूले अब साझा सहायक samples/workshop_utils.py प्रयोग गर्छन् जसले प्रदान गर्दछ:
- Cached
FoundryLocalManager+ OpenAI क्लाइन्ट सिर्जना chat_once()सहायक वैकल्पिक पुन: प्रयास + प्रयोग प्रिन्टिङको साथ- सरल टोकन प्रयोग रिपोर्टिङ (सक्षम गर्नुहोस्
SHOW_USAGE=1मार्फत)
यसले दोहोर्याइ घटाउँछ र स्थानीय मोडेलको कुशल व्यवस्थापनका लागि उत्कृष्ट अभ्यासहरूलाई उजागर गर्दछ।
| विषय | सुधार | सेसनहरू | Env / टगल |
|---|---|---|---|
| निर्धारण | स्थिर तापमान + स्थिर प्रम्प्ट सेटहरू | 1–6 | temperature=0, top_p=1 सेट गर्नुहोस् |
| टोकन प्रयोग दृश्यता | लागत/क्षमता सिकाइ निरन्तरता | 1–6 | SHOW_USAGE=1 |
| स्ट्रिमिङ पहिलो टोकन | अनुभूत लेटेंसी मेट्रिक | 1,3,4,6 | BENCH_STREAM=1 (बेंचमार्क) |
| पुन: प्रयास लचिलोपन | अस्थायी चिसो-स्टार्टलाई सम्हाल्छ | सबै | RETRY_ON_FAIL=1 + RETRY_BACKOFF |
| बहु-मोडेल एजेन्टहरू | विषम भूमिका विशेषज्ञता | 5 | AGENT_MODEL_PRIMARY, AGENT_MODEL_EDITOR |
| अनुकूलन राउटिङ | इरादा + लागत ह्युरिस्टिक्स | 6 | राउटरलाई वृद्धि तर्कसँग विस्तार गर्नुहोस् |
| भेक्टर मेमोरी | दीर्घकालीन अर्थपूर्ण सम्झना | 2,5,6 | FAISS/Chroma इम्बेडिङ इन्डेक्स समावेश गर्नुहोस् |
| ट्रेस निर्यात | अडिटिङ र मूल्याङ्कन | 2,5,6 | प्रत्येक चरणमा JSON लाइनहरू थप्नुहोस् |
| गुणस्तर मापदण्ड | गुणात्मक ट्र्याकिङ | 3–6 | दोस्रो स्कोरिङ प्रम्प्टहरू |
| स्मोक परीक्षणहरू | छिटो वर्कशप पूर्व मान्यता | सबै | python Workshop/tests/smoke.py |
set FOUNDRY_LOCAL_ALIAS=phi-4-mini
set SHOW_USAGE=1
python Workshop\tests\smoke.pyपुन: दोहोरिने समान इनपुटहरूमा स्थिर टोकन गणना अपेक्षा गर्नुहोस्।
सामान्य उत्तर प्रासंगिकता, सत्यता, र सन्दर्भ सटीकता गणना गर्न rag_eval_ragas.py प्रयोग गर्नुहोस्:
cd Workshop/samples
python -m session02.rag_eval_ragasप्रश्नहरू, सन्दर्भहरू, र ग्राउन्ड ट्रुथहरूको ठूलो JSONL आपूर्ति गरेर विस्तार गर्नुहोस्, त्यसपछि Hugging Face Datasetमा रूपान्तरण गर्नुहोस्।
वर्कशपले जानाजानी हालको दस्तावेजीकृत / स्थिर Foundry Local CLI कमाण्डहरू मात्र प्रयोग गर्दछ।
| श्रेणी | कमाण्ड | उद्देश्य |
|---|---|---|
| कोर | foundry --version |
स्थापना गरिएको संस्करण देखाउनुहोस् |
| सेवा | foundry service start |
स्थानीय सेवा सुरु गर्नुहोस् (यदि स्वत: छैन भने) |
| सेवा | foundry service status |
सेवा स्थिति देखाउनुहोस् |
| मोडेलहरू | foundry model list |
क्याटलग / उपलब्ध मोडेलहरूको सूची |
| मोडेलहरू | foundry model download <alias> |
मोडेल वजनहरू क्यासमा डाउनलोड गर्नुहोस् |
| मोडेलहरू | foundry model run <alias> |
मोडेललाई स्थानीय रूपमा सुरु गर्नुहोस् (लोड गर्नुहोस्); एक-शटको लागि --promptसँग संयोजन गर्नुहोस् |
| मोडेलहरू | foundry model unload <alias> / foundry model stop <alias> |
मोडेललाई मेमोरीबाट अनलोड गर्नुहोस् (यदि समर्थित छ भने) |
| क्यास | foundry cache list |
क्यास गरिएको (डाउनलोड गरिएको) मोडेलहरूको सूची |
पुरानो model chat उपकमाण्डको सट्टा, प्रयोग गर्नुहोस्:
foundry model run <alias> --prompt "Your question here"यसले एकल प्रम्प्ट/प्रतिक्रिया चक्र कार्यान्वयन गर्दछ र त्यसपछि बाहिर निस्कन्छ।
| पुरानो / दस्तावेजीकृत छैन | प्रतिस्थापन / मार्गदर्शन |
|---|---|
foundry model chat <model> "..." |
foundry model run <model> --prompt "..." |
foundry model list --running |
साधारण foundry model list + हालको गतिविधि / लगहरू प्रयोग गर्नुहोस् |
foundry model list --cached |
foundry cache list |
foundry model stats <model> |
बेंचमार्क Python स्क्रिप्ट + OS उपकरणहरू (Task Manager / nvidia-smi) प्रयोग गर्नुहोस् |
foundry model benchmark ... |
samples/session03/benchmark_oss_models.py |
- लेटेंसी, p95, टोकन/सेक:
samples/session03/benchmark_oss_models.py - पहिलो-टोकन लेटेंसी (स्ट्रिमिङ):
BENCH_STREAM=1सेट गर्नुहोस् - स्रोत प्रयोग: OS मोनिटरहरू (Task Manager, Activity Monitor,
nvidia-smi)।
जसै नयाँ CLI टेलिमेट्री कमाण्डहरू माथि स्थिर हुन्छन्, तिनीहरूलाई सेसन मार्कडाउनहरूमा न्यूनतम सम्पादनको साथ समावेश गर्न सकिन्छ।
एक स्वचालित लिन्टरले पुरानो CLI ढाँचाहरूलाई मार्कडाउन फाइलहरूको कोड ब्लकहरू भित्र पुन: परिचय गर्न रोक्छ:
स्क्रिप्ट: Workshop/scripts/lint_markdown_cli.py
पुरानो ढाँचाहरू कोड फेन्सभित्र रोकिएका छन्।
सिफारिस गरिएको प्रतिस्थापनहरू:
| पुरानो | प्रतिस्थापन |
|---|---|
foundry model chat <a> "..." |
foundry model run <a> --prompt "..." |
model list --running |
model list |
model list --cached |
cache list |
model stats |
बेंचमार्क स्क्रिप्ट + प्रणाली उपकरणहरू |
model benchmark |
samples/session03/benchmark_oss_models.py |
model list --available |
model list |
स्थानीय रूपमा चलाउनुहोस्:
python Workshop\scripts\lint_markdown_cli.py --verboseGitHub Action: .github/workflows/markdown-cli-lint.yml प्रत्येक पुश र PRमा चल्छ।
वैकल्पिक प्रि-कमिट हुक:
echo "python Workshop/scripts/lint_markdown_cli.py" > .git/hooks/pre-commit
chmod +x .git/hooks/pre-commit| कार्य | CLI एक-लाइनर | SDK (Python) समकक्ष | नोटहरू |
|---|---|---|---|
| एकपटक मोडेल चलाउनुहोस् (प्रम्प्ट) | foundry model run phi-4-mini --prompt "Hello" |
manager=FoundryLocalManager("phi-4-mini"); client=OpenAI(base_url=manager.endpoint, api_key=manager.api_key or "not-needed"); client.chat.completions.create(model=manager.get_model_info("phi-4-mini").id, messages=[{"role":"user","content":"Hello"}]) |
SDKले सेवा र क्यासिङ स्वत: सुरु गर्दछ |
| मोडेल डाउनलोड गर्नुहोस् (क्यास) | foundry model download qwen2.5-0.5b |
FoundryLocalManager("qwen2.5-0.5b") # triggers download/load |
उपनामले धेरै निर्माणहरूमा नक्सा गरेमा प्रबन्धकले उत्कृष्ट भेरियन्ट चयन गर्दछ |
| क्याटलग सूची गर्नुहोस् | foundry model list |
# use manager for each alias or maintain known list |
CLIले समग्र बनाउँछ; SDK हाल उपनाम-प्रति उदाहरणमा |
| क्यास गरिएको मोडेलहरूको सूची गर्नुहोस् | foundry cache list |
manager.list_cached_models() |
प्रबन्धक सुरु भएपछि (कुनै उपनाम) |
| एन्डप्वाइन्ट URL प्राप्त गर्नुहोस् | (अन्तर्निहित) | manager.endpoint |
OpenAI-संगत क्लाइन्ट सिर्जना गर्न प्रयोग गरिन्छ |
| मोडेललाई तातो बनाउनुहोस् | foundry model run <alias> त्यसपछि पहिलो प्रम्प्ट |
chat_once(alias, messages=[...]) (सहायक) |
सहायकहरूले प्रारम्भिक चिसो लेटेंसी वार्मअप सम्हाल्छन् |
| लेटेंसी मापन गर्नुहोस् | python -m session03.benchmark_oss_models |
import benchmark_oss_models (वा नयाँ निर्यातक स्क्रिप्ट) |
स्थिर मेट्रिक्सको लागि स्क्रिप्टलाई प्राथमिकता दिनुहोस् |
| मोडेल रोक्नुहोस् / अनलोड गर्नुहोस् | foundry model unload <alias> |
(प्रदर्शन गरिएको छैन – सेवा / प्रक्रिया पुन: सुरु गर्नुहोस्) | सामान्यत: वर्कशप फ्लोको लागि आवश्यक छैन |
| टोकन प्रयोग पुन: प्राप्त गर्नुहोस् | (आउटपुट हेर्नुहोस्) | resp.usage.total_tokens |
यदि ब्याकएन्डले प्रयोग वस्तु फर्काउँछ भने प्रदान गरिएको |
ताजा बेंचमार्क चलाउन स्क्रिप्ट Workshop/scripts/export_benchmark_markdown.py प्रयोग गर्नुहोस् (त्यही तर्क samples/session03/benchmark_oss_models.py जस्तै) र GitHub-अनुकूल मार्कडाउन तालिका प्लस कच्चा JSON उत्पन्न गर्नुहोस्।
python Workshop\scripts\export_benchmark_markdown.py --models "qwen2.5-0.5b,mistral-7b" --prompt "Explain retrieval augmented generation briefly." --rounds 3 --output benchmark_report.mdउत्पन्न फाइलहरू:
| फाइल | सामग्री |
|---|---|
benchmark_report.md |
मार्कडाउन तालिका + व्याख्या सुझावहरू |
benchmark_report.json |
कच्चा मेट्रिक्स एरे (अन्तर / प्रवृत्ति ट्र्याकिङको लागि) |
यदि समर्थित छ भने पहिलो-टोकन लेटेंसी समावेश गर्न वातावरणमा BENCH_STREAM=1 सेट गर्नुहोस्।
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।