Tags · zhudy/llama.cpp

b5124

common : Define cache directory on AIX (ggml-org#12915)

Apr 12, 2025
bc091a4
zip
tar.gz
Downloads

b4857

authors : update (ggml-org#12271)

Mar 8, 2025
0fd7ca7
zip
tar.gz
Downloads

b2382

server: benchmark: chat/completions scenario and other llm servers co…

…mparison (ggml-org#5941)

* server: bench: Init a bench scenario with K6
See ggml-org#5827

* server: bench: EOL EOF

* server: bench: PR feedback and improved k6 script configuration

* server: bench: remove llamacpp_completions_tokens_seconds as it include prompt processing time and it's misleading

server: bench: add max_tokens from SERVER_BENCH_MAX_TOKENS

server: bench: increase truncated rate to 80% before failing

* server: bench: fix doc

* server: bench: change gauge custom metrics to trend

* server: bench: change gauge custom metrics to trend
server: bench: add trend custom metrics for total tokens per second average

* server: bench: doc add an option to debug http request

* server: bench: filter dataset too short and too long sequences

* server: bench: allow to filter out conversation in the dataset based on env variable

* server: bench: fix assistant message sent instead of user message

* server: bench: fix assistant message sent instead of user message

* server : add defrag thold parameter

* server: bench: select prompts based on the current iteration id not randomly to make the bench more reproducible

---------

Co-authored-by: Georgi Gerganov <[email protected]>

Mar 9, 2024
621e86b
zip
tar.gz
Downloads

b1569

lookahead : support `-n -1` infinite generation

Nov 26, 2023
3e73d31
zip
tar.gz

b1567

lookahead : add example for lookahead decoding (ggml-org#4207)

* lookahead : init

* lookahead : generate and store n-grams

* lookahead : use loop instead recursion to generate n-grams

* lookahead : initial working implementation

* lookahead : filter repeating n-grams

* lookahead : use deterministic init

* lookahead : add to Makefile

* lookahead : fix a bug in the seq_id of the lookahead tokens

* lookahead : add comments

---------

Co-authored-by: slaren <[email protected]>

Nov 26, 2023
922754a
zip
tar.gz

b1566

metal : fix yarn (ggml-org#4220)

get the correct n_orig_ctx in metal

Nov 26, 2023
22da055
zip
tar.gz

b1564

llama : grammar `reserve` space in `decode_utf8` (ggml-org#4210)

* reserve space for codepoints

* improvement for the appended 0

Nov 25, 2023
f837c3a
zip
tar.gz

b1563

Update docs for yarn_ext_factor <0.0 as unspecified instead of NaN (g…

…gml-org#4189)

Nov 25, 2023
3014b54
zip
tar.gz

b1561

server : OAI API compatibility (ggml-org#4198)

* Add openai-compatible POST /v1/chat/completions API endpoint to server example

* fix code style

* Update server README.md

* Improve server README.md

* Fix server.cpp code style according to review

* server : some style changes

* server : indentation

* server : enable special tokens during tokenization by default

* server : minor code style

* server : change random string generator

* straightforward /v1/models endpoint

---------

Co-authored-by: kir-gadjello <[email protected]>
Co-authored-by: Tobi Lütke <[email protected]>

Nov 25, 2023
af19d35
zip
tar.gz

b1560

llama : set metal log callback correctly (ggml-org#4204)

Nov 24, 2023
e9c13ff
zip
tar.gz

PreviousNext

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

b5124

b4857

b2382

b1569

b1567

b1566

b1564

b1563

b1561

b1560

Tags: zhudy/llama.cpp