ray-project
diff --git a/‎doc/BUILD.bazel‎
Lines changed: 36 additions & 0 deletions b/‎doc/BUILD.bazel‎
Lines changed: 36 additions & 0 deletions
diff --git a/‎doc/source/data/doc_code/working-with-llms/basic_llm_example.py‎
Lines changed: 155 additions & 0 deletions b/‎doc/source/data/doc_code/working-with-llms/basic_llm_example.py‎
Lines changed: 155 additions & 0 deletions
diff --git a/‎doc/source/data/doc_code/working-with-llms/openai_api_example.py‎
Lines changed: 154 additions & 0 deletions b/‎doc/source/data/doc_code/working-with-llms/openai_api_example.py‎
Lines changed: 154 additions & 0 deletions
@@ -296,6 +296,42 @@ py_test_run_all_subdirectory(
     ],
 )
 
+# --------------------------------------------------------------------
+# Test all doc/source/data/doc_code/working-with-llms code included in rst/md files.
+# --------------------------------------------------------------------
+
+filegroup(
+    name = "data_llm_examples",
+    srcs = glob(["source/data/doc_code/working-with-llms/**/*.py"]),
+    visibility = ["//doc:__subpackages__"],
+)
+
+# GPU Tests
+py_test_run_all_subdirectory(
+    size = "large",
+    include = ["source/data/doc_code/working-with-llms/**/*.py"],
+    exclude = [],
+    extra_srcs = [],
+    tags = [
+        "exclusive",
+        "gpu",
+        "team:data",
+        "team:llm"
+    ],
+)
+
+# CPU Tests (basic validation by running the Python files directly)
+py_test_run_all_subdirectory(
+    size = "medium",
+    include = ["source/data/doc_code/working-with-llms/*.py"],
+    exclude = [],
+    extra_srcs = [],
+    tags = [
+        "team:data",
+        "team:llm"
+    ],
+)
+
 # --------------------------------------------------------------------
 # Test all doc/source/tune/doc_code code included in rst/md files.
 # --------------------------------------------------------------------
 
@@ -0,0 +1,155 @@
+"""
+This file serves as a documentation example and CI test for basic LLM batch inference.
+
+Structure:
+1. Infrastructure setup: Ray initialization, GPU requirements handling for CI
+2. Docs example (between __basic_llm_example_start/end__): Embedded in Sphinx docs via literalinclude
+3. Test validation and cleanup
+"""
+
+import ray
+from ray.data.llm import vLLMEngineProcessorConfig, build_llm_processor
+
+# Infrastructure: Setup for CI testing - remove GPU requirements
+_original_build_llm_processor = build_llm_processor
+
+def _testing_build_llm_processor(config, **kwargs):
+    """Remove accelerator requirements for testing"""
+    if hasattr(config, 'accelerator_type'):
+        config.accelerator_type = None
+    return _original_build_llm_processor(config, **kwargs)
+
+# Apply monkeypatch for testing
+build_llm_processor = _testing_build_llm_processor
+
+# __basic_llm_example_start__
+import ray.data
+from ray.data.llm import vLLMEngineProcessorConfig, build_llm_processor
+
+def create_basic_config():
+    """Create basic vLLM configuration."""
+    return vLLMEngineProcessorConfig(
+        model_source="unsloth/Llama-3.1-8B-Instruct",
+        engine_kwargs={"max_model_len": 20000},
+        concurrency=1,
+        batch_size=64,
+    )
+
+def create_parallel_config():
+    """Create model parallelism configuration."""
+    return vLLMEngineProcessorConfig(
+        model_source="unsloth/Llama-3.1-8B-Instruct",
+        engine_kwargs={
+            "max_model_len": 16384,
+            "tensor_parallel_size": 4,
+            "pipeline_parallel_size": 2,
+            "enable_chunked_prefill": True,
+            "max_num_batched_tokens": 2048,
+        },
+        concurrency=1,
+        batch_size=64,
+    )
+
+def create_runai_config():
+    """Create RunAI streamer configuration."""
+    return vLLMEngineProcessorConfig(
+        model_source="unsloth/Llama-3.1-8B-Instruct",
+        engine_kwargs={"load_format": "runai_streamer"},
+        concurrency=1,
+        batch_size=64,
+    )
+
+def create_s3_config():
+    """Create S3 hosted model configuration."""
+    return vLLMEngineProcessorConfig(
+        model_source="s3://your-bucket/your-model/",
+        engine_kwargs={"load_format": "runai_streamer"},
+        runtime_env={"env_vars": {
+            "AWS_ACCESS_KEY_ID": "your_access_key_id",
+            "AWS_SECRET_ACCESS_KEY": "your_secret_access_key",
+            "AWS_REGION": "your_region",
+        }},
+        concurrency=1,
+        batch_size=64,
+    )
+
+def create_lora_config():
+    """Create multi-LoRA configuration."""
+    return vLLMEngineProcessorConfig(
+        model_source="unsloth/Llama-3.1-8B-Instruct",
+        engine_kwargs={
+            "enable_lora": True,
+            "max_lora_rank": 32,
+            "max_loras": 1,
+        },
+        concurrency=1,
+        batch_size=64,
+    )
+
+def run_basic_example():
+    """Run the basic LLM example."""
+    config = create_basic_config()
+    ds = ray.data.from_items([{"text": "Write a haiku about machine learning."}])
+    processor = build_llm_processor(config)
+    print("LLM processor configured successfully")
+    return config, ds, processor
+
+# __basic_llm_example_end__
+
+# Test validation and cleanup
+def run_test():
+    """Test function that validates the example works including all configurations."""
+    import sys
+    suppress_output = 'pytest' in sys.modules
+    
+    try:
+        # Test 1: Basic configuration
+        basic_config = create_basic_config()
+        assert basic_config.model_source == "unsloth/Llama-3.1-8B-Instruct"
+        assert basic_config.batch_size == 64
+        assert basic_config.engine_kwargs["max_model_len"] == 20000
+        
+        # Test 2: Model parallelism configuration  
+        parallel_config = create_parallel_config()
+        assert parallel_config.engine_kwargs["tensor_parallel_size"] == 4
+        assert parallel_config.engine_kwargs["pipeline_parallel_size"] == 2
+        assert parallel_config.engine_kwargs["enable_chunked_prefill"] is True
+        assert parallel_config.engine_kwargs["max_num_batched_tokens"] == 2048
+        
+        # Test 3: RunAI streamer configuration
+        runai_config = create_runai_config()
+        assert runai_config.engine_kwargs["load_format"] == "runai_streamer"
+        assert runai_config.model_source == "unsloth/Llama-3.1-8B-Instruct"
+        
+        # Test 4: S3 configuration with environment variables
+        s3_config = create_s3_config()
+        assert s3_config.model_source == "s3://your-bucket/your-model/"
+        assert s3_config.engine_kwargs["load_format"] == "runai_streamer"
+        assert "AWS_ACCESS_KEY_ID" in s3_config.runtime_env["env_vars"]
+        assert "AWS_SECRET_ACCESS_KEY" in s3_config.runtime_env["env_vars"]
+        assert "AWS_REGION" in s3_config.runtime_env["env_vars"]
+        
+        # Test 5: Multi-LoRA configuration
+        lora_config = create_lora_config()
+        assert lora_config.engine_kwargs["enable_lora"] is True
+        assert lora_config.engine_kwargs["max_lora_rank"] == 32
+        assert lora_config.engine_kwargs["max_loras"] == 1
+        
+        # Test 6: Processor creation works (tests Ray integration)
+        from ray.data.llm import build_llm_processor
+        test_processor = build_llm_processor(basic_config)
+        assert test_processor is not None
+        
+        if not suppress_output:
+            print("Basic LLM example validation successful (all configs tested)")
+        return True
+    except Exception as e:
+        if not suppress_output:
+            print(f"Basic LLM example validation failed: {e}")
+        return False
+
+if __name__ == "__main__":
+    # Run the basic example
+    run_basic_example()
+    # Run validation tests
+    run_test()
@@ -0,0 +1,154 @@
+"""
+This file serves as a documentation example and CI test for OpenAI API batch inference.
+
+Structure:
+1. Infrastructure setup: API key handling, testing configuration  
+2. Docs example (between __openai_example_start/end__): Embedded in Sphinx docs via literalinclude
+3. Test validation and cleanup
+"""
+
+import os
+import ray.data
+from ray.data.llm import HttpRequestProcessorConfig, build_llm_processor
+
+# Infrastructure: Mock for testing without real API keys
+def _mock_demo_mode():
+    """Demo mode for when API key is not available"""
+    print("OpenAI API Configuration Demo")
+    print("=" * 30)
+    print("\nExample configuration:")
+    print("config = HttpRequestProcessorConfig(")
+    print("    url='https://api.openai.com/v1/chat/completions',")
+    print("    headers={'Authorization': f'Bearer {api_key}'},")
+    print("    qps=1,")
+    print(")")
+    print("\nThe processor handles:")
+    print("- Preprocessing: Convert text to OpenAI API format")
+    print("- HTTP requests: Send batched requests to OpenAI")
+    print("- Postprocessing: Extract response content")
+
+# __openai_example_start__
+import os
+import ray.data
+from ray.data.llm import HttpRequestProcessorConfig, build_llm_processor
+
+
+# Configuration for OpenAI-compatible endpoint
+api_key = os.environ.get("OPENAI_API_KEY", "your-api-key-here")
+
+config = HttpRequestProcessorConfig(
+    url="https://api.openai.com/v1/chat/completions",
+    headers={"Authorization": f"Bearer {api_key}"},
+    qps=1,
+)
+
+# Sample dataset
+dataset = ray.data.from_items(["Hand me a haiku."])
+
+# Preprocessing function
+def preprocess_for_openai(row: dict) -> dict:
+    return {
+        "payload": {
+            "model": "gpt-4o-mini", 
+            "messages": [
+                {"role": "system", "content": "You are a bot that responds with haikus."},
+                {"role": "user", "content": row["item"]}
+            ],
+            "temperature": 0.0,
+            "max_tokens": 150,
+        },
+    }
+
+# Postprocessing function  
+def postprocess_openai_response(row: dict) -> dict:
+    return {"response": row["http_response"]["choices"][0]["message"]["content"]}
+
+# Build processor
+processor = build_llm_processor(
+    config,
+    preprocess=preprocess_for_openai,
+    postprocess=postprocess_openai_response,
+)
+
+def run_openai_demo():
+    """Run the OpenAI API configuration demo."""
+    print("OpenAI API Configuration Demo")
+    print("=" * 30)
+    print("\nExample configuration:")
+    print("config = HttpRequestProcessorConfig(")
+    print("    url='https://api.openai.com/v1/chat/completions',")
+    print("    headers={'Authorization': f'Bearer {api_key}'},")
+    print("    qps=1,")
+    print(")")
+    print("\nThe processor handles:")
+    print("- Preprocessing: Convert text to OpenAI API format")
+    print("- HTTP requests: Send batched requests to OpenAI") 
+    print("- Postprocessing: Extract response content")
+
+# __openai_example_end__
+
+# Test validation and cleanup
+def run_test():
+    """Test function that validates the example works including API configuration."""
+    import sys
+    suppress_output = 'pytest' in sys.modules
+    
+    try:
+        # Test 1: HTTP configuration structure
+        assert config.url == "https://api.openai.com/v1/chat/completions"
+        assert config.qps == 1
+        assert "Authorization" in config.headers
+        assert "Bearer" in config.headers["Authorization"]
+        
+        # Test 2: Preprocessing function comprehensive
+        sample_row = {"item": "Write a haiku about coding"}
+        result = preprocess_for_openai(sample_row)
+        assert "payload" in result
+        assert result["payload"]["model"] == "gpt-4o-mini"
+        assert result["payload"]["temperature"] == 0.0
+        assert result["payload"]["max_tokens"] == 150
+        assert len(result["payload"]["messages"]) == 2
+        assert result["payload"]["messages"][0]["role"] == "system"
+        assert result["payload"]["messages"][1]["role"] == "user"
+        assert result["payload"]["messages"][1]["content"] == "Write a haiku about coding"
+        
+        # Test 3: Postprocessing function comprehensive
+        mock_response = {
+            "http_response": {
+                "choices": [{"message": {"content": "Code flows like streams\\nDebugging through endless nights\\nBugs become features"}}]
+            }
+        }
+        processed = postprocess_openai_response(mock_response)
+        assert "response" in processed
+        assert "Code flows" in processed["response"]
+        
+        # Test 4: Dataset creation
+        import ray.data
+        test_dataset = ray.data.from_items(["Hand me a haiku."])
+        assert test_dataset is not None
+        items = test_dataset.take_all()
+        assert len(items) == 1
+        assert items[0]["item"] == "Hand me a haiku."
+        
+        # Test 5: Processor creation works (tests Ray + HTTP integration)
+        from ray.data.llm import build_llm_processor
+        test_processor = build_llm_processor(
+            config,
+            preprocess=preprocess_for_openai,
+            postprocess=postprocess_openai_response,
+        )
+        assert test_processor is not None
+        
+        if not suppress_output:
+            print("OpenAI API example validation successful (all components tested)")
+        return True
+    except Exception as e:
+        if not suppress_output:
+            print(f"OpenAI API example validation failed: {e}")
+        return False
+
+if __name__ == "__main__":
+    # Run the demo
+    run_openai_demo()
+    # Run validation tests  
+    run_test()