salience-editor/api/salience/__init__.py

# Salience API
# ============
# Uses a worker thread for model inference to avoid fork() issues with Metal/MPS.
# The worker thread owns all model instances; HTTP handlers submit work via queue.

print("Starting salience __init__.py...")

from flask import Flask, request
from flask_cors import CORS
import numpy as np
from .salience import submit_work, AVAILABLE_MODELS
import json
import time
from collections import deque
import threading

app = Flask(__name__)
CORS(app, origins=["http://localhost:5173", "http://127.0.0.1:5173"])

# Thread-safe stats tracker for this worker process
class StatsTracker:
    def __init__(self):
        # Store (start_time, end_time, duration) for successful requests
        self.processing_spans = deque(maxlen=1000)
        # Store arrival timestamps for overflow requests
        self.overflow_arrivals = deque(maxlen=1000)
        self.lock = threading.Lock()

    def add_processing_span(self, start_time, end_time):
        duration = end_time - start_time
        with self.lock:
            self.processing_spans.append((start_time, end_time, duration))
            # Clean old entries (>5 min)
            cutoff = time.time() - 300
            while self.processing_spans and self.processing_spans[0][0] < cutoff:
                self.processing_spans.popleft()

    def add_overflow_arrival(self, arrival_time):
        with self.lock:
            self.overflow_arrivals.append(arrival_time)
            # Clean old entries (>5 min)
            cutoff = time.time() - 300
            while self.overflow_arrivals and self.overflow_arrivals[0] < cutoff:
                self.overflow_arrivals.popleft()

    def get_stats(self):
        with self.lock:
            return {
                'processing_spans': [
                    {'start': start, 'end': end, 'duration': duration}
                    for start, end, duration in self.processing_spans
                ],
                'overflow_arrivals': list(self.overflow_arrivals),
                'window_seconds': 300  # 5 minutes
            }

stats_tracker = StatsTracker()

# Load default text from transcript.txt for GET requests
with open('./transcript.txt', 'r') as file:
    default_source_text = file.read().strip()

@app.route("/models")
def models_view():
    return json.dumps(list(AVAILABLE_MODELS.keys()))

@app.route("/overflow", methods=['GET', 'POST'])
def overflow_view():
    """
    Endpoint hit when HAProxy queue is full.
    Returns 429 with statistics about processing and overflow.
    """
    arrival_time = time.time()
    stats_tracker.add_overflow_arrival(arrival_time)

    stats = stats_tracker.get_stats()

    response = {
        'error': 'Queue full',
        'status': 429,
        'stats': stats,
        'message': 'Service is at capacity. Try again or check queue statistics.'
    }

    return json.dumps(response), 429

@app.route("/stats")
def stats_view():
    """
    Endpoint for frontend to poll current queue statistics.
    Returns processing spans and overflow arrivals from last 5 minutes.
    """
    stats = stats_tracker.get_stats()
    return json.dumps(stats)

@app.route("/salience", methods=['GET'])
def salience_view_default():
    """GET endpoint - processes default text from transcript.txt"""
    start_time = time.time()

    model_name = request.args.get('model', 'all-mpnet-base-v2')

    # Validate model name
    if model_name not in AVAILABLE_MODELS:
        return json.dumps({'error': f'Invalid model: {model_name}'}), 400

    sentence_ranges, adjacency = submit_work(default_source_text, model_name)

    end_time = time.time()
    stats_tracker.add_processing_span(start_time, end_time)

    return json.dumps({
        'source': default_source_text,
        'intervals': sentence_ranges,
        'adjacency': np.nan_to_num(adjacency.numpy()).tolist(),
        'model': model_name,
    })

@app.route("/salience", methods=['POST'])
def salience_view_custom():
    """POST endpoint - processes text from request body"""
    start_time = time.time()

    model_name = request.args.get('model', 'all-mpnet-base-v2')

    # Validate model name
    if model_name not in AVAILABLE_MODELS:
        return json.dumps({'error': f'Invalid model: {model_name}'}), 400

    # Get document content from request body as plain text
    source_text = request.data.decode('utf-8').strip()

    if not source_text:
        return json.dumps({'error': 'No text provided'}), 400

    sentence_ranges, adjacency = submit_work(source_text, model_name)

    end_time = time.time()
    stats_tracker.add_processing_span(start_time, end_time)

    return json.dumps({
        'source': source_text,
        'intervals': sentence_ranges,
        'adjacency': np.nan_to_num(adjacency.numpy()).tolist(),
        'model': model_name,
    })
feat: make version deployable 2025-11-29 13:56:55 -08:00			`# Salience API`
			`# ============`
			`# Uses a worker thread for model inference to avoid fork() issues with Metal/MPS.`
			`# The worker thread owns all model instances; HTTP handlers submit work via queue.`
feat: deploy model api server to chicago-web01 2025-11-27 11:01:54 -08:00
			`print("Starting salience __init__.py...")`

feat: add multiple models 2025-10-30 16:26:48 -07:00			`from flask import Flask, request`
feat: text editor and blog post 2025-11-01 12:08:03 -07:00			`from flask_cors import CORS`
feat: try to get demo working after 2 years 2025-10-30 14:16:04 -07:00			`import numpy as np`
feat: make version deployable 2025-11-29 13:56:55 -08:00			`from .salience import submit_work, AVAILABLE_MODELS`
feat: try to get demo working after 2 years 2025-10-30 14:16:04 -07:00			`import json`
feat: deploy model api server to chicago-web01 2025-11-27 11:01:54 -08:00			`import time`
			`from collections import deque`
			`import threading`
feat: try to get demo working after 2 years 2025-10-30 14:16:04 -07:00
			`app = Flask(__name__)`
fix: port 5000 conflicts with AirPlay on macOS Use port 15000 for the default development port. If you ever cloned the repo on Mac, ran the demo, and saw the models list would never load, or saw 403 errors in browser console. Check the Server headers. Good chances are the request went to AirPlay service which is also listening on port 5000. 2025-12-03 10:37:44 -08:00			`CORS(app, origins=["http://localhost:5173", "http://127.0.0.1:5173"])`
feat: try to get demo working after 2 years 2025-10-30 14:16:04 -07:00
feat: deploy model api server to chicago-web01 2025-11-27 11:01:54 -08:00			`# Thread-safe stats tracker for this worker process`
			`class StatsTracker:`
			`def __init__(self):`
			`# Store (start_time, end_time, duration) for successful requests`
			`self.processing_spans = deque(maxlen=1000)`
			`# Store arrival timestamps for overflow requests`
			`self.overflow_arrivals = deque(maxlen=1000)`
			`self.lock = threading.Lock()`

			`def add_processing_span(self, start_time, end_time):`
			`duration = end_time - start_time`
			`with self.lock:`
			`self.processing_spans.append((start_time, end_time, duration))`
			`# Clean old entries (>5 min)`
			`cutoff = time.time() - 300`
			`while self.processing_spans and self.processing_spans[0][0] < cutoff:`
			`self.processing_spans.popleft()`

			`def add_overflow_arrival(self, arrival_time):`
			`with self.lock:`
			`self.overflow_arrivals.append(arrival_time)`
			`# Clean old entries (>5 min)`
			`cutoff = time.time() - 300`
			`while self.overflow_arrivals and self.overflow_arrivals[0] < cutoff:`
			`self.overflow_arrivals.popleft()`

			`def get_stats(self):`
			`with self.lock:`
			`return {`
			`'processing_spans': [`
			`{'start': start, 'end': end, 'duration': duration}`
			`for start, end, duration in self.processing_spans`
			`],`
			`'overflow_arrivals': list(self.overflow_arrivals),`
			`'window_seconds': 300 # 5 minutes`
			`}`

			`stats_tracker = StatsTracker()`

feat: text editor and blog post 2025-11-01 12:08:03 -07:00			`# Load default text from transcript.txt for GET requests`
feat: try to get demo working after 2 years 2025-10-30 14:16:04 -07:00			`with open('./transcript.txt', 'r') as file:`
feat: text editor and blog post 2025-11-01 12:08:03 -07:00			`default_source_text = file.read().strip()`
feat: add multiple models 2025-10-30 16:26:48 -07:00
			`@app.route("/models")`
			`def models_view():`
			`return json.dumps(list(AVAILABLE_MODELS.keys()))`
feat: try to get demo working after 2 years 2025-10-30 14:16:04 -07:00
feat: deploy model api server to chicago-web01 2025-11-27 11:01:54 -08:00			`@app.route("/overflow", methods=['GET', 'POST'])`
			`def overflow_view():`
			`"""`
			`Endpoint hit when HAProxy queue is full.`
			`Returns 429 with statistics about processing and overflow.`
			`"""`
			`arrival_time = time.time()`
			`stats_tracker.add_overflow_arrival(arrival_time)`

			`stats = stats_tracker.get_stats()`

			`response = {`
			`'error': 'Queue full',`
			`'status': 429,`
			`'stats': stats,`
			`'message': 'Service is at capacity. Try again or check queue statistics.'`
			`}`

			`return json.dumps(response), 429`

			`@app.route("/stats")`
			`def stats_view():`
			`"""`
			`Endpoint for frontend to poll current queue statistics.`
			`Returns processing spans and overflow arrivals from last 5 minutes.`
			`"""`
			`stats = stats_tracker.get_stats()`
			`return json.dumps(stats)`

feat: text editor and blog post 2025-11-01 12:08:03 -07:00			`@app.route("/salience", methods=['GET'])`
			`def salience_view_default():`
			`"""GET endpoint - processes default text from transcript.txt"""`
feat: deploy model api server to chicago-web01 2025-11-27 11:01:54 -08:00			`start_time = time.time()`

feat: add multiple models 2025-10-30 16:26:48 -07:00			`model_name = request.args.get('model', 'all-mpnet-base-v2')`

			`# Validate model name`
			`if model_name not in AVAILABLE_MODELS:`
			`return json.dumps({'error': f'Invalid model: {model_name}'}), 400`

feat: make version deployable 2025-11-29 13:56:55 -08:00			`sentence_ranges, adjacency = submit_work(default_source_text, model_name)`
feat: text editor and blog post 2025-11-01 12:08:03 -07:00
feat: deploy model api server to chicago-web01 2025-11-27 11:01:54 -08:00			`end_time = time.time()`
			`stats_tracker.add_processing_span(start_time, end_time)`

feat: text editor and blog post 2025-11-01 12:08:03 -07:00			`return json.dumps({`
			`'source': default_source_text,`
			`'intervals': sentence_ranges,`
			`'adjacency': np.nan_to_num(adjacency.numpy()).tolist(),`
			`'model': model_name,`
			`})`

			`@app.route("/salience", methods=['POST'])`
			`def salience_view_custom():`
			`"""POST endpoint - processes text from request body"""`
feat: deploy model api server to chicago-web01 2025-11-27 11:01:54 -08:00			`start_time = time.time()`

feat: text editor and blog post 2025-11-01 12:08:03 -07:00			`model_name = request.args.get('model', 'all-mpnet-base-v2')`

			`# Validate model name`
			`if model_name not in AVAILABLE_MODELS:`
			`return json.dumps({'error': f'Invalid model: {model_name}'}), 400`

			`# Get document content from request body as plain text`
			`source_text = request.data.decode('utf-8').strip()`

			`if not source_text:`
			`return json.dumps({'error': 'No text provided'}), 400`

feat: make version deployable 2025-11-29 13:56:55 -08:00			`sentence_ranges, adjacency = submit_work(source_text, model_name)`
feat: add multiple models 2025-10-30 16:26:48 -07:00
feat: deploy model api server to chicago-web01 2025-11-27 11:01:54 -08:00			`end_time = time.time()`
			`stats_tracker.add_processing_span(start_time, end_time)`

feat: try to get demo working after 2 years 2025-10-30 14:16:04 -07:00			`return json.dumps({`
			`'source': source_text,`
			`'intervals': sentence_ranges,`
			`'adjacency': np.nan_to_num(adjacency.numpy()).tolist(),`
feat: add multiple models 2025-10-30 16:26:48 -07:00			`'model': model_name,`
feat: try to get demo working after 2 years 2025-10-30 14:16:04 -07:00			`})`