Alibaba hat eine neue Trainingsmethode für große Sprachmodelle (LLMs) entwickelt, mit der sich Suchfunktionen in KI-Systemen deutlich kostengünstiger trainieren lassen. Die Lösung ZEROSEARCH ersetzt kostenintensive API-Abfragen an externe Suchmaschinen durch ein simulationsbasiertes Verfahren und reduziert so die Trainingskosten um fast 90 Prozent. Zugleich bleibt die Leistungsfähigkeit der Modelle auf hohem Niveau.
Mit ZEROSEARCH reagiert Alibaba auf eine zentrale Herausforderung beim Training moderner KI: Klassische Reinforcement-Learning-Verfahren für Suchaufgaben sind auf Millionen von Suchmaschinenabfragen angewiesen. Diese erzeugen nicht nur hohe Gebühren, sondern liefern auch qualitativ schwankende Ergebnisse – ein Problem für die Effizienz und Skalierbarkeit des Trainings.
Simulation statt Live-Suche
Das von Alibaba entwickelte Verfahren besteht aus zwei Schritten: Zunächst wird ein Sprachmodell durch überwachte Feinabstimmung zu einem retrieval-fähigen System weiterentwickelt. Es kann auf Anfragen hin relevante Dokumente generieren und simuliert damit das Verhalten echter Suchmaschinen.
In der anschließenden Reinforcement-Learning-Phase wird der Schwierigkeitsgrad durch ein curriculum-basiertes Rollout-Konzept schrittweise erhöht: Die Qualität der simulierten Dokumente nimmt kontrolliert ab, was das Modell dazu zwingt, seine Relevanzbewertung fortlaufend zu verbessern.
Die Ergebnisse zeigen, dass ZEROSEARCH nicht nur kosteneffizient arbeitet, sondern auch leistungsstark ist: Ein mit ZEROSEARCH trainiertes Qwen2.5-7B-Modell erreichte eine Retrieval-Leistung auf dem Niveau von Google Search. Die größere 14B-Version übertraf die Leistung sogar – und das bei 88 Prozent geringeren Trainingskosten.
Ziel: Zugang zu leistungsfähiger KI für mehr Unternehmen
„Mit ZEROSEARCH senken wir die Kosten für das Training großer Sprachmodelle zur Simulation von Suchmaschinenverhalten drastisch. Damit ermöglichen wir es Entwicklern und insbesondere kleinen und mittelständischen Unternehmen, eigene Reinforcement-Learning-Frameworks aufzubauen – ganz ohne teure Abfragen an externe Suchmaschinen“, sagt Huang Fei, Leiter des Tongyi Natural Language Processing Lab bei Alibaba. „ZEROSEARCH ist ein wichtiger Meilenstein für die Demokratisierung großskaliger Reinforcement-Learning-Technologien: leistungsstark, effizient und deutlich erschwinglicher.“
Alibaba verfolgt diesen Ansatz nicht nur intern. Das Unternehmen hat bereits eine Vielzahl eigener KI-Modelle open source bereitgestellt – in verschiedenen Sprachen, Größen und Anwendungsbereichen. Damit richtet sich Alibaba explizit an die internationale Entwicklergemeinschaft.
Spitzenwerte bei unabhängiger Analyse
Das Modell Qwen3-235B-A22B, der aktuelle Vertreter der Qwen-Reihe, belegt laut einer Analyse von Artificial Analysis den ersten Platz in der Kategorie Kosten und Platz fünf im Bereich Intelligenz (Rechnen, Programmieren, Logik, Naturwissenschaften). Damit positioniert sich Alibaba unter den führenden Anbietern weltweit.