Czy ktoś z Was używa modeli Ollama do czegokolwiek produkcyjnego? Po wielu dniach testów Llama3 (niby najlepszy z nich) stwierdzam, że nie nadaje się do niczego sensownego. Szczególnie w roli agenta. Nawet najprostsze workflowy z dwóch funkcji dają śmieciowe wyniki. Szczytem głupoty modelu jest skorzystanie z dwóch narzędzi jakie mu oferuję (tools) do obliczenia prostego zadania (dodanie dwóch liczb i przemnożenie przez trzecią). Model z nich korzysta a potem ten idiota i tak zwraca swój błędny wyssany z brudnego palucha wynik :). Poddaję się na 10 lat. Może GPT55 to kiedyś ogarnie hehe.
ataxbras

@tmg Modele językowe nie nadają się do semantycznego rozbioru problemu. I o ile będą się nadawać w przyszłości, to zawsze będzie to kwestia protez różnej maści. Pracuje się nad blokami atencji (wiem, kulawe tłumaczenie, ale nie wiem jak to po polsku), które będą filtrować kwestie wymagające rozbioru semantycznego i przetwarzać je oddzielnie, ale to zawsze psuje ogólną jakość modelu.

Mój zespół miał podobną zagwozdkę, jak zmusić model do oceny w jakiejś skali. Nie zapytali mnie wcześniej i kombinowali ze skalami liczbowymi. Co nie ma absolutnie sensu. Jak się mnie w końcu dopytali to zmienili na skalę opisową i działa jak złoto.

Generalnie, Llama 3 jest bardzo wdzięcznym modelem, pod warunkiem, że jest używany zgodnie z jego możliwościami.

tmg

@ataxbras Llama3 generalnie nadaje się do takich rzeczy jak wylistowanie wszystkich prezydentów USA. Jak się go poprosi o prezydentów Polski już tak fajnie nie jest bo wynik zaśmiecony. Mój zawód nie polega na tym że oczekuję od niego nie wiadomo czego. Model zrozumiał o co mi chodzi, pobrał funkcje do wykonania zadania, zapewne ich użył i otrzymał prawidłowy wynik i ... zwracał jakieś ścierwo (tylko czasami udawało mu się podać poprawną odpowiedź). Czyli jest tak, że zapewne gdzieś ma "wtrenowany" głęboko błąd wokół tego wyniku (liczby) i nic się z tym nie zrobi. Przy okazji szukania wyjaśnień natrafiłęm na info o wysokim odszkodowaniu jakie wypłaciło lotnisko pasażerowi któremu AI za pomocą takiego agenta dokonało błędnej rezerwacji. Jak dla mnie to wciąż słabe chociaż muszę pochwalić model gpt.3.5 który w testach wypadał o niebo lepiej. Dało się dokonać agentami serii udanych odwołań do zewnętrznego API na którym wykonał zadane operacje. No ale na produkcję to i tak się nie nadawało bo przeciętny użytkownik na wejściu wszedłby w scenariusz "shit in shit out".

ataxbras

@tmg Na produkcję gdzie zrozumienie jest konieczne to praktycznie żaden się nie nadaje bez odpowiedniego modułu guidance. Wynika to z prostej przyczyny - LLMy nie rozumieją tego co się do nich wprowadza. A błędem deweloperów jest, że nie rozumieją zasady działania tych modeli i wydaje im się, że one coś przetwarzają logicznie. Symulowanie wioskowego kretyna, bądź polityka, bądź urzędnika w LLMie nie jest proste dlatego, że te modele wnioskują, a dlatego że symulowani tego nie robią.

Masz wyjaśnienie, chyba jedno z lepszych w internetach: https://www.youtube.com/watch?v=wjZofJX0v4M

AdelbertVonBimberstein

@tmg proszę o dodanie odpowiednich tagów.

#nowywlascicielhejto

Zaloguj się aby komentować