Forrás: NOL

Kenczler Mihály, 2005. szeptember 9. 00:00

A magyar nyelv külön nehézséget okoz a szöveg felismerésében A beszéd felismerése – a mesterségesintelligencia-kutatások egyik kedvelt gyermeke – a számítógép-tudomány évtizedek óta nagy erőkkel kutatott fontos témája. De nemcsak távlatokba mutató tudománynak, hanem nagy üzletnek is számít, amelynek újabban már nemcsak a beszéd tartalmának, hanem akár érzelmi-hangulati összetevőinek azonosítása is része lehet.

Beszédfelismerő szoftverek már ma is léteznek, kereskedelemben kaphatók, csakhogy ezek általában csupán egy kötött, és többnyire igen szűk terjedelmű, meghatározott, sajátságos feladatra szóló szótárral működnek. Tegyük hozzá, hogy a magyar nyelv a maga nyelvtani sajátosságaival, ragozásával még külön nehézségeket támaszt a szöveg (tehát nem csak egy-egy meghatározott szó) felismerésében.

Mindenesetre már léteznek piacképes beszédfelismerő szoftverek (például az IBM ViaVoice vagy a ScanSoft Dragon NaturallySpeaking programjai). A Datamonitor piacfigyelő cég igencsak optimista előrejelzése szerint az amerikai piacon 2005 és 2008 között évente akár 25 százalékkal is bővülhet az ilyen szoftverek forgalma. Ámbár a szakemberek sem egységesek a megítélésükben. Akik az eladásban érdekeltek, azt állítják, hogy ezek a szoftverek mindössze a szavak két százalékát tévesztik el, viszont a vállalatoktól független szakértők akár öt százalékra is becsülik a tévesztést, miközben persze a használók elvárják, hogy a hibaarány legfeljebb ezrelék nagyságrendű legyen. Tegyük hozzá, hogy az átlagos tévesztést még tovább növelheti egy erős háttérzaj, vagy az a kellemetlenség, hogy a beszélő éppen jól megfázott.

A beszédfelismerés persze több, mint szavak felismerése a frekvenciaspektrumuk alapján, mert az egész szöveget kell értelmezni. A mai számítógépek maximálisan háromszavas kifejezéseket tudnak kezelni; és ezekből állítják össze a mondatot. Mindenesetre a feladat nagyságát mutatja, hogy egy átlagos felnőtt mintegy 50 ezer szót használ, amit a magyar nyelvben még tovább nehezít, hogy az alapszavakhoz toldalékok is járulnak. Nem meglepő, hogy a valóban általános célú, minőségében elfogadható, megbízható, az emberi teljesítménnyel összevethető beszédfelismerés színrelépését egyes szakemberek több évtizedes távlatban látják.

Még bonyolultabb a feladat, ha nemcsak a szöveget kell felismerni, hanem azt is, hogy a beszélőnek milyen a lelkiállapota. Egy izraeli-amerikai cég, a NICE Systems szoftverje telefonhívásokat figyel és elemez ilyen szempontból. Valószínűleg jelentős igényt szolgálnak a termékeik, mert egyedül az USA-ban tavaly mintegy 800 millió dolláros forgalmat bonyolítottak le belőle. Persze ekkora bevételt aligha lehetne szerelmesek enyelgéseinek vagy veszekedésének feltárásából kihozni, itt elsősorban az üzleti világ az érdekelt. Számos olyan óriásvállalat akad, amelynek ügyfeleit akár ezer-kétezer hivatalnok is fogadja a világ minden részén és a nap minden percében. Vásárlások-beszerzések, szervizszolgáltatások iránti kérelmek, reklamációk futnak be állandóan. A vállalat vezetősége számára rendkívül fontos követelmény, hogy ismerje ügyfelei véleményét, elégedettségét vagy éppen elégedetlenségét. Ezért is hallhatjuk a figyelmeztetést, ha ilyen céget hívunk föl, hogy „a beszélgetést figyeljük és rögzítjük”. Igen ám, de ha naponta százezres nagyságrendben ömlenek be a vállalathoz a beszélgetések, hogyan lehet azokból kiszűrni a partnerek érzéseit, elégettségét? Az emberi operátoroktól aligha lehet elvárni, hogy az állandó hívásözön közepette emlékezzenek a megelőző hívásokra (felmérések igazolják, hogy miközben a telefon mellett ülnek, idejüknek körülbelül a 60-70 százalékát kitölti a beszélgetés, tehát igen lekötöttek). Márpedig az elégedetlen vásárló elhanyagolása a cég számára súlyos anyagi konzekvenciákkal, akár piacvesztéssel is járhat. Úgy tetszik, ezen segíthet a NICE Systems szoftverje, amely figyeli a beszélgetést, és felismeri, ha a hívó fél hangja dühbe, haragba csap át. Ilyenkor megváltozik az illető hangmagassága, gyakrabban szakítja félbe a fogadó hivatalnokot. Emellett még a beszéd további nyolc eleme is figyelmeztet: baj van, de hogy mi a többi jellemző, csak találgatni lehet, mert a NICE, érthető módon, erről nem ad tájékoztatást. A módszer némileg emlékeztet a hazugságvizsgálatnál alkalmazottakra, de itt nem kell pontosan rögzíteni mindent, elég a minőségi jelzés. Úgy tetszik, az eljárás bevált, mert az izraeli cég már dolgozik a továbbfejlesztésen, amelyben azt is jelezni tudják, ha a vevő a tárgyalás során csalni akar (például azt hazudja, hogy máshonnan jobb ajánlatokat kapott).

szentzs@helka.iif.hu

Comments are closed.