Hangfelismerés és beszédmegértés számítógéppel

Juhász Anna Katalin

Mesterséges Intelligencia és kommunikáció

Az Agent portál a Mesterséges Intelligenciával (MI/AI) foglalkozó kutatások eredményeiről számol be. Jelen dolgozatomat jobbára a számítógépes beszédmegértés, a mesterséges fordítás és a kölcsönös kommunikáció témájában közölt hírek kapcsán írom, kitekintéssel kapcsolódó elemekre.

A mesterséges intelligenciát sok helyen kutatják és sokféle célból, a puszta elmélettől és modellezéstől kezdve a szigorúan üzleti célú felhasználásig. Az első például a komplex biológiai rendszerek computeres vizsgálata. Nem újdonság, hogy rövidebb idő alatt lehet szimulálni evolúciós folyamatokat, szelekciót, genetikai mutációkat ilyen virtuális környezetben. Ehhez szükséges a tanulásra képes program, alkalmazkodó program. Ennek gyakorlatiasabb felhasználása a computeres animáció, amit filmek speciális effektusaiban, és egyes számítógépes játékokban használnak.

Bizonyos szempontból ez is kommunikáció: reakció a külső hatásokra. A lényege a helyes válasz kiválasztása. A MI ott kezdődik, ahol a gép erre már magától is képes. Leginkább az egyszerű logikai következtetést lehet megvalósítani, ahol a gép az input információ ismeretében előre meghatározott válaszok közül választja meg a megfelelőt. Minél kevesebb adatból boldogul el a program, annál közelebb áll ahhoz, amit emberi szemszögből is intelligenciának lehet nevezni.

A témámhoz kapcsolódva, a legegyszerűbb felhasználása az emberi nyelv és a computer összekapcsolásának az, amikor a gép alakítja egy program segítségével az írott szöveget beszéddé. Főként vakok számára hasznosak az effajta programok, de a 6.0 Adobe Reader (pdf olvasó) segítségével bárki kipróbálhatja, hogyan is hangzik. A gépi hang persze nem igen hasonlít élő beszédre, de már képes érzékelni a szintaktikai egységeket (írásjelek alapján) és a kiejtés az angol nyelv szabályaira épülve annyira precíz, amennyire lehet. Ebben tehát annyit értek el a kutatók, amennyit már komoly haladásnak lehet nevezni.

Bár a beszédet szöveggé alakító szoftverekből már több is piacra került, azonban ezek beszédértése még messze nem tökéletes. Statisztikai módszereken, valószínűség-számításon alapul, ezért a beszéd szöveggé konvertálása még nagy hibaszázalékkal működik. A program az érzékelt fonémákat összeveti a szótárában található egységekkel, és kiválasztja a legvalószínűbbet. Ennek azonban egyáltalán nem tökéletes az eredménye. Főként igaz ez a hétköznapi szövegek esetében, ahol a kombinációk száma sokkal nagyobb, mint egy specifikus témájú (pl. üzleti, szaktudományos) diktálás esetén, amely utóbbiban a program feladatát a behatárolt szókincs és állandó (visszatérő) kifejezések megkönnyítik.

A beszédértés során adódó különbségek sokkal kisebbek (de nem kevésbé fontosak) is lehetnek, mint a nyelvtan szabálytalansága, és a szókészlet. A hangok szintjén is vannak nehézségek. Tökéletesen zajmentes környezetet csak kísérleti körülmények során lehet generálni. A háttérzaj pedig megnehezíti a fonémák azonosítását. Az egyes emberek pedig különböző módon ejtik ugyanazon hangokat. Igaz, hogy egy nyelven belül a fonémák a szavakban azonosak elméleti szinten, gyakorlatilag azonban egy beszélő különböző szavakban – vagy különböző beszélők ugyanazon szavakban másképp ejtik ezeket.

Számunkra nem okoz talán gondot a különbségek feldolgozása, de a számítógép számára ez inkább olyan, mint ahogyan idegen nyelvek tanulása során egy ideig nehézséget okoz egy anyanyelvű beszélő megértése. Gyakran észrevesszük, hogy ketten nem ejtik ugyanúgy a szavakat, más a mondattempójuk, a hanglejtésük. Ha ez az agyunk számára gond, a számítógépek kevésbé fejlett „beszédközpontjának” szinte lehetetlen feladat. Ahogyan nekünk is, a gépnek is meg kell tanulnia alkalmazkodni. A gép nem rendelkezik azzal a LAD (Language Acquisition Device) egységgel, amely segítségével egy gyermek beszélni (pontosabban kommunikálni, mert a jelbeszéd is a hangos beszéddel azonos módon viselkedik, és az elsajátítás módja is azonos). A beszédértő programok – és fejlesztőik – sokára küzdhetik még le hátrányaikat. Ehhez szükséges a tanulásra alkalmas programok fejlesztése.

A beszédet szöveggé alakító alkalmazások közül példaként említeném az IBM által fejlesztett ViaVoice programot. Egy „egyszerű” program, a feladata limitált parancsok megértése, és hang szöveggé alakítása. Ehhez azonban először előre bevitt szövegeket kell a felhasználónak felolvasnia, amely során a gép megszokja az egyéni sajátosságokat. Ennek ellenére a végeredmény hibaszázaléka jelentős. A diktálás lassú és körülményes, mert minden szót külön kell artikulálni, hogy megértse. Ennek oka a néhány bekezdéssel feljebb említett hiányos (hibás, rossz minőségű) input információ. A lehetőségek skálája elég széles ahhoz, hogy a tévedés aránya magasnak tűnjön. Ezen lehet segíteni azzal, hogyha megadunk ránk jellemző szövegeket, majd ezeket felolvassuk. Így a program megszokja a jellemző szófordulatokat – és a kiejtésünket.

A beszédértés (azaz inkább csak hallás) nehézségein a kutatók többek között úgy próbálnak segíteni, hogy az audio adatokat képi információkkal (felvétel arc- és szájmozgásról) egészítik ki. Így a zajtényező csökken, a tévedések száma szintén. Ami marad, az a nyelv sajátossága, mint a homofon szavak (pl. to~two~too). Az eredmények határozottan javulnak, ez azonban még mindig csak egy irányú: egy jó minőségű szöveget adó, de azt nem szükségszerűen értő alkalmazás. A cél ebben a lépésben azonban ennyi: egy program, amelynek lehet diktálni, és amely alapfunkciókat (egy programablak megnyitása, szöveges jegyzet készítése) alacsony hibaszázalékkal végez.

A beszéd megértése, amely a gép és ember kétirányú kapcsolatához szükséges, még mindig az elméleti fázisban van. A kész fejlesztések számos tényezőt nem tudnak (jelenleg) figyelembe venni. Ilyenek a metakommunikációs jelek, az érzelmi töltés, a visszautalás (névmással, előző kifejezésre). Ezért a programok alkalmasak lesznek egyszerű – még nem emberien „intelligens” – üzleti feladatok ellátására, de többre még nem. Alighanem a science-fiction jellegű intelligens gépeken kívül, amelyek a puszta következtetések alapján történő szabályalkotáson túl valóban kreatív, és „érti” a beszédet erre soha nem lesz lehetőség.

Mindezek azonban szükségesek a kétirányú kommunikációhoz, de akár a gépi fordításhoz is. Az IBM 2003-ban tett ígérete szerint hét éven belül a gépi fordítást tökélyre lehet vinni. Ellentmond ennek egy sor tényező, amely az emberi kommunikáció formáit bonyolítja. A beszélt nyelv nem követ szigorú nyelvtani szabályokat (különösen az angol), léteznek érzelem kifejezésére szolgáló fordulatok, többletjelentés, szójátékok, és számtalan olyan apróság, amely nélkül egy fordítás elveszíti kommunikációs értékének jó részét. Tehát még hosszú ideig tartó fejlesztésekre lesz szükség a „tökéletesség” eléréséhez akkor is, amennyiben kizárólag szakfordítói feladatokra kívánjuk felhasználni ezen programokat. Az irodalmi fordítás pedig marad az embereknek.

1. ábra[1]

A mesterséges intelligencia kifejezés az érdeklődő számára egy különös képet ábrázol. Egyszerre van tele lehetőségekkel és korlátokkal. Ameddig a saját agyunk (akár csak a nyelvi központ) működését sem értjük, nehezen tudnánk egy gépet hasonló szintre fejleszteni. A MI programok egyre inkább az idegműködést igyekeznek utánozni a tanulás mechanizmusában, az információ továbbításában, ez nem sokban különbözik attól, mint ahogyan a kvantumfizika eredményeit használjuk, az elvek precíz elméleti meghatározása nélkül. Hogy hová vezet mindez, az még kérdés. Mindenesetre kár azon aggódni, hogy a computerek átveszik az ember szerepét, messze vagyunk még attól.

Néhány link a kapcsolódó oldalakhoz:

Agent Portál

Ezen belül:

A beszédfelismerés jövője

Szájról olvasó, jelbeszédet értő számítógépek

Beszédfelismerés, nyelvmegértés, automata személyiségek

Dal vagy beszéd?

Beszélő számítógépek

Számítógépes látás és arcfelismerés

Mondatokat átfogalmazó szoftver

Statisztikai módszer gépi fordításra

Fordítás

http://www.babelfish.org/

http://www.foreignword.com/Tools/transnow.htm

Érdekességek

Emberi viselkedést tanulnak az animált karakterek

http://www.biota.org/ - evolúció és mesterséges élet

[1] Tulajdonképpen az oldalon magyar-angol fordítást is lehetne készíteni, de sajnos, valamiért hibajelzést adott. Ezért válaszottam Cicerót: “Quo usque tandem abutere, Catilina, patientia nostra?” A név nem tudom, hogy megváltozatatta volna-e a végeredményt. Mindenesetre az irodalmi (adott esetben szónoki) szöveg fordításának nehézségét kifejezi