Ang gidaghanon sa mga aplikasyon ug ang kahinungdanon sa mga interface sa tingog kusog nga mitubo
sa teknolohiya

Ang gidaghanon sa mga aplikasyon ug ang kahinungdanon sa mga interface sa tingog kusog nga mitubo

Usa ka pamilyang Amerikano sa Portland, Oregon bag-o lang nahibal-an nga ang voice assistant ni Alex nagrekord sa ilang mga pribadong chat ug gipadala kini sa usa ka higala. Ang tag-iya sa balay, nga ginganlag Danielle sa media, niingon sa mga tigbalita nga "dili na niya i-plug ang maong device pag-usab tungod kay dili siya kasaligan."

Alexa, nga gihatag sa Echo (1) nga mga mamumulong ug uban pang mga gadyet sa napulo ka milyon nga mga balay sa US, magsugod sa pagrekord sa diha nga kini makadungog sa iyang ngalan o "tawag sa pulong" nga gisulti sa tiggamit. Kini nagpasabut nga bisan kung ang pulong nga "Alexa" gihisgutan sa usa ka ad sa TV, ang aparato mahimong magsugod sa pagrekord. Mao gyud kana ang nahitabo sa kini nga kaso, ingon ang Amazon, ang distributor sa hardware.

"Ang nahabilin nga panag-istoryahanay gihubad sa voice assistant ingon usa ka mando nga magpadala usa ka mensahe," ingon sa kompanya sa usa ka pahayag. "Sa usa ka punto, si Alexa kusog nga nangutana: "Kang kinsa?" Ang pagpadayon sa panag-istoryahanay sa pamilya bahin sa hardwood nga salog kinahanglan nga gihunahuna sa makina ingon usa ka butang sa lista sa kontak sa kustomer. Labing menos kana ang gihunahuna sa Amazon. Sa ingon, ang paghubad nahimo’g sunud-sunod nga mga aksidente.

Ang kabalaka, bisan pa, nagpabilin. Tungod kay sa pipila ka mga rason, sa usa ka balay diin mibati gihapon kami sa kasayon, kita kinahanglan nga mosulod sa usa ka matang sa "voice mode", tan-awa unsa ang atong isulti, unsa ang TV nagsibya ug, siyempre, unsa ang bag-ong mamumulong sa dughan sa nag-ingon ang mga drawer. kanato.

Apan, Bisan pa sa mga kakulangan sa teknolohiya ug mga kabalaka sa pagkapribado, sa pagtaas sa pagkapopular sa mga aparato sama sa Amazon Echo, ang mga tawo nagsugod nga naanad sa ideya nga makig-uban sa mga kompyuter gamit ang ilang tingog..

Sama sa giingon ni Werner Vogels, CTO sa Amazon, atol sa iyang AWS re:Invent session sa ulahing bahin sa 2017, ang teknolohiya sa pagkakaron limitado ang atong abilidad sa pagpakig-uban sa mga kompyuter. Nag-type kami sa mga keyword sa Google gamit ang keyboard, tungod kay kini gihapon ang labing kasagaran ug labing kadali nga paagi sa pagsulod sa impormasyon sa makina.

Matud ni Vogels. -

dako nga upat

Kung gigamit ang search engine sa Google sa telepono, tingali nakamatikod kami usa ka timaan sa mikropono nga adunay usa ka tawag sa pagsulti sa dugay na nga panahon. Kini Google karon (2), nga magamit sa pagdiktar sa usa ka pangutana sa pagpangita, pagsulod sa usa ka mensahe pinaagi sa tingog, ug uban pa. Sa bag-ohay nga mga tuig, ang Google, Apple, ug Amazon miuswag pag-ayo teknolohiya sa pag-ila sa tingog. Ang mga katabang sa tingog sama ni Alexa, Siri, ug Google Assistant dili lamang nagrekord sa imong tingog, apan nakasabut usab sa imong gisulti kanila ug nagtubag sa mga pangutana.

Ang Google Now magamit nga libre sa tanan nga tiggamit sa Android. Ang aplikasyon mahimo, pananglitan, magbutang usa ka alarma, susihon ang forecast sa panahon ug susihon ang ruta sa mga mapa sa Google. Ang extension sa panag-istoryahanay sa mga estado sa Google Now Google Assistant () – virtual nga tabang sa tiggamit sa mga ekipo. Anaa kini labi na sa mga mobile ug smart home device. Dili sama sa Google Now, makaapil kini sa duha ka paagi nga pagbinayloay. Ang assistant debuted niadtong Mayo 2016 isip kabahin sa Google messaging app nga Allo, ingon man sa Google Home voice speaker (3).

3. Google Panimalay

Ang sistema sa IOS usab adunay kaugalingon nga virtual nga katabang, Siri, nga usa ka programa nga gilakip sa mga operating system sa Apple nga iOS, watchOS, tvOS homepod, ug macOS. Ang Siri debuted sa iOS 5 ug ang iPhone 4s niadtong Oktubre 2011 sa Let's Talk iPhone conference.

Ang software gibase sa usa ka interface sa panag-istoryahanay: kini nakaila sa natural nga sinultihan sa user (uban sa iOS 11 posible usab nga manu-mano ang pagsulod sa mga command), pagtubag sa mga pangutana ug pagkompleto sa mga buluhaton. Salamat sa pagpaila sa pagkat-on sa makina, usa ka katabang sa paglabay sa panahon nag-analisar sa personal nga mga gusto ang tiggamit sa paghatag og mas may kalabutan nga mga resulta ug rekomendasyon. Ang Siri nanginahanglan kanunay nga koneksyon sa Internet - ang panguna nga gigikanan sa kasayuran dinhi mao ang Bing ug Wolfram Alpha. Gipaila sa iOS 10 ang suporta alang sa mga extension sa ikatulong partido.

Laing usa sa dako nga upat Cortana. Kini usa ka intelihente nga personal nga katabang nga gihimo sa Microsoft. Gisuportahan kini sa Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android, ug iOS nga mga plataporma. Si Cortana unang gipaila sa Microsoft Build Developer Conference niadtong Abril 2014 sa San Francisco. Ang ngalan sa programa naggikan sa ngalan sa usa ka karakter gikan sa Halo game series. Anaa si Cortana sa English, Italian, Spanish, French, German, Chinese, ug Japanese.

Mga tiggamit sa nahisgutan na nga programa Alexa kinahanglan usab nila nga tagdon ang mga pagdili sa pinulongan - ang digital assistant nagsulti lamang sa English, German, French ug Japanese.

Ang Amazon Virtual Assistant unang gigamit sa Amazon Echo ug Amazon Echo Dot smart speakers nga gihimo sa Amazon Lab126. Makapahimo kini sa interaksyon sa tingog, playback sa musika, paghimo sa listahan sa buhaton, setting sa alarma, streaming sa podcast, playback sa audiobook, ug real-time nga panahon, trapiko, sports, ug uban pang impormasyon sa balita sama sa balita (4). Mahimo makontrol ni Alexa ang daghang mga smart device aron makahimo og sistema sa automation sa balay. Mahimo usab kini gamiton sa paghimo og sayon ​​​​nga pagpamalit sa tindahan sa Amazon.

4. Unsa ang Gigamit sa mga Gumagamit sa Echo (Sumala sa Panukiduki)

Ang mga tiggamit makapauswag sa kasinatian sa Alexa pinaagi sa pag-instalar sa mga "kahanas" sa Alexa (), dugang nga mga bahin nga gihimo sa mga ikatulo nga partido, nga mas sagad nga gitawag nga mga app sama sa panahon ug mga programa sa audio sa ubang mga setting. Kadaghanan sa mga aparato sa Alexa nagtugot kanimo nga ma-aktibo ang imong virtual nga katabang gamit ang usa ka password sa pagmata, nga gitawag usa ka .

Ang Amazon siguradong nagdominar sa merkado sa smart speaker karon (5). Ang IBM, nga nagpaila sa usa ka bag-ong serbisyo kaniadtong Marso 2018, naningkamot nga makasulod sa top four Katabang ni Watson, gidisenyo alang sa mga kompanya nga gusto nga maghimo sa ilang kaugalingon nga mga sistema sa mga virtual nga katabang nga adunay kontrol sa tingog. Unsa ang kaayohan sa solusyon sa IBM? Sumala sa mga representante sa kompanya, una sa tanan, sa labi ka daghang mga oportunidad alang sa pag-personalize ug pagpanalipod sa pagkapribado.

Una, ang Watson Assistant dili branded. Ang mga kompanya makahimo sa ilang kaugalingon nga mga solusyon sa kini nga plataporma ug label kini sa ilang kaugalingon nga brand.

Ikaduha, mahimo nilang bansayon ​​ang ilang mga assistive system gamit ang ilang kaugalingong data sets, nga giingon sa IBM nga mas sayon ​​ang pagdugang sa mga feature ug commands sa maong sistema kay sa ubang VUI (voice user interface) nga mga teknolohiya.

Ikatulo, ang Watson Assistant wala maghatag sa IBM og impormasyon bahin sa kalihokan sa user - ang mga developers sa mga solusyon sa plataporma makatago lamang sa bililhong datos sa ilang kaugalingon. Samtang, bisan kinsa nga nagtukod mga aparato, pananglitan sa Alexa, kinahanglan mahibal-an nga ang ilang bililhon nga datos mahuman sa Amazon.

Ang Watson Assistant adunay daghang mga pagpatuman. Ang sistema gigamit, pananglitan, ni Harman, nga nagmugna og voice assistant alang sa Maserati concept car (6). Sa Munich Airport, usa ka katabang sa IBM ang naghatag gahum sa usa ka robot nga Pepper aron matabangan ang mga pasahero nga molihok. Ang ikatulo nga pananglitan mao ang Chameleon Technologies, diin ang teknolohiya sa tingog gigamit sa usa ka smart home meter.

6. Watson Assistant sa usa ka Maserati concept car

Angayan nga idugang nga ang nagpahiping teknolohiya dinhi dili usab bag-o. Ang Watson Assistant naglakip sa mga kapabilidad sa pag-encrypt alang sa kasamtangan nga mga produkto sa IBM, Watson Conversation, ug Watson Virtual Agent, ingon man mga API alang sa pagtuki sa pinulongan ug chat.

Ang Amazon dili lamang usa ka lider sa smart voice technology, apan gihimo kini nga direkta nga negosyo. Bisan pa, ang pipila nga mga kompanya nag-eksperimento sa panagsama sa Echo sa sayo pa. Ang Sisense, usa ka kompanya sa industriya sa BI ug analytics, nagpaila sa panagsama sa Echo kaniadtong Hulyo 2016. Sa baylo, ang startup nga si Roxy nakahukom sa paghimo sa kaugalingon nga software ug hardware nga adunay kontrol sa tingog alang sa industriya sa pagkamaabiabihon. Sayo niining tuiga, gipaila sa Synqq ang usa ka app sa pagkuha og nota nga naggamit sa tingog ug natural nga pagproseso sa pinulongan aron makadugang sa mga nota ug mga entry sa kalendaryo nga dili kinahanglan nga i-type kini sa keyboard.

Ang tanan niining gagmay nga mga negosyo adunay taas nga mga ambisyon. Labaw sa tanan, bisan pa, nahibal-an nila nga dili tanan nga tiggamit gusto nga ibalhin ang ilang datos sa Amazon, Google, Apple o Microsoft, nga mao ang labing hinungdanon nga magdudula sa pagtukod sa mga platform sa komunikasyon sa tingog.

Gusto sa mga Amerikano nga mopalit

Kaniadtong 2016, ang pagpangita sa tingog nagkantidad sa 20% sa tanan nga pagpangita sa mobile sa Google. Ang mga tawo nga naggamit niini nga teknolohiya sa adlaw-adlaw naghisgot sa kasayon ​​niini ug multitasking taliwala sa pinakadako nga benepisyo niini. (pananglitan, ang abilidad sa paggamit sa usa ka search engine samtang nagdrayb sa usa ka sakyanan).

Gibanabana sa mga analista sa Visiongain ang karon nga kantidad sa merkado sa mga smart digital assistant sa $ 1,138 bilyon. Adunay nagkadaghan nga mga mekanismo. Sumala sa Gartner, sa katapusan sa 2018 na 30% sa among mga interaksyon uban sa teknolohiya pinaagi sa mga panag-istoryahanay sa mga sistema sa tingog.

Ang British research firm nga IHS Markit nagbanabana nga ang merkado alang sa AI-powered digital assistants moabot sa 4 bilyones nga mga himan sa katapusan niining tuiga, ug kana nga gidaghanon mahimong mosaka ngadto sa 2020 bilyon sa 7.

Sumala sa mga taho gikan sa eMarketer ug VoiceLabs, 2017 milyon nga mga Amerikano ang naggamit sa pagkontrol sa tingog labing menos kausa sa usa ka bulan sa 35,6. Nagpasabot kini nga pagtaas sa hapit 130% kaysa sa miaging tuig. Ang merkado sa digital assistant nga nag-inusara gilauman nga motubo sa 2018% sa 23. Kini nagpasabot nga magamit na nimo kini. 60,5 milyon nga Amerikano, nga moresulta sa konkretong salapi alang sa ilang mga prodyuser. Gibanabana sa RBC Capital Markets nga ang interface sa Alexa makamugna hangtod sa $2020 bilyon nga kita alang sa Amazon sa 10.

Hugasi, pagluto, limpyo!

Ang mga interface sa tingog labi nga maisugon nga nagsulod sa mga gamit sa balay ug mga merkado sa elektronikong consumer. Makita na kini atol sa exhibition sa IFA 2017 sa miaging tuig. Ang American company nga Neato Robotics mipaila, pananglitan, usa ka robot vacuum cleaner nga nagkonektar sa usa sa daghang mga smart home platform, lakip ang Amazon Echo system. Pinaagi sa pagpakigsulti sa Echo smart speaker, mahimo nimong tudloan ang makina sa paglimpyo sa imong tibuok balay sa piho nga mga oras sa adlaw o gabii.

Ang ubang mga produkto nga gi-aktibo sa tingog gipakita sa pasundayag, gikan sa mga smart TV nga gibaligya sa ilawom sa tatak nga Toshiba sa kompanya nga Turko nga Vestel hangtod sa gipainit nga mga habol sa kompanya nga Aleman nga Beurer. Daghan niining mga electronic device mahimo usab nga ma-activate sa layo gamit ang mga smartphone.

Bisan pa, sumala sa mga representante sa Bosch, sayo pa kaayo aron isulti kung kinsa sa mga kapilian sa katabang sa balay ang mahimong dominante. Sa IFA 2017, usa ka German nga teknikal nga grupo ang nagpakita sa mga washing machine (7), mga hurnohan ug mga makina sa kape nga nagkonektar sa Echo. Gusto usab sa Bosch nga ang mga aparato niini mahiuyon sa mga platform sa tingog sa Google ug Apple sa umaabot.

7. Bosch washing machine nga nagkonektar sa Amazon Echo

Ang mga kompanya sama sa Fujitsu, Sony ug Panasonic nagpalambo sa ilang kaugalingon nga AI-based voice assistant solutions. Gidugang ni Sharp kini nga teknolohiya sa mga hurnohan ug gagmay nga mga robot nga mosulod sa merkado. Ang Nippon Telegraph & Telephone nag-hire og hardware ug mga tighimo og dulaan aron ipahiangay ang usa ka sistema sa artificial intelligence nga kontrolado sa tingog.

Karaang konsepto. Miabot na ba ang iyang panahon?

Sa tinuud, ang konsepto sa Voice User Interface (VUI) naglibot sa mga dekada. Bisan kinsa nga nagtan-aw sa Star Trek o 2001: A Space Odyssey mga tuig na ang milabay lagmit nagdahom nga sa tuig 2000 kitang tanan makontrol ang mga kompyuter gamit ang atong mga tingog. Usab, dili lang mga magsusulat sa science fiction ang nakakita sa potensyal sa kini nga klase sa interface. Sa 1986, ang mga tigdukiduki sa Nielsen nangutana sa mga propesyonal sa IT kung unsa ang ilang gihunahuna nga labing dako nga pagbag-o sa mga interface sa gumagamit sa tuig 2000. Kanunay nilang gipunting ang pag-uswag sa mga interface sa tingog.

Adunay mga katarongan nga maglaum alang sa ingon nga solusyon. Ang berbal nga komunikasyon mao, sa pagkatinuod, ang labing natural nga paagi alang sa mga tawo nga mahunahunaon nga magbayloay og mga hunahuna, mao nga ang paggamit niini alang sa interaksyon sa tawo-machine ingon og ang pinakamaayo nga solusyon sa pagkakaron.

Usa sa unang mga VUI, gitawag kahon sa sapatos, gimugna sa sayong bahin sa 60s sa IBM. Kini ang nag-una sa mga sistema sa pag-ila sa tingog karon. Bisan pa, ang pag-uswag sa mga aparato sa VUI limitado sa mga limitasyon sa gahum sa pag-compute. Ang pag-parse ug paghubad sa sinultihan sa tawo sa tinuud nga oras nanginahanglan daghang paningkamot, ug mikabat ug kapin sa kalim-an ka tuig aron makaabut sa punto kung diin kini nahimo nga posible.

Ang mga himan nga adunay interface sa tingog nagsugod sa pagpakita sa mass production sa tunga-tunga sa dekada 90, apan wala makaangkon og pagkapopular. Ang una nga telepono nga adunay kontrol sa tingog (pag-dial) mao ang Philips Sparkgipagawas kaniadtong 1996. Bisan pa, kini nga bag-o ug dali gamiton nga aparato dili gawasnon sa mga limitasyon sa teknolohiya.

Ang ubang mga telepono nga adunay mga porma sa voice interface (gibuhat sa mga kompanya sama sa RIM, Samsung o Motorola) kanunay nga naigo sa merkado, nga nagtugot sa mga tiggamit sa pag-dial pinaagi sa tingog o pagpadala sa mga text message. Ang tanan kanila, bisan pa niana, nagkinahanglan sa pagsag-ulo sa piho nga mga sugo ug paglitok niini sa usa ka pinugos, artipisyal nga porma, nga gipahaum sa mga kapabilidad sa mga himan niadtong panahona. Nakamugna kini og daghang mga kasaypanan, nga, sa baylo, misangpot sa pagkadiskontento sa tiggamit.

Bisan pa, nagsulud kami karon sa usa ka bag-ong panahon sa pag-compute, diin ang mga pag-uswag sa pagkat-on sa makina ug ang pag-uswag sa artificial intelligence nagbukas sa potensyal sa panag-istoryahanay ingon usa ka bag-ong paagi sa pakig-uban sa teknolohiya (8). Ang gidaghanon sa mga himan nga nagsuporta sa interaksyon sa tingog nahimong usa ka importante nga butang nga adunay dako nga epekto sa pagpalambo sa VUI. Karon, hapit 1/3 sa populasyon sa kalibutan nanag-iya na sa mga smartphone nga magamit alang niini nga matang sa pamatasan. Morag ang kadaghanan sa mga tiggamit andam na sa pagpahiangay sa ilang mga interface sa tingog.

8. Modernong kasaysayan sa pagpalambo sa voice interface

Bisan pa, sa wala pa kita gawasnon nga makigsulti sa usa ka kompyuter, sama sa gibuhat sa mga bayani sa A Space Odyssey, kinahanglan naton mabuntog ang daghang mga problema. Ang mga makina dili pa kaayo maayo sa pagdumala sa linguistic nuances. Gawas pa daghang mga tawo ang gibati gihapon nga dili komportable sa paghatag ug mga voice command sa usa ka search engine.

Gipakita sa mga estadistika nga ang mga voice assistant kasagarang gigamit sa balay o taliwala sa suod nga mga higala. Walay usa sa mga giinterbyu ang miangkon nga naggamit og voice search sa mga pampublikong lugar. Bisan pa, kini nga blockade lagmit nga mawala sa pagkaylap sa kini nga teknolohiya.

teknikal nga lisud nga pangutana

Ang problema nga giatubang sa mga sistema (ASR) mao ang pagkuha sa mapuslanon nga datos gikan sa usa ka signal sa pagsulti ug pag-asoy niini sa usa ka piho nga pulong nga adunay usa ka piho nga kahulugan alang sa usa ka tawo. Ang mga tunog nga gihimo lahi sa matag higayon.

Pagbag-o sa signal sa pagsulti mao ang natural nga kabtangan niini, salamat nga kita, pananglitan, makaila sa usa ka accent o intonation. Ang matag elemento sa sistema sa pag-ila sa sinultihan adunay usa ka piho nga buluhaton. Pinasukad sa giproseso nga signal ug mga parameter niini, usa ka acoustic nga modelo ang gihimo, nga nalangkit sa modelo sa pinulongan. Ang sistema sa pag-ila mahimong molihok base sa gamay o dako nga gidaghanon sa mga sumbanan, nga nagtino sa gidak-on sa bokabularyo nga gigamit niini. Sila tingali gagmay nga mga diksyonaryo sa kaso sa mga sistema nga nag-ila sa indibidwal nga mga pulong o mga sugo, ingon man usab dagkong mga database naglangkob sa katumbas sa set sa lengguwahe ug gikonsiderar ang modelo sa lengguwahe (gramatika).

Ang mga problema nga giatubang sa mga interface sa tingog sa una sabta sa hustong paagi ang sinultihan, diin, pananglitan, ang tibuok nga mga han-ay sa gramatika kanunay nga wala iapil, ang linguistic ug phonetic nga mga sayop, mga sayup, mga pagkawala, mga depekto sa pagsulti, mga homonym, dili makatarunganon nga mga pagbalik-balik, ug uban pa mahitabo. Kining tanan nga mga sistema sa ACP kinahanglan nga molihok dayon ug kasaligan. Sa labing gamay mao ang mga gilauman.

Ang tinubdan sa mga kalisdanan mao usab ang mga acoustic signal gawas sa giila nga sinultihan nga mosulod sa input sa sistema sa pag-ila, i.e. tanang matang interference ug kasaba. Sa pinakasimple nga kaso, kinahanglan nimo sila pagsala. Kini nga buluhaton daw naandan ug sayon ​​- human sa tanan, lain-laing mga signal sinala ug ang matag electronics engineer nahibalo kon unsa ang buhaton sa ingon nga sitwasyon. Bisan pa, kini kinahanglan nga buhaton nga mabinantayon ug mabinantayon kung ang sangputanan sa pag-ila sa sinultihan aron matuman ang atong mga gilauman.

Ang pagsala nga gigamit karon nagpaposible sa pagtangtang, uban sa signal sa pagsulti, sa gawas nga kasaba nga nakuha sa mikropono ug sa mga internal nga kabtangan sa signal sa pagsulti mismo, nga nagpalisud sa pag-ila niini. Bisan pa, ang usa ka labi ka labi ka komplikado nga teknikal nga problema mitungha kung ang pagpanghilabot sa na-analisa nga signal sa pagsulti mao ang ... lain nga signal sa pagsulti, nga mao, pananglitan, kusog nga mga diskusyon sa palibot. Kini nga pangutana nailhan sa literatura nga gitawag nga . Nagkinahanglan na kini sa paggamit sa komplikadong mga pamaagi, ang gitawag. deconvolution (pag-unravel) sa signal.

Ang mga problema sa pag-ila sa sinultihan wala matapos didto. Angayan nga mahibal-an nga ang sinultihan nagdala sa daghang lainlain nga klase sa kasayuran. Ang tingog sa tawo nagsugyot sa gender, edad, lain-laing mga karakter sa tag-iya o sa kahimtang sa iyang panglawas. Adunay usa ka halapad nga departamento sa biomedical engineering nga naghisgot sa pagdayagnos sa lainlaing mga sakit base sa mga kinaiya nga acoustic phenomena nga makita sa signal sa pagsulti.

Adunay usab mga aplikasyon diin ang panguna nga katuyoan sa pagtuki sa tunog sa usa ka signal sa pagsulti mao ang pag-ila sa mamumulong o pagtino nga siya ang iyang giangkon nga (tingog imbes nga yawe, password o PUK code). Mahimong hinungdanon kini, labi na alang sa mga teknolohiya sa intelihente nga pagtukod.

Ang unang bahin sa usa ka sistema sa pag-ila sa sinultihan mao ang ang mikropono. Bisan pa, ang signal nga gikuha sa mikropono kasagarang wala kaayo magamit. Gipakita sa mga pagtuon nga ang porma ug dagan sa sound wave managlahi kaayo depende sa tawo, sa gikusgon sa pagsulti, ug sa usa ka bahin sa mood sa interlocutor - samtang sa gamay nga gidak-on kini nagpakita sa mismong sulod sa gisulti nga mga sugo.

Busa, ang signal kinahanglan nga husto nga pagproseso. Ang mga moderno nga acoustics, phonetics ug computer science magkauban naghatag ug daghang hugpong sa mga himan nga magamit sa pagproseso, pag-analisar, pag-ila ug pagsabut sa usa ka signal sa pagsulti. Ang dinamikong spectrum sa signal, ang gitawag nga dinamikong spectrograms. Sayon ra kini nga makuha, ug ang sinultihan nga gipresentar sa porma sa usa ka dinamikong spectrogram medyo dali mailhan gamit ang mga teknik nga parehas sa gigamit sa pag-ila sa imahe.

Ang yano nga mga elemento sa pagsulti (pananglitan, mga mando) mahimong mailhan pinaagi sa yano nga pagkaparehas sa tibuuk nga spectrograms. Pananglitan, ang voice-activated mobile phone dictionary naglangkob lang sa pipila ka napulo ngadto sa pipila ka gatos ka pulong ug hugpong sa mga pulong, kasagaran pre-stacked aron kini dali ug episyente nga mailhan. Kini igo na alang sa yano nga mga buluhaton sa pagkontrol, apan kini grabe nga naglimite sa kinatibuk-ang aplikasyon. Ang mga sistema nga gitukod sumala sa laraw, ingon nga usa ka lagda, nagsuporta lamang sa piho nga mga mamumulong diin ang mga tingog espesyal nga gibansay. Mao nga kung adunay bag-o nga gusto mogamit sa ilang tingog aron makontrol ang sistema, lagmit dili sila madawat.

Ang resulta niini nga operasyon gitawag 2-W spectrogram, nga mao, usa ka duha-ka-dimensional nga spectrum. Adunay lain nga kalihokan sa kini nga bloke nga angay hatagan pagtagad - pagbahinbahin. Sa kinatibuk-an, naghisgot kami bahin sa pagbungkag sa usa ka padayon nga signal sa pagsulti ngadto sa mga bahin nga mahimong mailhan nga gilain. Gikan lamang niining mga indibidwal nga pagdayagnos nga ang pag-ila sa kinatibuk-an naporma. Kini nga pamaagi gikinahanglan tungod kay dili posible nga mailhan ang usa ka taas ug komplikado nga sinultihan sa usa ka lakaw. Ang tibuok volume gisulat na mahitungod sa unsa nga mga bahin ang mailhan sa usa ka signal sa pagsulti, mao nga dili na kita magdesisyon karon kung ang mga bantog nga mga bahin kinahanglan nga mga ponema (mga katumbas sa tunog), mga silaba, o tingali mga alopono.

Ang proseso sa awtomatik nga pag-ila kanunay nagtumong sa pipila ka mga bahin sa mga butang. Gatusan ka mga set sa lain-laing mga parameter ang gisulayan alang sa signal sa pagsulti gibahin ngadto sa giila nga mga bayanan ug adunay pinili nga mga bahindiin kini nga mga frame gipresentar sa proseso sa pag-ila, mahimo namong buhaton (alang sa matag frame nga gilain) pagklasipikar, i.e. paghatag ug identifier sa frame, nga magrepresentar niini sa umaabot.

Sunod nga yugto asembliya sa mga bayanan ngadto sa lain-laing mga pulong - kasagaran gibase sa gitawag nga. modelo sa implicit nga mga modelo sa Markov (HMM-). Unya moabut ang montage sa mga pulong kompleto nga mga sentence.

Makabalik na kami sa sistema sa Alexa sa makadiyot. Ang iyang panig-ingnan nagpakita sa usa ka multi-stage nga proseso sa makina nga "pagsabot" sa usa ka tawo - nga mas tukma: usa ka sugo nga gihatag kaniya o usa ka pangutana nga gipangutana.

Ang pagsabut sa mga pulong, pagsabut sa kahulugan, ug pagsabut sa katuyoan sa tiggamit hingpit nga lahi nga mga butang.

Busa, ang sunod nga lakang mao ang buhat sa NLP module (), ang tahas niini pag-ila sa katuyoan sa tiggamit, i.e. ang kahulogan sa sugo/pangutana sa konteksto diin kini gilitok. Kung nahibal-an ang katuyoan, nan assignment sa gitawag nga mga kahanas ug abilidad, i.e. ang piho nga bahin nga gisuportahan sa maalamon nga katabang. Sa kaso sa usa ka pangutana bahin sa panahon, ang mga tinubdan sa datos sa panahon gitawag, nga nagpabilin nga proseso sa pagsulti (TTS - mekanismo). Ingon usa ka sangputanan, ang tiggamit makadungog sa tubag sa pangutana nga gipangutana.

Tingog? Graphic arts? O tingali ang duha?

Ang labing nailhan nga modernong mga sistema sa interaksyon gibase sa usa ka tigpataliwala nga gitawag graphical nga user interface (graphical nga interface). Ikasubo, ang GUI dili ang labing klaro nga paagi aron makig-uban sa usa ka digital nga produkto. Nagkinahanglan kini nga ang mga tiggamit una nga makakat-on kung giunsa ang paggamit sa interface ug hinumdoman kini nga kasayuran sa matag sunod nga interaksyon. Sa daghang mga sitwasyon, ang tingog mas sayon, tungod kay mahimo ka nga makig-uban sa VUI pinaagi lamang sa pagsulti sa device. Usa ka interface nga dili mopugos sa mga tiggamit sa pagsag-ulo ug pagsag-ulo sa pipila ka mga sugo o mga pamaagi sa interaksyon hinungdan sa mas gamay nga mga problema.

Siyempre, ang pagpalapad sa VUI wala magpasabot nga biyaan ang mas tradisyonal nga mga interface - hinoon, ang hybrid nga mga interface mahimong magamit nga naghiusa sa daghang mga paagi sa pagpakig-uban.

Ang interface sa tingog dili angay alang sa tanan nga mga buluhaton sa usa ka konteksto sa mobile. Uban niini, tawgon namon ang usa ka higala nga nagmaneho sa usa ka awto, ug ipadala pa siya usa ka SMS, apan ang pagsusi sa labing bag-ong mga pagbalhin mahimong lisud kaayo - tungod sa kadaghan sa kasayuran nga gipasa sa sistema () ug namugna sa sistema (sistema). Sama sa gisugyot ni Rachel Hinman sa iyang libro nga Mobile Frontier, ang paggamit sa VUI mahimong labing epektibo sa pagbuhat sa mga buluhaton diin ang gidaghanon sa input ug output nga impormasyon gamay ra.

Ang usa ka smartphone nga konektado sa Internet kombenyente apan dili usab kombenyente (9). Sa matag higayon nga ang usa ka user gusto nga mopalit og usa ka butang o mogamit og bag-ong serbisyo, kinahanglan silang mag-download og laing app ug maghimo og bag-ong account. Usa ka natad alang sa paggamit ug pagpalambo sa mga interface sa tingog nahimo dinhi. Imbis nga pugson ang mga tiggamit sa pag-instalar sa daghang lain-laing mga app o paghimo og bulag nga mga account alang sa matag serbisyo, ang mga eksperto nag-ingon nga ang VUI magbalhin sa palas-anon niining mga hago nga buluhaton ngadto sa AI-powered voice assistant. Mahimong kombenyente alang kaniya ang paghimog hago nga mga kalihokan. Magsugo ra mi niya.

9. Tingog interface pinaagi sa smart phone

Karon, labaw pa sa usa ka telepono ug kompyuter ang konektado sa Internet. Ang mga smart thermostat, suga, kettle ug daghan pang uban nga IoT-integrated device konektado usab sa network (10). Busa, adunay mga wireless device sa atong palibot nga nagpuno sa atong kinabuhi, apan dili tanan niini natural nga mohaum sa graphical user interface. Ang paggamit sa VUI makatabang kanimo nga dali nga maapil sila sa among palibot.

10. Voice interface uban sa Internet sa mga Butang

Ang paghimo og voice user interface sa dili madugay mahimong usa ka yawe nga kahanas sa tigdesinyo. Kini usa ka tinuod nga problema - ang panginahanglan sa pagpatuman sa mga sistema sa tingog magdasig kanimo sa pag-focus sa mas aktibo nga disenyo, nga mao, pagsulay sa pagsabut sa mga inisyal nga intensyon sa user, pagpaabut sa ilang mga panginahanglan ug mga gilauman sa matag yugto sa panag-istoryahanay.

Ang Tingog usa ka episyente nga paagi sa pagsulod sa datos-kini nagtugot sa mga tiggamit nga dali nga mag-isyu sa mga mando sa sistema sa ilang kaugalingon nga mga termino. Sa laing bahin, ang screen naghatag og usa ka episyente nga paagi sa pagpakita sa impormasyon: kini nagtugot sa mga sistema sa pagpakita sa usa ka dako nga kantidad sa impormasyon sa samang higayon, pagpakunhod sa palas-anon sa panumduman sa mga tiggamit. Makataronganon nga ang paghiusa kanila ngadto sa usa ka sistema daw makapadasig.

Ang mga smart speaker sama sa Amazon Echo ug Google Home wala gyud magtanyag og visual display. Mahinungdanon nga nagpauswag sa katukma sa pag-ila sa tingog sa kasarangan nga mga distansya, gitugotan nila ang operasyon nga wala’y kamot, nga sa baylo nagdugang sa ilang pagka-flexible ug kahusayan - kini gitinguha bisan alang sa mga tiggamit nga adunay mga smartphone nga adunay kontrol sa tingog. Bisan pa, ang kakulang sa usa ka screen usa ka dako nga limitasyon.

Ang mga beep ra ang magamit sa pagpahibalo sa mga tiggamit sa posible nga mga mando, ug ang pagbasa sa output nga kusog mahimong makakapoy gawas sa labing sukaranan nga mga buluhaton. Ang pag-set og timer nga adunay voice command samtang nagluto maayo, apan ang pagpangutana kanimo kung pila ang nahabilin nga oras dili kinahanglan. Ang pagkuha sa usa ka regular nga forecast sa panahon mahimong usa ka pagsulay sa panumduman alang sa tiggamit, nga kinahanglan maminaw ug mosuhop sa usa ka serye sa mga kamatuoran sa tibuok semana, imbes nga kuhaon kini gikan sa screen sa usa ka pagtan-aw.

Ang mga tigdesinyo naa na hybrid nga solusyon, Echo Show (11), nga midugang og display screen sa batakang Echo smart speaker. Gipadako niini pag-ayo ang pag-andar sa kagamitan. Bisan pa, ang Echo Show labi pa nga dili kaayo makahimo sa mga sukaranan nga mga gimbuhaton nga dugay na nga magamit sa mga smartphone ug tablet. Dili kini (pa) mag-surf sa web, magpakita og mga review, o magpakita sa sulod sa usa ka shopping cart sa Amazon, pananglitan.

Ang usa ka biswal nga pagpakita usa ka labi ka epektibo nga paagi sa paghatag sa mga tawo og daghang kasayuran kaysa sa tunog. Ang pagdesinyo nga adunay prayoridad sa tingog makapauswag pag-ayo sa interaksyon sa tingog, apan sa kadugayan, ang dili paggamit sa biswal nga menu alang sa interaksyon mahimong sama sa pagpakig-away nga ang usa ka kamot gihigot sa imong likod. Tungod sa nag-ung-ong nga pagkakomplikado sa mga end-to-end nga intelihente nga tingog ug mga interface sa pagpakita, ang mga developer kinahanglan nga seryoso nga maghunahuna sa usa ka hybrid nga pamaagi sa mga interface.

Ang pagdugang sa kahusayan ug katulin sa mga sistema sa paghimo ug pag-ila sa sinultihan nagpaposible nga magamit kini sa mga aplikasyon ug lugar sama sa, pananglitan:

• militar (mga voice command sa mga eroplano o helicopter, pananglitan, F16 VISTA),

• awtomatik nga transkripsyon sa teksto (pulong sa teksto),

• interactive nga sistema sa impormasyon (Prime Speech, voice portals),

• mga mobile device (telepono, smartphone, tablet),

• robotics (Cleverbot - mga sistema sa ASR inubanan sa artipisyal nga paniktik),

• automotive (wala'y kamot nga pagkontrol sa mga sangkap sa awto, sama sa Blue & Me),

• mga aplikasyon sa balay (smart home system).

Pagbantay alang sa kaluwasan!

Ang automotive, mga gamit sa balay, pagpainit/pagpabugnaw ug mga sistema sa seguridad sa balay, ug daghang mga gamit sa balay nagsugod na sa paggamit sa mga interface sa tingog, kasagaran AI-based. Niini nga yugto, ang datos nga nakuha gikan sa milyon-milyon nga mga panag-istoryahanay sa mga makina gipadala sa pag-compute sa mga panganod. Klaro nga ang mga tigpamaligya interesado kanila. Ug dili lamang kanila.

Usa ka bag-o nga taho gikan sa Symantec nga mga eksperto sa seguridad nagsugyot nga ang mga tiggamit sa voice command dili makontrol ang mga bahin sa seguridad sama sa mga kandado sa pultahan, labi na ang mga sistema sa seguridad sa balay. Ingon usab niana ang pagtipig sa mga password o kompidensyal nga kasayuran. Ang seguridad sa artificial intelligence ug smart nga mga produkto wala pa igo nga gitun-an.

Kung ang mga aparato sa tibuuk balay maminaw sa matag pulong, ang peligro sa pag-hack sa sistema ug sayop nga paggamit mahimong usa ka dako nga kabalaka. Kung ang usa ka tig-atake makakuha og access sa lokal nga network o sa mga kaubang email address niini, ang mga setting sa smart device mahimong usbon o i-reset sa mga setting sa pabrika, nga mosangpot sa pagkawala sa bililhong impormasyon ug pagtangtang sa kasaysayan sa user.

Sa laing pagkasulti, ang mga propesyonal sa seguridad nahadlok nga ang AI ug VUI nga gipadagan sa tingog dili pa igo nga kaalam aron mapanalipdan kita gikan sa mga potensyal nga hulga ug pugngan ang atong mga baba kung adunay usa ka estranghero nga nangayo.

Idugang sa usa ka comment