Home > Projecten > Technische Universiteit Delft > Electrotechniek >
Jaarcongres 2011
Nieuws
Agenda
Over STW
Folder STW
Kennisexploitatie
Praktijkvoorbeelden
Logos
Organisatie
Adres en routebeschrijving
Jaarverslagen
Utilisatierapporten
Address and route description
English brochure
STW publicaties
Infobalie
Algemeen
Aanvragers
Referenten en Juryleden
Projectleiders
Gebruikers
Projecten
Programma's
Vacatures
Links
English
Login
Contact

Single-microphone enchancement of noisy speech signals (DET.6042)

Project nummer: det6042

Omschrijving van het onderzoek

Onderzoek
Met de snelle opkomst van mobiele, digitale spraakcommunicatiesystemen is er een toenemende vraag voor het goed functioneren van zulke systemen in omgevingen die akoestische ruis bevatten. Deze vraag geldt, uiteraard, voor mens-mens communicatie (bijvoorbeeld mobiele telefonie), maar door recentelijke verbeteringen in automatische spraakherkenningssytemen, is deze vraag ook zeer belangrijk voor mens-machine communicatie (bijvoorbeeld automatische booking services). Omdat de meeste bestaande systemen zijn ontworpen voor bijna ruisvrije inganssignalen, zijn de prestaties onvoldoende wanneer het ingangssignaal is gedegenereerd met akoestische achtergrondruis. Een oplossing voor dit probleem is om de hoeveelheid achtergrondruis in het ingangssignaal (spraak) te reduceren door gebruik te maken van een speech-enhancementalgoritme als pre-processing stap, d.w.z., voordat het spraaksignaal wordt aangeboden aan de spraakcoder of spraakherkenner. Hoewel bestaande speech-enhancementalgoritmen een goede prestatie leveren bij relatief hoge signaal-ruisverhoudingen (SNRs), gaat de prestatie snel achteruit bij lage SNRs, hetgeen resulteert in duidelijk waarneembare spraakvervorming en/of processing-artifacten. Bestaande enhancementalgoritmen gaan meestal uit van de aanname dat de ruis stationair blijft gedurende de tijdsduur van een zin, een aanname die in de praktijk ver van geldig blijkt te zijn. Als gevolg van deze aanname presteren de bestaande algoritmen slecht bij niet-stationaire ruisbronnen. Het belangrijkste doel van het voorgestelde project is het ontwikkelen van een speech-enhancementsysteem welke een verbetering levert ten opzichte van bestaande systemen en welke een acceptabele prestatie levert voor een uitgebreid bereik van ruisniveau's en ruistypes. Om bovengenoemd doel te realiseren focusseert het voorstel op drie hoofdonderwerpen, te weten I) een variabele lengte segmentatie van het verruisde spraaksignaal om beter te kunnen adapteren aan de tijdvarierende statistische eigenschappen van het onderliggende signaal, en dus de prestatie van het systeem te verbeteren, II) (gezamelijke) exploitatie van a priori kennis van het menselijke spraakproduktieproces en auditieve perceptieproces om het bereik van SNRs waarbij het systeem acceptabel presteert uit te breiden, en III) het tracken van ruisstatistieken in actieve spraak gebieden voor een betere onderdrukking van niet-stationaire ruisbronnen. In het bijzonder het gebruik van variabele lengte signaalanalyse en het gezamelijk exploiteren van spraakproduktie en auditieve perceptie is nog niet eerder vertoond. Wij geloven op basis van onze ervaringen en voorgaand onderzoek dat deze aanpak zal leiden tot een significante verbetering van speech-enhancement systemen.

Utilisatie
De snelle toename van draadloze netwerkomgevingen de afgelopen twintig jaar heeft er toe geleid dat er een duidelijke behoefte is ontstaan naar speech-enhancementsystemen voor mens-mens en mens-machine communicatie. Momenteel presteren zulke systemen alleen bij relatief hoge SNRs, een conditie die niet altijd gegarandeerd kan worden binnen draadloze netwerkomgevingen. Met de opkomst van tijdvarierende heterogene netwerkomgevingen (vierde generatie communicatienetwerken) zal deze behoefte alleen nog maar toenemen. Zulke systemen kunnen een belangrijke rol gaan spelen bij de komende generatie communicatiesystemen. Wij zijn van mening dat tijdvarierende analysetechnieken, gecombineerd met a priori kennis van spraakproduktie en auditieve perceptie een duidelijke verbetering levert ten opzichte van de bestaande systemen, omdat we op deze wijze beter in staat zijn om ongewenste tijdvarierende ruiscomponenten op een perceptueel verantwoorde manier te onderdrukken. Er bestaat een groot applicatiegebied dat zijn voordeel kan doen met de beoogde resultaten, zoals mobiele telefonie, hands-free communicatie in een rijdende auto en automatische booking services. Het voorgestelde onderzoeksplan is zeer relevant voor het bedrijfsleven. Om deze reden zal Philips Research een vierjarige Ph.D. positie aan de TU Delft financieren. Bovendien zal Philips bronmateriaal voor het onderzoek aanleveren welke nodig is om de te ontwikkelen algoritmen te testen en te vergelijken, en stelt men de luisterfaciliteiten op het Natuurkundig Laboratorium van Philips in Eindhoven tot onze beschikking.

Gebruikers

Er zijn vier bedrijven bij dit project betrokken.

Projectleider

Dr.ir. R. Heusdens Technische Universiteit Delft
Elektrotechniek, Wiskunde en Informatica
Mediamatica
Mekelweg 4
2628 CD Delft

Status van het project

Gestart : 15-10-2003
Einddatum : 01-01-2008

Trefwoorden

Electrotechniek, Perceptual distortion measure, Psychoacoustics, Signaalbewerking, Single microphone, Speech enhancement, Spraak, Time-varying signal analysis

  Print | Over deze site |  Sitemap | Voorbehoud | Gewijzigd 7-3-2006
Nieuws uitgelicht
Nieuwsbrief Technologiestichting STW, januari 2012
31 januari 2012
Elke maand stuurt Technologiestichting STW haar relaties een link naar de web-based nieuwsbrief. Hierin staat een maandelijks overzicht van het jongste nieuws van de bestuurstafel, onderzoeksnieuws, o... [meer]