MUA24

36 MAGAZINE UNIVERSITEIT ANTWERPEN 24.2017 DOSSIER ONDERZOEK IN DE LETTEREN naar manieren om dat wat een schrijfproces eigenlijk heel dynamisch maakt, namelijk die tekstvarianten, gemakkelijk te onderzoeken en zo meer inzicht te verwerven in de werking van de menselijke verbeelding.” Automatische transcripties “We zijn nu ook volop op zoek naar manie- ren om het transcriptiewerk te automatise- ren”, vertelt Van Hulle. “Zoals je met Optical Character Recognition (OCR) ingescande teksten kan omzetten in bewerkbare tekst, zouden we in samenwerking met andere Europese onderzoeksgroepen Handwritten Text Recognition (HTR) verder willen ontwik- kelen, zodat we ook handschriften kunnen omzetten in bewerkbare tekst. Gemakkelijk is dat niet, want elk handschrift is anders, waardoor er verschillende training data nodig zijn voor het lerende algoritme.” Van algoritmes weet Walter Daelemans als computerlinguïst alles. Binnen zijn onder- zoeksgroep lopen tal van projecten die met behulp van algoritmes op basis van verza- melde teksten en tekstfragmenten ongewenst gedrag à la cyberpesten en IS-propaganda kunnen opsporen, persoonlijkheid aan schrijf- stijl kunnen koppelen, diagnoses kunnen stellen op basis van patiëntdata, kunnen simuleren hoe een kind taal leert, en zo verder. Sentiment mining “We doen onderzoek op een aantal niveaus”, vertelt Daelemans. “Het eerste niveau is het tekstbegrip: zijn we in staat een tekst auto- matisch te begrijpen en de kennis die erin staat in databases te stoppen? Een voor- beeldonderzoek is ons project over medi- sche taal. We werken aan een systeem dat patiëntdata analyseert en de bedoeling is om op termijn automatische diagnoses te kunnen stellen. We gebruiken hiervoor de nieuwste technologieën, namelijk diepe neu- rale netwerken.” Het tweede niveau waarop tekst kan geanaly- seerd worden, is emotie en opinie. “We doen China krijgen duizenden sollicitaties voor elke vacature. Op dit moment bekijken ze enkel kandidaten uit goede universiteiten en vallen heel wat interessante profielen uit de boot. We werken nu samen met een bedrijf dat onze software gebruikt om op basis van de ‘open tekst’-antwoorden van kandidaten te analyseren of die sollicitant op vlak van niveau, persoonlijkheid en visie tegemoetkomt aan de criteria voor de functie.” Neurale netwerken “Wij ontwikkelen die toepassingen op basis van de state of the art in ons vakgebied en dat evolueert momenteel bijzonder snel”, getuigt Daelemans. “Zo komen we bij de ‘neurale netwerken’ die het veld van de artificiële intelligentie, waar computerlinguïstiek een onderdeel van is, overgenomen hebben. In alle domeinen waar die netwerken worden gebruikt, zie je een aanzienlijke verbete- ring van de accuraatheid van die systemen, zowel qua beeldverwerking als wat spraak- en tekstanalyse betreft. Eigenlijk is het heel aan sentiment mining en opiniedetectie”, licht Daelemans toe. “Momenteel hebben we een interessant nieuw project met de politieke en de communicatiewetenschappers waarin we analyseren hoe mensen op sociale media het nieuws analyseren, hoe ze een opinie vormen op basis van wat ze op sociale media en in de pers vinden, en omgekeerd: hoe de pers daar- op inspeelt. De verkiezingen van 2019 zijn ons doel. We willen in kaart brengen wat daar aan opinies aan voorafgaat op sociale media en in de pers. Het klassieke idee is dat de politiek de agenda bepaalt, de pers daarover informeert, en dat er daar op de sociale media commen- taar over wordt geleverd. Maar eigenlijk staat die piramide nu op zijn kop. Het zijn de soci- ale media die de agenda van politici bepalen. Met behulp van die subjectieve tekstanalyse kunnen we opvolgen hoe dat in real time gaat.” Persoonlijkheidsprofilering Op het derde niveau trachten Daelemans en zijn team te achterhalen wat je op basis van tekst over de auteur ervan te weten kan komen. “Kan ik iets leren over demografische factoren zoals leeftijd en geslacht, en over psychologische factoren zoals of de auteur introvert of extravert is, of hij hoogopgeleid is of niet, politiek in het linkse of rechtse spectrum zit? Tot op zekere hoogte kan je dat afleiden uit de tekst.” Het net afgeronde AMiCA-project ging bijvoor- beeld over online security en veiligheid voor kinderen en jongeren, om hen te beschermen tegen schadelijke content. In het extreemste geval zijn dat pedofielen, maar ook cyberpes- ten kan automatisch worden gedetecteerd. “Zijn mensen wel diegenen voor wie ze zich uitgeven? Dat kunnen we checken door aan de hand van hun posts hun leeftijd en geslacht te achterhalen. Of we kunnen gaan kijken of iemand een persoonlijkheidsstructuur heeft om een slachtoffer of een pester te zijn in cyberpesten.” Momenteel is Daelemans bezig met per- soneelsprofilering. “Sommige bedrijven in