Barrierefreiheit und künstliche Intelligenz.

Wie der Hype um KI und Chat GPT die Arbeit und das Leben als Betroffene beeinflusst.

Wie ich Casey für diesen Artikel gewinnen konnte

Ich habe mir Gedanken über KI gemacht und dachte, dass wir noch nicht so weit sind, bis ich einen Beitrag von einem Freund von mir in LinkedIN sah. 

Mahfud ist blind, und er erzählte, wie ihn die neue MS-Präsentation über Copilot umgehauen hat:

Jetzt kann ein Blinder eine PowerPoint-Präsentation mit überzeugenden visuellen Designs erstellen, indem er einer KI eine einfache Aufzählungsliste gibt. Die KI kann detaillierte Beschreibungen zu jedem Bild oder Szenario geben, das man in die Kamera malt. 

Mahfud Chabaan

Ich habe mich also auf die Suche gemacht und bin in den Kaninchenbau hinabgestiegen. Nächstes Mal werde ich euch einladen, mich auf meiner Reise durch KI, Design und Barrierefreiheit zu begleiten. Aber zum Glück nicht heute: Vor ein paar Monate habe ich Twitter ein Appel gemacht. Ich war auf der Suche nach Menschen mit Behinderungen die Erfahrung mit KI gemacht haben. Und Casey hat sich bei mir gemeldet: und wie habe ich mich gefreut!

Ich bin mir sicher es wird auch eine Freude für euch alle: Viel Spaß!


Wie würdest du KI definieren? – Was ist KI?

Casey Kreer (CK): “Künstliche Intelligenz” ist für mich ein ziemlich weit gefasster Begriff. Ich denke, es gibt in der Gesellschaft zunehmend eine gute Vorstellung davon, was künstliche Intelligenz ist, immer näher am Begriff “Machine Learning”: Ein Computerprogramm, das menschliches Verhalten in einer sehr hohen Qualität imitiert und dadurch nicht mehr instinktiv unterscheidbar ist. ChatGPT und Midjourney sind wahrscheinlich die bekanntesten Beispiele dafür – das ist KI für mich. Aber ich möchte auch explizit solche Systeme einschließen, die schon vor dem Machine Learning-Boom dafür konzipiert wurden, natürliche Interaktionen zu ermöglichen, also beispielsweise Sprachassistenz-Systeme wie Siri und Alexa.

KI am Arbeitsplatz

Wie war dein Arbeitsworkflow, bevor du KI genutzt hast?

CK: Sehr viel weniger barrierefrei und in vielen Fällen mit mehr Mühe für mich verbunden. Informationen, die jetzt nur noch eine einfache Frage entfernt sind, musste ich vorher mühevoll aus eigenen Suchen zusammentragen. Das beste Beispiel dafür sind für mich Wetter-Fragen: “Alexa, wann regnet es?” ist so viel einfacher als die vielen nicht barrierefreien Wetter-Websites nach dieser Information zu durchsuchen. Gerade mit Screenreader kostet das häufig sehr viel Zeit, weil Interfaces damit nur linear erkundet werden können und ich nichts visuell überfliegen kann. Natürlich gibt es ein paar Tricks um schneller zu sein, aber wenn ein automatisches System den Überblick für mich einholen kann und ich es dann nur fragen muss, was ich wissen will, hilft mir das sehr und ist sehr angenehm. Beim Coden, beim Recherchieren und bei weiteren Aufgaben. 

Kennst du KI-Anwendungen, die die Barrierefreiheit berücksichtigen oder von Anfang an für digitale Teilhabe entwickelt wurden?

CK: Ich bin nicht besonders angetan von der Idee, KI-Anwendungen ausschließlich für die Verbesserung von Barrierefreiheit zu entwickeln, wenngleich viele der aktuellen Systeme daraus hervorgegangen sind. Es ist besser, wenn die Systeme möglichst vielseitig eingesetzt werden können, wie es generell auch gut für die Barrierefreiheit ist. Selbstfahrende Autos, Text to Speech und Chatbots sind nützlich für alle! 

Besonders skeptisch bin ich bei Anwendungen, die das nicht erkennen oder die zum **Erstellen** von Inhalten entwickelt werden. Als Benutzerin möchte ich selbst entscheiden, für welche Aufgaben ich die Technologie einsetzen will. Leider haben nämlich moderne Machine Learning-Ansätze auch das große Risiko, sehr fehleranfällig zu sein und falsche Informationen wiederzugeben. Wir wissen mittlerweile alle, wie das bei ChatGPT aussehen kann: Extrem gut aufbereitet und glaubwürdig, aber schlicht falsch. Dieses Risiko überträgt sich analog auch auf andere Einsatzgebiete wie zum Beispiel Text to Speech. Die alte, gängige Methode, echte Sprachschnipsel zu einem kohärenten Audio mit klarer Sprache zusammenzuschweißen, weicht immer mehr einem vollständig generativen, künstlichem Ansatz. Mit der Nuance Vocalizer-Stimme “Viktor” ist es mir schon passiert, dass Zahlen verfälscht wurden. So wurde mal aus einer 5 eine 5000, und es kommt auch immer wieder vor, dass ganze Worte verschluckt werden. Wenn diese Stimmen mein Zugang zu einer Anwendung oder einem Betriebssystem sind, muss ich immer damit rechnen, dass ich gerade falsche Informationen bekomme und dann selbst auch alle Konsequenzen tragen.

Viele Menschen wollen mir immer wieder versichern, dass das “in der Zukunft” alles besser werden würde. Wahrscheinlich haben sie recht, aber mit dem aktuellen Black Box-Ansatz bei KI-Modellen und ohne hundertprozentige Sicherheit, einen korrekten Output zu bekommen, ist keine Barrierefreiheit hergestellt. Ich wage zu bezweifeln, dass das jemals erreicht werden kann. Wir sind also weiter und für immer auf den Best Effort der Content-erstellenden Personen angewiesen.

Was hast du ausprobiert, welche KI-Tools benutzt du in deiner Arbeit und was bringt für dich einen Mehrwert?

CK: Wenn ich längere Texte schreibe, diktiere ich sie häufig. Gerade auf mobilen Geräten mit Touchscreens finde ich es ohne dieses mittlerweile allgegenwärtige Feature schnell sehr ermüdend. Ebenso sind meine Sprachassistenz-Systeme immer mit dabei, und ich habe mir auch viele eigene Macros oder Skills entwickelt, um mir wiederkehrende Aufgaben in ein einfaches sprachliches Interface zu übersetzen.

Beim Code-Schreiben nutze ich mittlerweile sehr häufig GitHub Copilot. Das Tool hilft mir dabei, große Quelltext-Dateien zu erfassen und auch Zusammenhänge und Strukturen zu erkennen. Außerdem hilft es mir manchmal mit Funktionsnamen auf die Sprünge, die klassische Linter in diesen Situationen nicht erahnen würden. Tatsächlich lasse ich aber sehr wenig Code generieren, sondern nutze es fast ausschließlich, um mir einen Überblick über komplexere Methoden zu verschaffen, die ich sonst mit dem Screenreader Zeile für Zeile in meinem Kopf rekonstruieren müsste. Das ist meistens eine große Zeitersparnis, aber nicht immer akkurat. Ohne Programmier-Skills komme ich also nicht durch einen Arbeitstag.

ChatGPT nutze ich für ähnliche Aufgaben wie GitHub Copilot. Häufig ist es etwas besser darin, Codeblöcke tatsächlich zu erklären, weil Copilot immer nur Kommentare setzt, wie sie auch Entwickler*innen schreiben würden. Es ist leider (noch) nicht direkt in die IDE integriert, aber mit GitHub Copilot Chat, einer neuen Erweiterung für das Tool, könnte es das bald schon sein und für mich eine weitere große Erleichterung bedeuten.

KI im privaten Umfeld als Betroffene

Könntest du dir vorstellen, dass solche KI auch in der privaten Nutzung nützlich ist?

CK: Auf jeden Fall!

Die Gründe sind oft dieselben, wie ich sie auch schon für die berufliche Nutzung erklärt habe. Es ist sehr hilfreich für mich, wenn jemand anders oder in diesem Fall eine KI-Anwendung den groben Überblick über eine Sache hat und ich mich auf die wichtigen Details konzentriere, statt erstmal herausfinden zu müssen, wie ich an diese Details überhaupt herankommen kann. 

Kannst du 1–2 Beispiele nennen (auch gern fiktive)?

CK: Apple hat diese Woche ein neues Feature für die “Lupe”-App auf iOS vorgestellt, durch das man durch reines Zeigen auf Text über die Kamera, diesen Text vorgelesen bekommen kann. Ich muss also nicht mehr über Optical Character Recognition und Explore By Touch umständlich erraten, wie die Tasten an meiner Mikrowelle beschriftet sind, sondern kann das an der Mikrowelle selbst lernen. Solche intelligent kombinierten Features sind wirklich super, weil sie einerseits Präzision ermöglichen und andererseits extrem einfach zu nutzen sind.

Was hältst du von der Nutzung von KI für Bild- und Videobeschreibungen?

CK: Nichts. Und alles. Mein Verhältnis zu KI-generierten Alternativtexten ist relativ kompliziert. Einerseits sind sie meistens noch zu schlecht, um Inhalte wirklich zugänglich und treffend zu beschreiben, andererseits geben sie mir einen kleinen Einblick darüber, was ich tagtäglich verpasse. Manchmal reicht es auch, ein bisschen zusätzlichen Kontext zu haben, um die KI-Bildbeschreibungen besser zu verstehen und dann teilhaben zu können. Das aber nur, wenn ich als Konsumentin der Inhalte selbst darüber entscheiden kann, wann und wo ich eine KI-Bildbeschreibung hören möchte. 

Was mir Angst macht, sind Menschen, die glauben, dass KI-Systeme zukünftig dazu in der Lage sein werden, ausreichend gute Alternativtexte zu beschreiben und dass sie diese Aufgabe dann nicht mehr selbst übernehmen müssen. **Das ist falsch.** Tatsächlich verlassen wir dafür aber den technischen Problembereich und begeben uns direkt auf die kommunikative Ebene. Es gibt das schöne Sprichwort “Ein Bild sagt mehr als 1000 Worte”, und ich finde das sehr richtig. Ein Alternativtext muss immer von der Person kommen, die ein Bild erstellt oder gepostet hat, denn nur diese Person weiß, welchen kommunikativen Zweck es haben soll. Einer KI oder einem anderen Menschen wird hier in jedem Fall Kontext fehlen. 

Ein Beispiel dazu: Eine Userin postet ein Bild eines Hundes mit dem Text: “Seht ihr das?” und der Bildbeschreibung “Ein Golden Retriever”, die das soziale Netzwerk automatisch erstellt hat. Tatsächlich sind aber sehr klein und nur am Bildrand zerstörte Hundespielzeuge zu sehen und der Hund blickt unschuldig in die Kamera. Selbst wenn die Beschreibungen ausführlicher und besser werden, habe ich keine Barrierefreiheit gewonnen, weil ich dann zwar mehr Details erfahre, aber niemals, was die Intention des Posts mit diesem Text war und welche Details ich sehen *soll*. Wenn ihr könnt, visualisiert einmal dieses Bild vor dem geistigen Auge. Und jetzt gebe ich euch noch die Information dazu, dass der Hund eine rot schimmernde Nase hat und ein Halsband mit einem Anhänger trägt, auf dem “I love mom” steht – Informations-Overload, und euer Bild hat sich sofort wieder verändert. Wenn all das tatsächlich kommuniziert werden soll, ist das super für eine Bildbeschreibung, aber bei einem Account, der immer wieder denselben Hund mit demselben Halsband postet, ist das vielleicht nicht das Detail, das hier wichtig ist. Ich kann mit Screenreader ein Bild nicht in Sekundenbruchteilen erfassen, sondern jede ausführliche Beschreibung kostet mich viel Zeit. 

Deshalb mein Appell:

Bitte baut automatische Alternativtexte nicht in eure Tools und Oberflächen ein.

Casey Kreer

Überlasst es den Betriebssystemen, Webbrowsern und assistiven Technologien, das zusätzlich zu handgeschriebenen Alternativtexten anzubieten. Denn nur in diesem Szenario sind sie eine Bereicherung, andernfalls können sie ähnlich wie falsche Informationen aus ChatGPT und TTS-Systemen zur unsichtbaren Barriere und damit zu einer echten Gefahr werden. Meine Erfahrung zeigt, dass selbst wenn explizit darauf hingewiesen wird, die generierten Beschreibungen anzupassen und zu korrigieren, keine besseren Alternativtexte entstehen, sondern sich die Qualität eher noch verschlechtert. Gerade entwickle ich im Rahmen des Prototype Fund an der App “audilu” (https://audilu.de), die beim Erstellen von Audiodeskription, also einer barrierefreien Video-Art, unterstützen soll, die genau vor diesem Problem steht.


Um Caseys Argument zu beweisen, haben wir uns für ein Experiment entschieden: wir würden kein Bild zu ihrem Autorinnenprofil hinzufügen. Wir wollten die KI ihre Bildbeschreibung verwenden lassen, um ein Bild zu generieren. Um es rund zu machen, würde ich die KI das generierte Bild beschreiben lassen. Hier sind 2 Beispiele zu eurer Unterhaltung.

Casey ist eine weiße Westeuropäerin Anfang 20. Sie trägt eine schwarze Brille, lange und offene, dunkelblonde Haare und ein rotes Stirnband. Um den Hals trägt sie eine Kette mit einem schwarzen Stern. Ihr rechtes Ohrläppchen ziert ein kleiner schwarzer Ohrstecker.

https://creator.nightcafe.studio/

Dieses Bild zeigt eine Frau, die eine Sonnenbrille und eine weiße Jacke trägt. Sie hat langes, gestuftes Haar mit Pony, und sie trägt Lippenstift. Der Hintergrund ist grau, und die dominierenden Farben im Bild sind Grau, Weiß und Schwarz. Die Frau scheint sich im Freien aufzuhalten, da im Hintergrund Bäume zu sehen sind. Außerdem trägt sie eine Brille, bei der es sich entweder um eine Sonnenbrille oder eine Brille handeln könnte.

Astica + DEEPL: HTTPS://WWW.ASTICA.ORG/VISION/DESCRIBE/ , DEEPL

>> Ich würde zuerst diese riesigen schwarzen Brillen mit einem dunklen und einem hellen Brillenglas und einem 2 Finger breiten Gummiband in Schwarz mit 2 weißen Streifen beschreiben, das oben auf den Ohren sitzt (statt hinten dicht am Kopf) und um den ganzen Kopf herumgeht.

Warte mal… Bäume? Wo hat dieses KI bitte Bäume gefunden?! Es ist eher ein Studio Porträt mit nur Grauen Hintergrund.

https://deepai.org/machine-learning-model/text2img

Dieses Bild ist eine Nahaufnahme einer jungen Frau mit roten Haaren und schwarzer Brille. Sie trägt Lippenstift, Eyeliner, Lipgloss und Wimperntusche. Ihre Augenbrauen sind sichtbar und sie hat einen Pony, der ihr Gesicht umrahmt. Der Hintergrund scheint grau zu sein.

ASTICA + DEEPL: HTTPS://WWW.ASTICA.ORG/VISION/DESCRIBE/ , DEEPL

Ich sehe hier keinen Pony, das Haar ist oben braun und unten rot. Sie hat eine Halskette, die aus kleinen schwarzen Sternen bestehen könnte und nur bis zu 2/3 des Halses reicht. Das Auge auf der rechten Seite hat eine seltsame Spiegelung 

Ich habe eine Weile gespielt, ich habe verschiedene Stile verwendet: neutral, Cyberpunk, niedliche Kreatur, Fantasy-Porträt, Fantasy-Welt…
und kein einziges der Bilder hatte weder ein rotes Stirnband, noch eine Kette mit einem schwarzen Stern. Manche hatten eine Sonnenbrille, manche gar keine, manche lächelten, manche waren traurig, manche melancholisch, manche schauten nach vorne, manche zur Seite… manche hatten lange Haare, manche kurze, manche hell- und rosablonde, manche dunkelbraune… keine zwei Bilder waren ähnlich.

Was denkt ihr?


Und Neural Voices und TTS?

CK: Neural Voices finde ich sehr frustrierend, weil sie direkt im Uncanny Valley liegen. Einerseits klingen und betonen sie extrem menschlich, andererseits lässt sich dennoch erkennen, dass es sich um maschinell erzeugte Stimmen handelt, gerade bei längeren Textabschnitten. Zusätzlich zu dem Risiko, dass ich durch die Funktionsweise der KI eventuell etwas anderes vorgelesen bekomme, als eigentlich im Text steht, habe ich also immer wieder diese kurzen Marker, über die ich mich wundere und die meine Aufmerksamkeit in ihren Bann ziehen. Das muss nicht für alle Menschen so sein – natürlich nicht, ich kenne einige Blinde, die sehr zufrieden damit sind. Ich bin es nicht und bevorzuge long-form Prosa von einem echten Menschen gesprochen, und als Screenreader-Stimme etwas, das auch bei hohen Sprechgeschwindigkeiten verständlich bleibt und garantiert das liest, was ein Text auch hergibt: Die robotischen Stimmen von Eloquence oder eSpeak

Fazit/Schluss

Aus Caseys Social Media Interaktionen habe ich mir das Wort „Nixklusion“ gemerkt. Ich habe Chat GPT gefragt, was Nixklusion ist, und es hat mir Folgendes gesagt:

„Nixklusion“ ist ein Wortspiel in der deutschen Sprache, das sich aus den Wörtern „nix“ (umgangssprachlich für „nichts“) und „Inklusion“ zusammensetzt. Es wird in der Regel benutzt, um auf Mängel oder das Fehlen von Inklusion hinzuweisen, besonders im Kontext von Menschen mit Behinderungen.

Die Inklusion bezieht sich auf die vollständige Akzeptanz und Einbeziehung aller Menschen in der Gesellschaft, unabhängig von ihren individuellen Eigenschaften wie Behinderung, Herkunft, Alter, Geschlecht usw. Sie betont das Recht jedes Einzelnen, aktiv am gesellschaftlichen Leben teilzunehmen und sich frei und ohne Einschränkungen zu entfalten.

Wenn man also von „Nixklusion“ spricht, deutet man damit an, dass die Inklusion in einer bestimmten Situation, in einem bestimmten Kontext oder in der Gesellschaft als Ganzes nicht gegeben oder mangelhaft ist. Es ist eine kritische Bezeichnung, die auf die Notwendigkeit hinweist, die Bemühungen um echte Inklusion zu verbessern und zu verstärken. Es ist ein Begriff, der in der deutschen Behindertenrechtsbewegung zur Kennzeichnung von Situationen, in denen die Inklusion nicht erreicht wurde oder nicht ausreichend berücksichtigt wurde, Verwendung findet.

OpenAI Chat GPT-4

Was sind deine besten (lustigen oder nicht lustigen) Beispiele für „Nixklusion“ (und KI)?

CK: Accessibility Overlays. Die sind nicht lustig, und auch nicht nicht lustig. Accessibility Overlays und die Firmenkultur, die hinter diesen “KI”-Tools steht, fördern Nixklusion und damit aktive Diskriminierung von Menschen mit Behinderung. 

Was ist deine Hoffnung oder Wunsch für die Zukunft in Bezug auf KI, Barrierefreiheit und digitale Teilhabe?

CK: Ich wünsche mir, dass Barrierefreiheit niemals an Maschinen delegiert oder von der Präsenz von künstlicher Intelligenz abhängig gemacht wird.

Wir Menschen mit Behinderung sind alle Individuen mit einem Recht darauf, an der Gesellschaft teilzuhaben, wie sie wirklich ist – nicht durch die statistischen und mit menschlichen Vorurteilen gespickten Augen eines Computers. Und um dieses Recht umzusetzen, müssen wir die Menschen und die Gesellschaft weiter für unsere Belange sensibilisieren und einfordern, dass sich Leute damit befassen, wie sie barrierefreie Inhalte erstellen und dass es eben keine Option ist, wenn Bildbeschreibungen oder Bedienoberflächen komplett von künstlicher Intelligenz erzeugt werden – denn barrierefrei sind die in keinem Fall. 


Das war unser Gespräch, ich hoffe, ihr hattet genauso viel Spaß beim Lesen wie ich.
Als Frau freue ich mich besonders, dass ich nicht mehr “ganz genau Karl, lieben Dank dass du Olgas Vorschlag unterstützt!” sagen muss, weil die KI erkennen kann, wer wann was gesagt hat.
Ich freue mich auch total auf all die langweiligen und sich wiederholenden Aufgaben, die man mit ihrer Hilfe automatisieren kann, so dass ich mehr Zeit und Energie habe, um zu spielen und die Zeit mit meiner Familie zu genießen. 

Und am Ende kann ich Casey nur zustimmen: Ich hoffe, dass die KI ein Werkzeug ist, das wir für die Menschen in all ihrer Vielfalt nutzbar machen, dass sie sich als etwas erweist, das Chancen eröffnet und uns alle zusammenbringt.

Co Authors :