Data: 2003-06-06 18:42:21
Temat: Odp: Screenreadery, internet i PDF'y
Od: "Michal Małaj" <s...@p...onet.pl>
Pokaż wszystkie nagłówki
Użytkownik PiotrB. <P...@o...pl> w wiadomości do grup
dyskusyjnych napisał:9...@h...PiotrB.pl...
> Dnia 3 czerwca 2003, Michał w <009201c329e3$073c1940$c07c63d9@kasperczak>
napisał(a):
>
> > Przede wszystkim czym innym jest syntezator a czym innym screenreader.
> > Syntezator mówi, może być sprzętowy lub programowy a screenreader to
program
> > komunikujący się z syntezatorem i starający się jak najlepiej przekazać
to
> > co jest na ekranie. Problem w tym, żeby z jednej strony informacje były
jak
> > najbardziej szczegółowe, ale też zeby nie było ich w nadmiarze.
> > Nie wiem czy wobec powyższego jest zasadne integrowanie IE z SynTalkiem,
ale
> > prosze autora o szczegółowe wyjaśnienia, może pomysł jest tak nowy że
godny
> > jest szerszego rozpropagowania.
>
> Dzięki za odpowiedź.:)
>
> Szczerze mówiąc mam blade pojęcie o możliwościach screenreaderów
> i dlatego nie wiem, czy taka nakładka na Internet Explorer, którą ja
> byłbym w stanie zrobić, wnosiłaby coś nowego, bardziej ułatwiałaby
> korzystanie ze stron.
>
Może bym chętnie coś pomógł. Kiedyś Microsoft w 1999 roku ogłosił konkurs na
zastosowanie kompomentów HTML w IE 5 beta na stronach intenetowych. Wygrał
kompoment do czytania stron WWW głosem po angielsku wykorzystujący to co
jest zainstalowane w komputerze każdego z użytkownika IE i MS Offfice. Tą
technologią jest MS Agent. Aby wykorzystać możliwość technologii Text -To -
Speech trzeba było zainstaować ze stron Microsoftu odpowiednią kontrolkę
ActiveX (syntezator) czytającą teksty w odpowiednim języku najczęsciej w
angielskim
Gdy poznawałem możliwości tej kontrolki zauważyłem że isniej możliwośc
programowego kojarzenia plików dzwiękowych z tekstami. Najciekawsze wydawało
mi się możliwośc napisania interpretera polskiego tekstu na mowę w
JavaScript (trzeba dobrze znać wyrażenia regularne i zasady fonetyki
wystepujące w MSAgent). Nie traktowałem tego wtedy na poważnie.
Drugim bardziej silniejszym narzędziem programistycznym do programowania
mowy był Microsoftowy SAPI 4.0 Na bazie tej technologii można byłoby napisać
system rozpoznawania polskiej mowy i nie tylko. SAPI 4.0 to był także zestaw
kontrolek ActiveX umnożliwiający m.in. sterowanie głosem stronami WWW
(widziałem nawet takie przykłady)
Obecnie ta technologia występuje pod nazwą .NET Speech (jeszcze nie miałem
okazji z nią się zapoznać bliżej i tak chyba wątpię żeby ktoś z użytkowników
tej grupy dyskusyjnej miał okazję i czas na poznawanie najnowszych
technologii Microsoftu)
Obecnie jest coraz silniejszy trend aby do intenetu wykorzystywać róznego
rodzaju urządzenia przenośne które możliwościami technicznymi wyprzedzają
nawet mój "stary" komputer (Pentium I 166). Jestem bazrdziej zainteresowany
rozwojem programistycznych narzędzi do programowania tych urządzeń i tym
jakie oferują możliwości komunikacji werbalnej z tymi urządzeniami.
Większość z tych rozwiązań bazuje na fonetyce angielskiej (co nie jest takie
łatwe w implenentacji zważszy że w angielskim sporo wyrazów inaczej się
pisze a inaczej się wypowiada w odróżnieniu od systemów fonetyki
kontynentalnej)
Do tych systemów operacyjnych na które należało by zwracać uwagę są to
Symbian, PocketPC, WindowxCE, Smartphone, MS Automotive .Myślę że któryś z
tych ma w sobie (będzie miał) jakiś interfejs programistyczny do komunikacji
werbalnej z użytkownikiem. Miałem okazję poznać te trendy na konferencji
Microsoftu poświęconej technologiom mobilnym.
Kolejną rzecz jaką trzeba zwrócić uwagę to są standardy. Niewielu
programistów stron WWW wie o tym że style kaskadowe (CSS) opisują dzwiekowe
cechy strony WWW (tj jak głośno czytać, rodzaj głosu itp). Problem w tym,
że nie ma jeszcze przeglądarek internetowych które by stosowały tą część
specyfikacji. Pewne aspekty niesie ze sobą standard VoiceML, który ma
określać sposoby komunikacji wynikacjące z rozpoznawania mowy ludzkiej i
jej udzwiękowienia pomiędzy urządzeniami. Dla internetu stworzono
standard SMIL 2.0 który miał okreslać synchronizację dzwięku z tekstem (W IE
tą rolę pełni technologia HTML+TIME)
PDF stał się niejako standardowym nośnikiem wymiany dokumentów.
i stąd wynika potrzeba tworzenia aplikacji do przetwarzania tekstu i
syntezowania go
We Flashu MX isnieje bardzo silny interfejs programistyczny do zarządzania
dzwiękiem czy filmami (czy nawet sterowania za pomocą mikrofonu). Można we
tym zrobić asynchroniczne ładowanie się plików dzwiękowych czytających czy
tam sterujących filmem
W mojej ulubionej technologii Viewpoint istnieje możliwość asynchronicznego
udzwiękowienia elementów trójwymiarowych ( i graficznych) na stronach
intenetowych
Mógłbym jeszcze podawać z kilka mniej znanych technologii, ale to co
napisałem powinno wystarczyć.
> Może opiszę, jak ja sobie to wyobrażam.
>
> Taka nakładka (w tej technologii, którą mogę zastosować) ma pełny
> dostęp do wszystkich elementów i tekstów znajdujących się na stronie,
> zarówno tych widocznych, jak i tych niewidocznych (np. w dymkach).
>
Rozumiem, że parsujesz dokument HTML (lub jakiś do niego podobny).
Obawiam się że to niewiele da, bo coraz więcej elementów na stronach stosuje
skrypty. i Flasha. Penwym rozwiązaniem byłoby wtedy gdyby pisano by
odpowiedznie znaczniki CSS odpowiedzialne za dzwiękową część strony WWW (ale
skoro się je olewa to nic na to nie poradzę) Zamierzasz pisać pluigin do IE,
a może by rozszerzyć na Mozillę ?.
> Przykładowo mogłaby przeanalizować stronę, utworzyć listę wszystkich
> linków i przekazać ją do SynTalka, który by ją odczytał.
>
> Inny przykład jaki mi przychodzi do głowy, to odczytywanie kolejnego
> elementu strony po naciśnięciu przez użytkownika ustalonego klawisza
> klawiatury. Ponowne naciśnięcie klawisza przerywałoby odczytywanie
> elementu i rozpoczynało czytanie następnego i tak dalej. Jeśli element
> byłby linkiem, to przy pomocy innego klawisza, użytkownik mógłby
> uruchomić ten link. Można by także czytać element poprzedni, następny
> link, następny nagłówek itp.. Jeszcze inną funkcją mogłaby być
> wyszukiwarka tekstów na stronie, która odczytywałaby cały tekst
> elementu, w którym zostałby znaleziony szukany tekst.
>
> Możliwe jest również opisywanie wyglądu elementów strony, kolor,
> czcionki, rozmiary, położenie etc.
>
> Aha, mogłaby też interpretować emotikony, czyli na przykład dwukropek
> i nawias ":)" jako "uśmiech", a dwukropek i wiele nawiasów jako
> "ha ha ha ha" :))
>
> Ogólnie mówiąc taka nakładka nie tylko opisywałaby to co znajduje się
> na stronie, lecz także dawałaby użytkownikowi możliwość aktywnego
> decydowania o tym co ma być czytane i co ma się dziać.
>
> Co o tym sądzisz? Czy są darmowe programy tego typu?
> A jeśli tak to prosiłbym o namiary:)
"Darmowość" tych rozwiązań jest możliwa do zrealizowania pod warunkiem że ma
się dużo czasu i odpowiednie umiejętności programistyczne.
Chociażby może nim być syntezator do WPKontaktu. Wystarczy przekształcić w
jakąś kontrolkę ActiveX
Pozdrawiam
Michał Małaj
|