2008/12/18 Benjamin Hawkes-Lewis <span dir="ltr"><<a href="mailto:bhawkeslewis@googlemail.com">bhawkeslewis@googlemail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="Ih2E3d"><br>

Perhaps (got any actual evidence about author expectations in this case?), but that's not a problem for tokenizer performance. You're "shifting the goalposts".</div></blockquote><div> </div><div>My comment about tokenizer performance was later. By the way, author should not expect that invalid markup work in any particular way (in the past they did and wrote specific markup for specific implementation)</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Anyway, if we're talking authorial expectations, ordinary authors don't expect<br>
<br>
<a href="<a href="http://example.com?foobar&baz" target="_blank">http://example.com?foobar&baz</a>"><br>
<br>
to be an unrecoverable error, but it is in XHTML.</blockquote><div> </div><div>authors didn't expect that <a href="http://example.com?foobar&section=1">example.com?foobar&section=1</a> became <a href="http://example.com?foobar">example.com?foobar</a>§ion=1 but this happened in Netscape and IE quite long ago</div>
<div>if they got an error, at least they knew that it was not a correct syntax and should have been avoided, since it could lead to different results in different browsers</div><div>(it is not valid HTML, btw)</div><div><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
It's not like either of these syntaxes make sense to ordinary people or were even intended to do so. The original authoring model for HTML was supposed to be "paragraph" and "anchor", mediated by some sort of vaguely WYSIWYG type editor, not angle-bracketed tags.</blockquote>
</div><div>If you don't like like less-than and greater-than (it is not Unicode angle bracket actually), publish your work in PDF or DOC. HTML stays for HyperText Markup Language. Markup (i.e. tags) can't be removed.</div>
<div><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

A conforming browser will interpret the markup as specified by the specification, so there is no difference.</blockquote><div class="Ih2E3d">Yes, the fact is that the specification itself "guesses" what an average author thinks when it writes HTML</div>
<div class="Ih2E3d"></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
In practice, people find this very hard for XML and most web publishing systems (WordPress etc.) don't work like this even if they should.</blockquote><div>Why do SQL injections or buffer overrun attacks happen? Because applications don't check for input. The same for XML: you check, you're sure nobody will try to take your site down. You don't check, that's your fault.</div>
<div></div></div><div></div><div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Also, much of the web is ad-supported. The ads ecosystem is based around including markup from trusted sources. Those including the markup are generally not able to exert much control over the included markup, even when they are some of the biggest publishers on the web. Getting ads to have user-friendly HTML (e.g. alt attributes for image links) is nigh impossible; trying to get conforming HTML is a wet dream; and trying to get ads in valid XML is a likely to be a complete non-starter. Why would an ad creator bother, when they could choose a different partner and use their old text/html ads?</blockquote>
<div class="Ih2E3d">If ad buyer refuses to buy a non-valid-XML ad, probably the ad creator will rewrite them.<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">"Probably" - got any empirical evidence for that? I don't usually report errors in websites I visit (even _I_ usually have other things to do with my time).</blockquote>
<div>If any error prevents someone from correctly browsing that page, he first reports that to web owner, then to browser creator.</div><div> <br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
 Indeed, they would be upset. And they might even try porting it. However, there's little incentive for browser makers to throw information bars over the majority of the existing web just to assuage your desire for people to switch to XML. In fact, there are disincentives for browser vendors to include such an information bar since:</blockquote>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
1. Users will complain about error messages about sites that have always worked just fine. ("I'm switching back to IE8.")</blockquote><div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
2. Users will be trained to ignore error messages since sites work just fine even with a finger-wagging information bar slapped across the top, which is a security risk.</blockquote><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Even persuading browser vendors to include an indication of whether a website is valid or not has been a non-starter for every browser except iCab - and even iCab has dropped that indication in the latest version.</blockquote>
</div><div class="Ih2E3d">If an user complains about a warning (not error) indication, he can disable it (but not security errrors). On the other hand, some user will complain with the site creator, instead of with the browser creator.<br>

<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Ian was effectively asking: "Why deprecate text/html?" You appear to be trying to answer: "How would we deprecate text/html?" which is a different question (and I've indicated some problems with your suggestion above).</blockquote>
</div><div class="Ih2E3d">Sorry, I didn't understand (it looked like "we want to deprecate html but we don't have instruments", but it didn't make much sense).<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Except on the ad-supported web…</blockquote><div>1) use <iframe></div><div>2) use <object></div><div>3) use <embed></div>
<div>4) use <img></div><div>5) use well-formed XHTML</div><div>6) use JS + DOM</div><div>Do you think it is enough?</div><div></div><div>Giovanni Campagna</div></div>
</div><br>