<a href="http://code.google.com/apis/safebrowsing/developers_guide_v2.html#Canonicalization">http://code.google.com/apis/safebrowsing/developers_guide_v2.html#Canonicalization</a> lists some interesting cases we've come across on the anti-phishing team in Google. To the extent you're concerned with / interested in canonicalizaiton, it may be worth taking a look at (not to suggest you follow that in determining how to parse/canonicalize URLs, but rather to make sure that you have some "correct" way of handling the listed URLs).<div>
<br></div><div>BTW, are you covering canonicalization?</div><div><br></div><div>-Ian</div><div><br></div><div><div class="gmail_quote">On Fri, Jul 23, 2010 at 9:02 PM, Boris Zbarsky <span dir="ltr"><<a href="mailto:bzbarsky@mit.edu">bzbarsky@mit.edu</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div class="im">On 7/23/10 11:59 PM, Silvia Pfeiffer wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Is that URLs as values of attributes in HTML or is that URLs as pasted<br>
into the address bar? I believe their processing differs...<br>
</blockquote>
<br></div>
It certainly does in Firefox (the latter have a lot more fixup done to them, and there are also differences in terms of how character encodings are handled).<br>
<br>
I would be particularly interested in data on this last, across different browsers, operating systems, and locales...  There seem to be servers out there expecting their URIs in UTF-8 and others expecting them in ISO-8859-1, and it's not clear to me how to make things work with them all.<br>
<font color="#888888">
<br>
-Boris<br>
</font></blockquote></div><br></div>