2015-07-16
10:54 AM
有在做爬網頁資料的人應該會遇到有的網頁內具有一種編碼過的連結網址存在
這種轉碼的方法我們稱之為 Punycode
這種編碼方法可以呈現 Unicode 字元組成的網址
如果需要分析經過 punycode 轉碼過的網址時就可以使用以下方法 decoding
這裡使用 Apache 的 Httpclient 提供的 Punycode 工具直接轉碼
程式碼範例
import org.apache.http.client.utils.Punycode String punyUrl = Punycode.toUnicode(url);
各項資料連結
Punycode Wiki
Maven Repo - Apache Httpclient 4.3.2
Class Punycode
No comments:
Post a Comment