Search

Java - 編碼過的網址 punycode decoding

2015-07-16 10:54 AM

有在做爬網頁資料的人應該會遇到有的網頁內具有一種編碼過的連結網址存在

這種轉碼的方法我們稱之為 Punycode

這種編碼方法可以呈現 Unicode 字元組成的網址

如果需要分析經過 punycode 轉碼過的網址時就可以使用以下方法 decoding

這裡使用 Apache 的 Httpclient 提供的 Punycode 工具直接轉碼

程式碼範例
import org.apache.http.client.utils.Punycode

String punyUrl = Punycode.toUnicode(url);
各項資料連結
Punycode Wiki
Maven Repo - Apache Httpclient 4.3.2
Class Punycode

No comments:

Post a Comment