php对gb编码动态转utf-8编码的几种方法评测(3)

　　
$strUTF8Address = GB2UTF8_FILE($arrAddr[$i]["address"]);
}
$dblTimeDuration = GetMicroTime() - $dblTimeStart;
// 测评结束并输出结果
echo $dblTimeDuration; echo "\r\n";
?>
测评两次结果（精确到3位小数，单位是秒）：

MySQL查询转换：0.112
文本查询转换：10.590

MySQL查询转换：0.099
文本查询转换：10.623

可见这次是MySQL方法遥遥领先于文件查询法。但是现在还不急于使用MySQL方法，因为文本文件方法之所以如此耗时，主要因为它每次转换都要把整个gb_unicode.txt读入内存，而gb_unicode.txt又是文本文件，格式如下：

0x2121   0x3000   # IDEOGRAPHIC SPACE
0x2122   0x3001   # IDEOGRAPHIC COMMA
0x2123   0x3002   # IDEOGRAPHIC FULL STOP
0x2124   0x30FB   # KATAKANA MIDDLE DOT
0x2125   0x02C9   # MODIFIER LETTER MACRON (Mandarin Chinese first tone)
……
0x552A   0x6458   # <CJK>
0x552B   0x658B   # <CJK>
0x552C   0x5B85   # <CJK>
0x552D   0x7A84   # <CJK>
……
0x777B   0x9F37   # <CJK>
0x777C   0x9F3D   # <CJK>
0x777D   0x9F3E   # <CJK>
0x777E   0x9F44   # <CJK>

文本文件效率较低，于是考虑把文本文件转换为二进制文件，然后用折半法查找这个文件，而不需要把整个文件读入内存。文件格式为：文件头2字节，存储记录数；接着一条接一条记录存入文件，每条记录4字节，前2字节对应GB代码，后2字节对应Unicode代码。转换程序如下：

<?php
$arrLines = file("gb_unicode.txt");
foreach ($arrLines as $strLine) {
$arrCodeTable[hexdec(substr($strLine, 0, 6))] = hexdec(substr($strLine, 7, 6));
}
ksort($arrCodeTable);
$intCount = count($arrCodeTable);
$strCount = chr($intCount % 256) . chr(floor($intCount / 256));
$fileGBU = fopen("gbu.dat", "wb");
fwrite($fileGBU, $strCount);
foreach ($arrCodeTable as $k => $v) {
$strData = chr($k % 256) . chr(floor($k / 256)) . chr($v % 256) . chr(floor($v / 256));
fwrite($fileGBU, $strData);
}
fclose($fileGBU);
?>
执行程序后就获得了二进制的GB->Unicode对照表gbu.dat，并且数据记录按GB代码排了序，便于折半法查找。使用gbu.dat进行转码的函数如下：

function GB2UTF8_FILE1($strGB) {
if (!trim($strGB)) return $strGB;
$fileGBU = fopen("gbu.dat", "rb");
$strBuf = fread($fileGBU, 2);