更多>>关于我们
西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效获取互联网任何公开可见信息。
您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。
数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。
更多>>技术文章
发布时间:2019-12-31 来源:西安鲲之鹏官微
"浏览器指纹"之 "HTML5 Canvas指纹"
【原理】
在HTML5中可以使用JS + Canvas标签生成图片,利用"canvas.toDataURL()"可以获取到图片的Base64码。
同样的JS Canvas绘图代码,在同一个浏览器下生成的图片是相同的(字节码相同)。
但是由于系统的差别、渲染引擎的不同,同样的JS Canvas绘图代码,在不同的浏览器下得到的图片也是不同的(字节码不同。注意:也有相同的可能,但是概率较小)。
利用上述原理,同一段JS Canvas绘图代码,返回生成图片的HASH值作为“HTML5 Canvas指纹”。
【在线测试工具】
http://t.cn/R3259jj
如附图1所示,我的谷歌浏览器的“HTML5 Canvas指纹”在49w个相同UA的浏览器中,仅有1456个相同的,唯一性高达99.71%。
【"HTML5 Canvas指纹算法"示例代码】
// 计算字符串的hash值
// 摘自http://t.cn/AiFHoZGI
function hashstr(s){
var hash = 0;
if (s.length == 0) return hash;
for (i = 0; i < s.length; i++) {
char = s.charCodeAt(i);
hash = ((hash<<5)-hash)+char;
hash = hash & hash; // Convert to 32bit integer
}
return hash;
}
// 使用canvas绘图,并返回图片的Base64码对应的hash值
// 摘自http://t.cn/AiFHoZGV
function getCanvasFp() {
var result = "";
// Very simple now, need to make it more complex (geo shapes etc)
var canvas = document.createElement('canvas');
canvas.width = 2000;
canvas.height = 200;
canvas.style.display = 'inline';
var ctx = canvas.getContext('2d');
// detect browser support of canvas winding
// http://t.cn/R7wzrRy
// http://t.cn/AiFHoZG5
ctx.rect(0, 0, 10, 10);
ctx.rect(2, 2, 6, 6);
result += 'canvas winding:' + ((ctx.isPointInPath(5, 5, 'evenodd') === false) ? 'yes' : 'no');
ctx.textBaseline = 'alphabetic';
ctx.fillStyle = '#f60';
ctx.fillRect(125, 1, 62, 20);
ctx.fillStyle = '#069';
// http://t.cn/AiFHoZGx
ctx.font = '11pt no-real-font-123';
ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 2, 15);
ctx.fillStyle = 'rgba(102, 204, 0, 0.2)';
ctx.font = '18pt Arial';
ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 4, 45);
// canvas blending
// http://t.cn/AiFHoZGt
// http://t.cn/AiFHoZGM
ctx.globalCompositeOperation = 'multiply';
ctx.fillStyle = 'rgb(255,0,255)';
ctx.beginPath();
ctx.arc(50, 50, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(0,255,255)';
ctx.beginPath();
ctx.arc(100, 50, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(255,255,0)';
ctx.beginPath();
ctx.arc(75, 100, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(255,0,255)';
// canvas winding
// http://t.cn/R7wzrRy
// http://t.cn/AiFHoZGf
ctx.arc(75, 75, 75, 0, Math.PI * 2, true);
ctx.arc(75, 75, 25, 0, Math.PI * 2, true);
ctx.fill('evenodd');
if (canvas.toDataURL) {
result += ';canvas fp:' + canvas.toDataURL();
}
return hashstr(result);
}
在同一个机器上不同的Chrome和Firefox窗口测试上述代码,结果如附图2所示:
(1)Chrome窗口1、Chrome窗口2内getCanvasFp()返回的值相同;
(2)Firefox窗口getCanvasFp()返回的值不同;
【原理】
在HTML5中可以使用JS + Canvas标签生成图片,利用"canvas.toDataURL()"可以获取到图片的Base64码。
同样的JS Canvas绘图代码,在同一个浏览器下生成的图片是相同的(字节码相同)。
但是由于系统的差别、渲染引擎的不同,同样的JS Canvas绘图代码,在不同的浏览器下得到的图片也是不同的(字节码不同。注意:也有相同的可能,但是概率较小)。
利用上述原理,同一段JS Canvas绘图代码,返回生成图片的HASH值作为“HTML5 Canvas指纹”。
【在线测试工具】
http://t.cn/R3259jj
如附图1所示,我的谷歌浏览器的“HTML5 Canvas指纹”在49w个相同UA的浏览器中,仅有1456个相同的,唯一性高达99.71%。
【"HTML5 Canvas指纹算法"示例代码】
// 计算字符串的hash值
// 摘自http://t.cn/AiFHoZGI
function hashstr(s){
var hash = 0;
if (s.length == 0) return hash;
for (i = 0; i < s.length; i++) {
char = s.charCodeAt(i);
hash = ((hash<<5)-hash)+char;
hash = hash & hash; // Convert to 32bit integer
}
return hash;
}
// 使用canvas绘图,并返回图片的Base64码对应的hash值
// 摘自http://t.cn/AiFHoZGV
function getCanvasFp() {
var result = "";
// Very simple now, need to make it more complex (geo shapes etc)
var canvas = document.createElement('canvas');
canvas.width = 2000;
canvas.height = 200;
canvas.style.display = 'inline';
var ctx = canvas.getContext('2d');
// detect browser support of canvas winding
// http://t.cn/R7wzrRy
// http://t.cn/AiFHoZG5
ctx.rect(0, 0, 10, 10);
ctx.rect(2, 2, 6, 6);
result += 'canvas winding:' + ((ctx.isPointInPath(5, 5, 'evenodd') === false) ? 'yes' : 'no');
ctx.textBaseline = 'alphabetic';
ctx.fillStyle = '#f60';
ctx.fillRect(125, 1, 62, 20);
ctx.fillStyle = '#069';
// http://t.cn/AiFHoZGx
ctx.font = '11pt no-real-font-123';
ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 2, 15);
ctx.fillStyle = 'rgba(102, 204, 0, 0.2)';
ctx.font = '18pt Arial';
ctx.fillText('Cwm fjordbank glyphs vext quiz, \ud83d\ude03', 4, 45);
// canvas blending
// http://t.cn/AiFHoZGt
// http://t.cn/AiFHoZGM
ctx.globalCompositeOperation = 'multiply';
ctx.fillStyle = 'rgb(255,0,255)';
ctx.beginPath();
ctx.arc(50, 50, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(0,255,255)';
ctx.beginPath();
ctx.arc(100, 50, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(255,255,0)';
ctx.beginPath();
ctx.arc(75, 100, 50, 0, Math.PI * 2, true);
ctx.closePath();
ctx.fill();
ctx.fillStyle = 'rgb(255,0,255)';
// canvas winding
// http://t.cn/R7wzrRy
// http://t.cn/AiFHoZGf
ctx.arc(75, 75, 75, 0, Math.PI * 2, true);
ctx.arc(75, 75, 25, 0, Math.PI * 2, true);
ctx.fill('evenodd');
if (canvas.toDataURL) {
result += ';canvas fp:' + canvas.toDataURL();
}
return hashstr(result);
}
在同一个机器上不同的Chrome和Firefox窗口测试上述代码,结果如附图2所示:
(1)Chrome窗口1、Chrome窗口2内getCanvasFp()返回的值相同;
(2)Firefox窗口getCanvasFp()返回的值不同;
特别说明:该文章为鲲鹏数据原创内容 ,您除了可以发表评论外,还可以转载到别的网站,但是请保留源地址,谢谢!!(尊重他人劳动,我们共同努力)
☹ Disqus被Qiang了,之前的评论内容都没了。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/