Discuss / Python / 这是啥情况?????

这是啥情况?????

Topic source

-文_少-

#1 Created at ... [Delete] [Delete and Lock User]

data='天王盖地虎'.encode('utf-8')

chardet.detect(data) Out[40]: {'confidence': 0.9690625, 'encoding': 'utf-8', 'language': ''}

data='天王盖地虎'.encode('gbk')

chardet.detect(data) Out[42]: {'confidence': 0.0, 'encoding': None, 'language': None}

data='天王盖地虎'.encode('gb2312')

chardet.detect(data) Out[44]: {'confidence': 0.0, 'encoding': None, 'language': None}

氓不氓

#2 Created at ... [Delete] [Delete and Lock User]

我的猜测是:

  1. 因为中文的古诗词与人们平时说的语言区别比较大,所以导致它的猜测算法出错。 随便试了几个随机中文的GBK编码,都猜测不出来。
  2. 样本太短
>>> data = '淆始贪级耻擅哑鸿铁狮力贵拓碌抽憎贯坚处议税往蛙躲卓完银范盒屑私计瀑诉下备图拜多蕴瞻胶弄袋跑港钻滥拧赃决项挟堵尿尸枣旋策分蜘待侵茅鸳驮竣茧谐掺扣驳殖辈卖套纱耽洁滨晰监纸宽柄啥寓榕砸博渔舶翁叶碾记奶草媚语'.encode('gbk')
>>> chardet.detect(data)
{'encoding': 'GB2312', 'confidence': 0.2606310013717421, 'language': 'Chinese'}
>>> data = '淆始贪级耻擅哑鸿铁狮力贵拓碌'.encode('gbk')
>>> chardet.detect(data)
{'encoding': None, 'confidence': 0.0, 'language': None}

廖雪峰

#3 Created at ... [Delete] [Delete and Lock User]

先注意你的py文件的编码对不对

加个小鸡炖蘑菇就可以了

颜成子由

#5 Created at ... [Delete] [Delete and Lock User]
data='天王盖地虎,小鸡炖蘑菇'.encode('GBK')
chardet.detect(data)
{'language': 'Chinese', 'confidence': 0.7407407407407407, 'encoding': 'GB2312'}
data='天王盖地虎'.encode('GBK')
chardet.detect(data)
{'language': None, 'confidence': 0.0, 'encoding': None}

还真是啊!

经试验,和字数有关系,字数越多越容易识别出来

我在用requests.get爬取一个pdf网页时,返回的内容却不知道是什么东西。我用chardet.detect()去检查,结果却是{'encoding': None, 'confidence': 0.0, 'language': None}。请问这是怎么回事啊? (附部分开头内容: b'%PDF-1.7\r%\x80\x84\x88\x8c\x90\x94\x98\x9c\xa0\xa4\xa8\xac\xb0\xb4\xb8\xbc\xc0\xc4\xc8\xcc\xd0\xd4\xd8\xdc\xe0\xe4\xe8\xec\xf0\xf4\xf8\xfc\r\r912 0 obj\r<< /T 1021131 /L 1039524 /Linearized 1 /E 220286 /O 916 /H\r[ 3537 941\r] /N 25\r>>\rendobj xref\r912 159\r0000000044 00000 n\r\n0000004478 00000 n\r\n0000004834 00000 n\r\n0000004863 00000 n\r\n0000004961 00000 n\r\n0000005347 00000 n\r\n0000008107 00000 n\r\n0000010187 00000 n\r\n0000012031 00000 n\r\n0000014019 00000 n\r\n0000016241 00000 n\r\n0000018381 00000)


  • 1

Reply