随机英语单字

概率与英语……有趣的拼合!

随机字母

随机做一个英语单字好像很容易……随便选几个字母不就行了吗?

好,这是这样做的 20个单字:

tldkl oewkx dmwol vuptg hvwjk naqid avypr zwtip zgnzs bvdhd
muyfd ighgd xhlng oyecn vjnsl ssjrx gxald tukxj rvfoq yxzxq

英语不止根本没有这些字,连唸也不能唸!

(试试用英语拼音来唸 "tldkl" 或 "oewkx")

其实随便选 5个字母就可以形成一个真实的英语字,这个概率非常低的……你要尝试很多不同的组合。

为什么?英语有大概 200,000个字 (牛津字典里有 28,000个字,包括很多现在已经很少用的字)……但用 5个字母可以做几个字呢?

26 × 26 × 26 × 26 × 26 = 11,881,376 个可能!

只是 5个字母……

如果英语里有 40,000个长度为 5个字母的字,5个随机字母形成一个真实的字的概率是:

40,000 / 11,881,376 = 0.003,大约 0.3% 的可能性

所以真实的字其实是很罕有的.。用随机选的字母是很难做到一个真实的字的。

韵母

我们可以改善这个方法,比方限定五个字母里至少有一个韵母(因为绝大部分英语字都有韵母):

ectot gjaqv kuifg vzicu zspsu pdidb wqdis uerrs ucgej okimw
fnevz ewxko ljgew aglgo jpfoq dcytu uwkcj dzioy wekdx xuybk

很大的进步。至少大部分的字都可以唸出来了。

但还有很多奇怪的字:"zspsu" 和 "xuybk"

字母频率

下一个改善是少点用不常用的字母,例如 j、x、z 和 q,同时多点用常用的字母,例如 e、t 和 s。

其实英语字母出现的频率是众所周知的。以下是在 1,000个字母里,每个字母出现的次数:

a b c d e f g h i j k l m n o p q r s t u v w x y z
82 15 28 42 127 22 20 61 70 2 8 40 24 67 75 19 1 60 63 90 27 10 24 2 20 1
不看

你看不看得到 "e" 非常常见,但 "z" 很罕见?

我们据每个字母出现的频率来选(好像掷一个有 1,000面的骰子,上面有 82面的点数是 a,15面是 b……只有一面是 z),结果像这样:

elnao etgov segty laast aessn siuon oenha eaoas ncoot ctwka
dmswo dpuoh eewis ebdni laarm syucs idvos lhina igahh soyie

还是没有真实的字!但有些字和真实的字很相近。大部分都可以唸出来。(用来做虚幻网游角色的名字应该不错!)

你自己来试试看!

你可以在下面试试上面的三个方法……看看你会不会找到一个真实的英语字:


放大

 

其实我们可以做得更好……

两个字母的频率

我们可以问

"一个字母在另一个字母后面出现的频率是多少"

例如,如果我们已经有个 "t",下一个字母是个 "h"(一起就是 "th")。

看看这个 两个字母的频率表(基于《爱丽丝梦游仙境》这本书)。这是字母 "t" 的结果:

频数 a b c d e f g h i j k l m n o p q r s t u v w x y z
t 238 41 727 11 3197 459 275 18 12 990 149 153 333 125 65 54

"h" 接着在 "t" 后面出现了 3197次("th")……但 在 "t" 后面下一个字母永远不会是 "b"

好,我们先选个 "t",然后选个 "h" 来合成 "th",然后我们去 "h" 的列选另一个字母(比方选 "e" 来合成 "the"),然后照样做下去,……像这个例子:

the cur the bund hof arytowno d sheromasees asemedosouro f
soacthake d imon binofowat oaten d heng wa

这是个异常的结果……还不是有意思的句子,但好像另一个语言。

我们已经不是在做随机单字,我们在做随机句子

再多字母的频率

我们可以继续下去做三个或更多字母的频率表……

3个字母的频率

怎样用 3个字母的频率?

如果我们已经有两个字母(像 "ei"),我们便可以:

这是个例子:

Either great into get very deep welled of it it, and
to wondere started into the book about hear!

这个结果真的不错!用真的文章来做的结果通常是不错的。

4个字母的频率

以同一个方法,我用 3个字母来找第 4个字母,这是我得到的结果:

Either the sides or conversations in time to
happen next. First, she look down mind

5个字母的频率

5个字母的频率:

There was just in time it all seemed quite natural);
but to take out of time as she had not like to do

自己来试试!

你可以用下面的程序。里面有《爱丽丝梦游仙境》里最初的六段,但你可以自己把其他的文章放进去

你可以用莎士比亚的名著,或在英语新闻网页找个演讲等等……你甚至可以把不同作者的文章放进去来看看他们的孩子可能会写什么。


放大