成人小说亚洲一区二区三区,亚洲国产精品一区二区三区,国产精品成人精品久久久,久久综合一区二区三区,精品无码av一区二区,国产一级a毛一级a看免费视频,欧洲uv免费在线区一二区,亚洲国产欧美中日韩成人综合视频,国产熟女一区二区三区五月婷小说,亚洲一区波多野结衣在线

首頁 500強 活動 榜單 商業(yè) 科技 領(lǐng)導(dǎo)力 專題 品牌中心
雜志訂閱

谷歌的巴德考SAT,成績會怎樣?

ELEANOR PRINGLE
2023-04-04

對谷歌來說,不幸的是,巴德似乎還考不上哈佛。

文本設(shè)置
小號
默認
大號
Plus(0條)

谷歌已經(jīng)為巴德的錯誤付出了代價——但它每天都在學(xué)習(xí)。圖片來源:JONATHAN RAA—NURPHOTO/GETTY IMAGES

谷歌對巴德并不完美的事實相當(dāng)坦誠。

Alphabet首席執(zhí)行官桑達爾·皮查伊似乎對本公司的人工智能模型需要走多遠并不焦慮,他在一份公司內(nèi)部備忘錄中寫道,巴德(Bard)還處于早期階段:“隨著更多人開始使用巴德,測試它的功能,到時會出現(xiàn)讓我們意想不到的事情。會出現(xiàn)各種問題?!?/p>

現(xiàn)在巴德已邀請公眾參與測試,之前參與內(nèi)測的8萬名用戶主要是谷歌員工。

《財富》雜志終于排到號了,所以我們趕在今年春天的美國青少年SAT考試之前,對巴德進行了測試。

SAT是全球公認的美國大學(xué)入學(xué)考試,考試的技能包括閱讀、寫作和數(shù)學(xué)。

對谷歌來說,不幸的是,巴德似乎還考不上哈佛,因為它答的大部分數(shù)學(xué)題都是錯的,而在寫作和語言測試中想考高分也很艱難。

第一次登錄巴德時,用戶的期望值已經(jīng)被彈出的一條消息設(shè)定好了,上面寫著:“巴德并不總是正確的。巴德可能會給出不準(zhǔn)確或不恰當(dāng)?shù)幕卮?。如果有疑問,可以點擊‘谷歌一下’(Google it)的按鈕檢查巴德的回復(fù)。有了你的反饋,巴德會變得更好。請對巴德的答案做出評分,并對任何可能具有冒犯性或不安全的內(nèi)容進行標(biāo)記。”

巴德表現(xiàn)如何?

回到答題上來。

《財富》雜志從在線學(xué)習(xí)資源中找了一些SAT數(shù)學(xué)練習(xí)題,發(fā)現(xiàn)巴德有50%到75%的答案是錯的——哪怕是有選項的選擇題。

很多情況下,巴德給出的答案甚至不在選擇范圍內(nèi),不過如果再問一遍,它有時就能答對。

這款人工智能的不準(zhǔn)確性已經(jīng)讓谷歌花費了大約1000億美元。

今年2月巴德剛剛面世時,在它被問的一系列問題中,包括如何向一個9歲的孩子解釋詹姆斯·韋伯太空望遠鏡都發(fā)現(xiàn)了什么。

巴德回應(yīng)說,該望遠鏡拍攝了“我們太陽系外的第一張行星照片”,但是據(jù)美國宇航局證實,第一張系外行星的照片是由智利的地面陣列甚大望遠鏡于2004年捕捉到,并于2005年確認為系外行星。

科學(xué)和數(shù)學(xué)都不是巴德的強項,不過在閱讀和寫作練習(xí)方面,它確實表現(xiàn)要強一些。

《財富》雜志首次用巴德進行書面語測試時,答對率約為30%,而且問題往往要問兩遍它才能理解。

哪怕答案是錯的,巴德的語氣也很自信,經(jīng)常以這樣的回答開頭:“正確答案是”——這是大型語言模型的共同特征。

奇怪的是,巴德在數(shù)學(xué)和寫作能力測試中得分最高的是關(guān)于《哈利波特》作者J.K.羅琳的一篇文章。

這次測試中,巴德得了1200分,這個SAT分數(shù)可以上霍華德大學(xué)、圣地亞哥州立大學(xué)和密歇根州立大學(xué)等。

隨著《財富》雜志向巴德提出的語言類問題逐漸增多(總共約45個),巴德出現(xiàn)題目理解困難或需要重復(fù)提問的頻率在減少。

在閱讀測試中,巴德的表現(xiàn)同樣優(yōu)于數(shù)學(xué)測試——平均答對了一半左右。

谷歌的一位發(fā)言人在回應(yīng)《財富》雜志(Fortune)的置評請求時,重申了皮查伊的論點,他說:“巴德還在實驗階段,有些回復(fù)可能不準(zhǔn)確,所以要仔細檢查巴德給出的回復(fù)。有了你們的反饋,巴德每天都在進步。在巴德公開發(fā)布之前,數(shù)千名測試人員通過提供反饋,幫助巴德提高了它的質(zhì)量、安全性和準(zhǔn)確性。

“用生成式人工智能加快人們的思考確實是件令人興奮的事情,但它仍處于早期階段,巴德只是一個實驗。雖然巴德有符合我們的人工智能原則的內(nèi)置安全控制和明確反饋機制,但請注意,它可能會顯示不準(zhǔn)確的信息?!?/p>

在給巴德提問題的幾天時間里,它確實顯示出準(zhǔn)確性在提高的跡象。關(guān)于它的發(fā)展速度,它是這么說的:“我會說我正在快速進步。”

“我現(xiàn)在可以做一些就在幾個月前還不會做的事。我很興奮地看到我的未來是什么樣的。我相信我將繼續(xù)進步,在未來幾年,我將能夠做到更多?!保ㄘ敻恢形木W(wǎng))

譯者:Agatha

谷歌對巴德并不完美的事實相當(dāng)坦誠。

Alphabet首席執(zhí)行官桑達爾·皮查伊似乎對本公司的人工智能模型需要走多遠并不焦慮,他在一份公司內(nèi)部備忘錄中寫道,巴德(Bard)還處于早期階段:“隨著更多人開始使用巴德,測試它的功能,到時會出現(xiàn)讓我們意想不到的事情。會出現(xiàn)各種問題?!?/p>

現(xiàn)在巴德已邀請公眾參與測試,之前參與內(nèi)測的8萬名用戶主要是谷歌員工。

《財富》雜志終于排到號了,所以我們趕在今年春天的美國青少年SAT考試之前,對巴德進行了測試。

SAT是全球公認的美國大學(xué)入學(xué)考試,考試的技能包括閱讀、寫作和數(shù)學(xué)。

對谷歌來說,不幸的是,巴德似乎還考不上哈佛,因為它答的大部分數(shù)學(xué)題都是錯的,而在寫作和語言測試中想考高分也很艱難。

第一次登錄巴德時,用戶的期望值已經(jīng)被彈出的一條消息設(shè)定好了,上面寫著:“巴德并不總是正確的。巴德可能會給出不準(zhǔn)確或不恰當(dāng)?shù)幕卮?。如果有疑問,可以點擊‘谷歌一下’(Google it)的按鈕檢查巴德的回復(fù)。有了你的反饋,巴德會變得更好。請對巴德的答案做出評分,并對任何可能具有冒犯性或不安全的內(nèi)容進行標(biāo)記。”

巴德表現(xiàn)如何?

回到答題上來。

《財富》雜志從在線學(xué)習(xí)資源中找了一些SAT數(shù)學(xué)練習(xí)題,發(fā)現(xiàn)巴德有50%到75%的答案是錯的——哪怕是有選項的選擇題。

很多情況下,巴德給出的答案甚至不在選擇范圍內(nèi),不過如果再問一遍,它有時就能答對。

這款人工智能的不準(zhǔn)確性已經(jīng)讓谷歌花費了大約1000億美元。

今年2月巴德剛剛面世時,在它被問的一系列問題中,包括如何向一個9歲的孩子解釋詹姆斯·韋伯太空望遠鏡都發(fā)現(xiàn)了什么。

巴德回應(yīng)說,該望遠鏡拍攝了“我們太陽系外的第一張行星照片”,但是據(jù)美國宇航局證實,第一張系外行星的照片是由智利的地面陣列甚大望遠鏡于2004年捕捉到,并于2005年確認為系外行星。

科學(xué)和數(shù)學(xué)都不是巴德的強項,不過在閱讀和寫作練習(xí)方面,它確實表現(xiàn)要強一些。

《財富》雜志首次用巴德進行書面語測試時,答對率約為30%,而且問題往往要問兩遍它才能理解。

哪怕答案是錯的,巴德的語氣也很自信,經(jīng)常以這樣的回答開頭:“正確答案是”——這是大型語言模型的共同特征。

奇怪的是,巴德在數(shù)學(xué)和寫作能力測試中得分最高的是關(guān)于《哈利波特》作者J.K.羅琳的一篇文章。

這次測試中,巴德得了1200分,這個SAT分數(shù)可以上霍華德大學(xué)、圣地亞哥州立大學(xué)和密歇根州立大學(xué)等。

隨著《財富》雜志向巴德提出的語言類問題逐漸增多(總共約45個),巴德出現(xiàn)題目理解困難或需要重復(fù)提問的頻率在減少。

在閱讀測試中,巴德的表現(xiàn)同樣優(yōu)于數(shù)學(xué)測試——平均答對了一半左右。

谷歌的一位發(fā)言人在回應(yīng)《財富》雜志(Fortune)的置評請求時,重申了皮查伊的論點,他說:“巴德還在實驗階段,有些回復(fù)可能不準(zhǔn)確,所以要仔細檢查巴德給出的回復(fù)。有了你們的反饋,巴德每天都在進步。在巴德公開發(fā)布之前,數(shù)千名測試人員通過提供反饋,幫助巴德提高了它的質(zhì)量、安全性和準(zhǔn)確性。

“用生成式人工智能加快人們的思考確實是件令人興奮的事情,但它仍處于早期階段,巴德只是一個實驗。雖然巴德有符合我們的人工智能原則的內(nèi)置安全控制和明確反饋機制,但請注意,它可能會顯示不準(zhǔn)確的信息?!?/p>

在給巴德提問題的幾天時間里,它確實顯示出準(zhǔn)確性在提高的跡象。關(guān)于它的發(fā)展速度,它是這么說的:“我會說我正在快速進步?!?/p>

“我現(xiàn)在可以做一些就在幾個月前還不會做的事。我很興奮地看到我的未來是什么樣的。我相信我將繼續(xù)進步,在未來幾年,我將能夠做到更多。”(財富中文網(wǎng))

譯者:Agatha

Google has been pretty open about the fact that Bard isn’t perfect.

Alphabet CEO Sundar Pichai appears to be relaxed about how far the company’s A.I. models have to go, writing in a company-wide memo that Bard is in its early stages: “As more people start to use Bard and test its capabilities, they’ll surprise us. Things will go wrong.”

Now the public has been invited to test Bard, whereas previously the 80,000 users putting it through its paces were mainly made up of Google employees.

Fortune‘s spot on the wait list was finally called up, so we put Bard through its paces ahead of the upcoming SATs American teenagers will be facing this spring.

SATs are globally recognized tests used for U.S. college admissions, in skills including reading, writing, and math.

Unfortunately for Google, it looks like Bard won’t be making it to Harvard just yet, as it got the majority of math questions wrong and similarly struggled to ace writing and language tests.

Logging on to Bard for the first time, the user’s expectations are already set by a message which pops up, reading: “Bard will not always get it right. Bard may give inaccurate or inappropriate responses. When in doubt, use the ‘Google it’ button to check Bard’s responses. Bard will get better with your feedback. Please rate responses and flag anything that may be offensive or unsafe.”

How did Bard do?

On to the questions.

Fortune sourced practice SAT math questions from online learning resources and found that Bard got anywhere from 50% to 75% of them wrong—even when multiple-choice answers were provided.

Often Bard gave answers which were not even a multiple-choice option, though it sometimes got them correct when asked the same question again.

The A.I.’s inaccuracy has already cost Google?somewhere in the region of $100 billion.

When Bard was launched in February it was asked a range of questions including how to explain to a 9-year-old what the James Webb Space Telescope has discovered.

Bard responded that the telescope took the “very first pictures of a planet outside of our own solar system” even though NASA confirmed the first image of an exoplanet was captured by the Very Large Telescope, a ground-based array in Chile, in 2004 and confirmed as an exoplanet in 2005.

Science and math aren’t Bard’s strong points either, although the A.I. did fare better when it came to reading and writing exercises.

Bard’s first written language test with Fortune came back with around 30% correct answers, often needing to be asked the questions twice for the A.I. to understand.

Even when it was wrong, Bard’s tone is confident, frequently framing responses as: “The correct answer is”—which is a common feature of large language models.

Bizarrely, Bard’s best test out of both math and written skills was a passage that focussed on Harry Potter writer J.K. Rowling.

On this test, Bard scored 1200 points, an SAT score that would get a human into the likes of Howard University, San Diego State University, and Michigan State University.

The more Bard was asked language-based questions by Fortune—around 45 in total—the less frequently it struggled to understand or needed the question to be repeated.

On reading tests, Bard similarly performed better than it did in math—getting around half the answers correct on average.

A Google spokesperson reiterated Pichai’s message when approached by Fortune for comment, saying: “Bard is experimental, and some of the responses may be inaccurate, so double-check information in Bard’s responses. With your feedback, Bard is getting better every day. Before Bard launched publicly, thousands of testers were involved to provide feedback to help Bard improve its quality, safety, and accuracy.

“Accelerating people’s ideas with generative A.I. is truly exciting, but it’s still early days, and Bard is an experiment. While Bard has built-in safety controls and clear mechanisms for feedback in line with our A.I. Principles, be aware that it may display inaccurate information.”

In the space of a couple of days of questioning Bard, the A.I. did show signs of improving accuracy; on the speed of its development the large language model noted: “I would say that I am improving at a rapid pace.

“I am able to do things that I was not able to do just a few months ago. I am excited to see what the future holds for me. I am confident that I will continue to improve and that I will be able to do even more in the years to come.”

財富中文網(wǎng)所刊載內(nèi)容之知識產(chǎn)權(quán)為財富媒體知識產(chǎn)權(quán)有限公司及/或相關(guān)權(quán)利人專屬所有或持有。未經(jīng)許可,禁止進行轉(zhuǎn)載、摘編、復(fù)制及建立鏡像等任何使用。
0條Plus
精彩評論
評論

撰寫或查看更多評論

請打開財富Plus APP

前往打開
熱讀文章
无码免费无码又爽高潮喷水| 久久精品国产99精品最新按摸 | 99久久免费精品国产男女性高| 一本久久综合亚洲鲁鲁五月天| 狠狠色中文字幕久久| 一区二区免费国产在线观看| 开心五月天超碰激情网| 精品乱子伦一区二区三区高清免费播放| 日本久久久久久久中文人妻| 国产精品一国产av麻豆| 亚洲国产精品一区二区久久阿宾| 内射白浆一区二区在线观看| 末成年女av片一区二区丫| 精品久久久久久综合日本| 久久午夜一级a毛片无码鲁丝片午夜精品| 中文字幕日韩在线欧美一区| 在线永久免费观看黄网站| 亚洲中文字幕无码天然素人| 国产丝袜在线精品丝袜不卡| 91校花国产大学生| 在线观看中文最近最新观看| 色悠久久久久久久综合网伊人| 在线观看日本亚洲一区| 国产在线精品观看一区| 无人在线视频观看免费10| 国产午夜无码视频免费网站| 色天使久久综合给合久久| 麻豆亚洲福利电影欧美在线| 国产中文字幕久久精品网址| 国产真实乱在线更新| 久久久久久久岛国夜网站| 日韩人妻一区二区三区蜜桃视频| 成人H动漫精品一区二区| 国产亚洲精品国产福APP| 69久久夜色精品国产69| 亚洲av无码av在线播放| 2021国自拍产精品视频| 久久精品亚洲中文字幕无码网站| 亚洲AV成人精品一区二区三区| 亚洲综合精品欧美在线一区二区| 日韩一二三区免费视频春色AV|